2011-12-21 4 views
1

Я читал this, но мне было просто интересно, имеет ли Solr возможность поиска статических файлов (т. Е. Вне системы управления контентом или базы данных)?Может ли Solr индексировать/искать статические файлы?

Некоторые из моих файлов просто прямо вверх HTML ... или на стороне сервера код с HTML «блоков» ...

+0

Вы имеете в виду загрузки богатые текстовые документы, такие как PDF, HTML, документы? Это http://wiki.apache.org/solr/ExtractingRequestHandler – aitchnyu

+0

Да, некоторые из них являются PDF-файлами ... но также у меня есть некоторые .cfm-файлы с блоками HTML внутри них ... – redconservatory

+0

Индексирование разметки ColdFusion? Вы немного объясните, сэр! Solr будет индексировать «он эгоцентричный ослик» и «he = self :: center (++ jackass)» ** точно ** так же: извлечь слова из пунктуации (токенизация), удалить стоп-слова, затем найти корень каждого слова (завершение) и сделать его доступным для запросов. Вы хотите проект вроде Nullege? Или управлять репо-кодом? TortoiseHG, Mercurial GUI для этого полезен. – aitchnyu

ответ

2

Solr может проиндексировать ввода текста. Важным является то, что он индексирует текст. Поэтому, если ваши статические файлы не являются текстовыми файлами, вам может понадобиться запустить их с помощью инструмента, например, Tika. Тогда SolR не должен иметь проблем с индексированием извлеченных текстовых данных.

Смежные вопросы