2013-09-29 4 views
0

Я думал, что у меня был простой вопрос, но почему-то я не могу найти источник ответа .... какие форматы документов могут быть проиндексированы версией Lucene, которая упакована вместе с Railo 4.0?Railo 4 - какие форматы документов поддерживаются Cfindex/Lucene?

Как-то .doc и .pdf, кажется, идут хорошо, но docx и rtf просто не индексируются .... Есть ли список где-нибудь? И для всех поддерживаемых форматов, какой был бы лучший способ проиндексировать эту информацию с помощью cfindex?

 <cfindex 
     collection = "#collection#" 
     action = "update" 
     type = "file" 
     key ="#ABSfilepath#" 
     title="#ABSfilepath#" 
     > 

спасибо!

Вопрос также опубликован в списке рассылки Railo: web link.

+0

Похоже, вы также разместили вопрос о группе Railo Google. Поскольку люди Railo очень хорошо контролируют эту группу, вы, скорее всего, получите окончательный ответ на этот конкретный вопрос, чем здесь. –

+0

привет - я согласен ... просто используя все каналы, которые могут помочь ;-) –

+1

Когда вы публикуете в нескольких местах, ** упоминайте об этом и предоставляете ссылки ** - как для будущих поисковиков, так и для потенциальных ответчиков если они будут тратить свое время на повторение того, что кто-то уже сказал в другом месте! –

ответ

0

Railo 4 использует Lucene 2.4.1 - как вы расскажете? Точно так же вы сообщаете версию для всех сторонних программ, которые использует Railo: найдите файл JAR (в каталоге lib/ext), откройте этот архив (используя 7-zip или аналогичный) и посмотрите META-INF/MANIFEST. MF, где вы найдете содержание, как это:

Спецификация-Заголовок: Lucene Search Engine: ядро ​​ Спецификация Версии: 2.4.1 Спецификация-Vendor: The Apache Software Foundation реализацией Название: org.apache.lucene Реализация-Версия: 2.4.1 750176 - 2009-03-04 21:56:52 Реализация-поставщик: Фонд программного обеспечения Apache

Это, кажется, довольно старая версия и не похоже, что у нее есть какие-либо документы на Apache Lucene website. (Это может можно обновить Lucene, заменив соответствующие JARs, но это также может вызвать проблемы с зависимостями, делать на свой страх и риск.)

Поскольку сайт Lucene не помогает, поиск «Lucene 2.4. 1 индексируемые документы»возвращает a pertinent question about v2.3.2, который спрашивает:

ли Lucene Java поддерживает разбор расширений * .docx, * PPTX, * документы .mpp т.е. Microsoft Windows 2007?

С ответным:

Lucene фактически не поддерживает ни один из типов документов. Что происходит , так это то, что какая-то программа используется для анализа файлов в индексируемый поток и этот поток индексируется. Раньше это был POI в старые времена.

Хорошо, поэтому, полагая, что все еще точно, Lucene не контролирует типы файлов, Apache POI делает.

Проверка JARs говорит нам Railo 4.0 использует Apache POI v3.8 и глядя на POI changelog показывает, что .docx поддержка прибыл в v3.5

Так, ваши .docx файлы должны быть поддержаны вместе с другие форматы MS Office. Если это определенно не индексируется, вам, вероятно, необходимо определить, является ли это проблемой POI или проблемой Lucene или проблемой Railo - создание простого воспроизводимого тестового примера с документами .doc и .docx, вероятно, является хорошим первым шагом.

Помимо этого вам понадобится кто-то, кто знаком с Lucene/POI, чтобы советовать - могут быть или нет файлы журналов, которые будут содержать сведения о возможных ошибках индексирования/поиска или о способах взаимодействия с Lucene напрямую (не через Railo/cfindex), которые могут помочь определить, где находится проблема.

+0

Привет, Питер, спасибо за ваш обширный ответ. Мне нужно будет понять, почему конкретные файловые форматы деинсталлируются, а не индексируются, а другие. И должен ли быть кто-то со специфическими знаниями Lucene/POI о регистрации и т. Д. ... pls! –

Смежные вопросы