2010-02-19 2 views
5

Я разработчик Symfony, а мой веб-сервер - Linux. Я уже использую плагин sfLucene.Индексирование PDF-файлов с помощью Symfony с использованием Lucene

Каков самый простой способ индексирования PDF-файлов для поиска на сервере PHP Linux?

  1. XPDF, установленный like this
  2. Apache Tika через SOLR sfLucene plugin branch
  3. третий вариант?

Спасибо!

ответ

3

Исходя из фона Zend, я обычно рекомендую использовать Zend_Search_Lucene. Пример XPDF действительно прост и выглядит просто. XPDF лицензируется как GPL - если это соответствует вашим потребностям, перейдите на # 1!

ZF может быть легко интегрирован в ваши проекты Symfony, например. для Twitter Call.

2

Существует множество библиотек для извлечения текстового содержимого из PDF. С помощью любого из них вам необходимо создать документ lucene с содержимым. Наиболее полезными будут те, у которых уже есть интеграция lucene.

Apache PDFBox может create a lucene документ непосредственно из файла PDF. Он будет включать поля метаданных PDF, а также текстовое содержимое.

Смежные вопросы