2012-05-22 4 views
-5

У меня есть тысячи Cvs, и я хочу найти резюме, имеющие «информатику» в качестве фона.Какая хорошая альтернатива для поиска Lucene?

Итак, я googled и узнал, что Lucene выполняет эту работу, и мне нужно передать данные Lucene, и она индексирует все документы.

При поиске конкретного текста (например, «Compuet science»), результат будет соответствовать совпадениям результатов.

Для этого мне нужно преобразовать MSword-93/MSword-2007/PDF в текст и передать Lucene.

я могу получить текст из MSword2007 документов, но я не могу получить от MSWord 2003

Есть много PDF писателей, но я не получил какой-либо PDF библиотеку для чтения, который может это делает.

Пожалуйста, пролишите свет на библиотеку PDF-ридера и конвертируйте документы ms93 в текст ИЛИ, пожалуйста, дайте мне знать, есть ли альтернативы для поиска Lucene.

Спасибо, большое спасибо за ответы

+4

Вы спрашиваете здесь полдюжины вопросов. Пожалуйста, ограничьте сферу своего вопроса одной четко определенной темой. – deceze

ответ

0

Вы можете использовать Apache Solr или непосредственно Tika для извлечения текста из PDF-файлов и MS Word и индексируют. Оба являются проектами Java, но вы можете вызвать их сервер из PHP.

Смежные вопросы