Мы создали приложение для индексирования представленных документов во многих форматах, охватывающих Microsoft Office для текста. Проблема в том, что для pdf мы часто прибегаем к преобразованию в Word, а затем к индексированию. Это медленный процесс и проблема, особенно потому, что он не обрабатывает pdf-файлы на основе изображений, где требуется компонент OCR.Хранение документов с полным индексированием текста - PDF
Этот вопрос фокусируется на решении предоставить моим пользователям полнотекстовый поиск библиотеки документов в формате pdf. Если есть сопоставимые решения, предпочтение отдается формам Microsoft Office.
В настоящее время мое приложение использует платформу J2EE с базой данных MySQL. Я был бы открыт для перехода на нереляционную базу данных, если бы это обеспечило значительную выгоду.