2015-03-05 2 views
1

Мы создали приложение для индексирования представленных документов во многих форматах, охватывающих Microsoft Office для текста. Проблема в том, что для pdf мы часто прибегаем к преобразованию в Word, а затем к индексированию. Это медленный процесс и проблема, особенно потому, что он не обрабатывает pdf-файлы на основе изображений, где требуется компонент OCR.Хранение документов с полным индексированием текста - PDF

Этот вопрос фокусируется на решении предоставить моим пользователям полнотекстовый поиск библиотеки документов в формате pdf. Если есть сопоставимые решения, предпочтение отдается формам Microsoft Office.

В настоящее время мое приложение использует платформу J2EE с базой данных MySQL. Я был бы открыт для перехода на нереляционную базу данных, если бы это обеспечило значительную выгоду.

ответ

0

Я открыт для других идей, но это лучшее решение, которое я смог найти в своих исследованиях.

Я исследовал множество инструментов и оказался в тесте между такими, как Amazon Cloud Search и Google Drive SDK. Оба имеют мощные функции индексирования, маркировки и пользовательских атрибутов, позволяющие осуществлять надежный полнотекстовый поиск.

Amazon Cloud Search, к сожалению, из коробки, не обеспечивает PDF индексации (source) и даже с обходными, такими как с помощью инструмента экспериментальной командной строки (documented here) для генерации SDF из входного файла, а затем подачи через API , Тогда мне пришлось бы интегрировать мой собственный или другой инструмент OCR для сторонних разработчиков.

Google Drive SDK/API в то время как существует значительный недостаток, что требует, чтобы каждый пользователь имеет учетную запись Google (путем обмена счет между пользователями, я бы тогда придется загружать файлы, чтобы служить им, так как права доступа к файлам не может быть легко работал с помощью URI), эта платформа соответствует и превосходит мою желаемую функциональность. Все, что нужно сделать при загрузке, это установить для OCR parameter значение true.

Смежные вопросы