2013-05-19 9 views
3

Есть ли у MongoDB функция, в которой я мог бы хранить документы PDF, текст или .doc/docx и искать их или выполнять совпадение между двумя документами на ключевое слово найдено в их содержании?Извлечение информации, индексация и поиск PDF-документов, текстовых и текстовых документов с помощью MongoDB

Например:

я мог бы хранить один документ под названием «claim.txt», что имеет значение для
кода диагностики, краткого описания, даты и суммы в нем.
Мне нужно сохранить еще один файл под названием «physician_diagnosis.pdf», который содержит среди прочих текст соответствующее краткое описание в нем.

Я хотел бы оформить запрос, где мог найти любой документ, который имеет как соответствующую дату , так и тот же диагноз. (например, 'pneumonia', '12/12/2012 ')

Возможно ли это с MongoDB, используя только его API, или мне нужно сделать предварительную обработку?

Если возможно, не могли бы вы указать мне хороший пример и документацию.

+2

Вам необходимо преобразовать PDF и .doc/docx в текст, а затем использовать это: http://docs.mongodb.org/manual/core/text-search/ – vinipsmaker

+0

@Edmon, где вы можете решить свою проблему, используя MongoDB? Я сейчас переусердствую, если то, что вы попросили, может быть сделано в MongoDB? Можете ли вы предоставить любую документацию, если вы ее нашли? Спасибо! – Chris

+0

Я нашел это как самый близкий ответ: http://v.bartko.info/?p=463 HTH – Edmon

ответ

1

Ваша задача, вероятно, лучше подходит для чего-то вроде Solr (http://lucene.apache.org/solr/), который имеет входы для разных документов (http://wiki.apache.org/solr/ExtractingRequestHandler). Вы должны будете написать некоторый код, чтобы сделать правильное извлечение.

MongoDB больше предназначен для структурированных данных - хотя мы называем их документами, мы не имеем в виду «документы PDF» или «документы слов» здесь. Это всего лишь общий формат, который поддерживает вложенные типы полей, которые мы называем документом, в отличие от строки реляционной базы данных, которая этого не позволяет.

Смежные вопросы