0

Я должен хранить tiff (формат файла изображения тегов) или файл в формате pdf в mongodb, который должен иметь текстовый поиск. например, если мы хотим искать «на основе текста», он должен иметь возможность искать.сохранение отсканированного файла (pdf, tiff, jpeg) в MongoDB.

Я собираюсь использовать .net mvc или java с mongodb.

так как я могу хранить этот файл pdf, а затем можно получить из базы данных.

любое предложение будет оценено.

благодаря

ответ

2

Файлы можно сохранить с помощью MongoDb GridFs, как описано в this question, и извлечь тексты из файла PDF, используя некоторые функции, описанные в this question. ;).

HTH

0

Я думаю, что вы должны сохранить файлы в файловой системе сервера и путь к файлу и строку из файла внутри MongoDB, Это более эффективно, чтобы прочитать файл с серверов затем загрузите их из MongoDB.

Другой вариант - сохранить файл как двоичные данные, но тогда вы не сможете выполнить поиск внутри файла.

+0

все в порядке. но если я следую первому пути, о котором вы говорили выше, могу ли я искать в файле? Основная цель - поиск в файле. –

+0

В случае, если это pdf с текстом, вы можете извлечь весь текст и сохранить его seperatly, tiff и images, вам придется делать OCR и обрабатывать их отдельно, чтобы извлечь весь текст, по которому вы будете выполнять свои поисковые запросы. –

Смежные вопросы