2015-12-10 3 views
0

Дело в том, что у меня есть больше, чем 1TB документов, которые необходимо проиндексировать с помощью solr, большая часть этой суммы - это pdf/word, я бы сказал, 80%, который превращается в 800GB данных, которые необходимо индексировать, но я верю, что Мне не нужен диск с 800GB для хранения индекса. Итак, мой вопрос в том, что в среднем процент текста документа pdf/word? С этой информацией я могу оценить размер диска.Что такое среднее процентное содержание документа pdf/word?

+0

Размер индекса будет зависеть от того, хотите ли вы сохранить текст в индексе или нет. Обычно вы сохраняете текст в индексе, если хотите извлечь его из индекса (например, чтобы показать фрагменты контекста в ваших результатах). – adrianbanks

ответ

0

Чтобы индексировать PDF-файлы/MSWords, Solr использует Apache Tika под обложками. Если вы планируете делать такую ​​интенсивную индексацию, вы можете фактически использовать Tika в автономном клиенте и отправлять только извлеченную часть в Solr. Это будет как быстрее, так и меньше воздействовать на самого Solr, поскольку извлечение происходит из его процесса.

Что означает, что в качестве первой версии программы вы можете написать что-то, что использует Tika для чтения документов и просто рассчитать размер экстента, который вы получите. Не сохраняя его. Запустите это против представительской части ваших исходных документов, и вы должны получить свои реальные проценты.

0

Без доступа к представительному набору ваших файлов почти невозможно оценить, какой процент от размера файла представляет текст.

В целом, если есть много изображений или обширный графический текст без текста, процент будет составлять всего несколько процентов от размера файла.

Теперь для того, чтобы получить представление о файлах я могу предложить два подхода:

  • использование Adobe Acrobat Pro, сделать «Сохранить как ...» в течение нескольких ваших PDF файлов, в В диалоговом окне «Сохранить как ...» установите параметр «Оптимизированный PDF», затем перейдите в «Настройки ...», а в диалоговом окне настроек нажмите «Использование пространства аудита ...» - вы получите диалоговое окно с указанием размеров для нескольких типов данных в PDF, например изображения, накладные расходы, метаданные и т. д. В то время как он не отображает текст как таковой, относительный вклад «потоки контента» будет отличным показателем вашего текстового размера (в то время как потоки контента могут рисовать много разных вещей, а не только текст , они также, как правило, Flate [фильтр, подобный сжатию ZIP] сжаты)
  • используйте любой достойный просмотрщик PDF по своему вкусу, выберите весь текст в нем и сохраните его в текстовом файле; в зависимости от того, какие инструменты вы используете, вы можете автоматизировать это в командной строке или написать небольшую программу, например. с PDFBox

Отказ от ответственности: Я не в состоянии помочь с файлами Word, но извлечение только сырого текста из Word должно дать вам аналогичную ориентировочную информацию.

Смежные вопросы