Дело в том, что у меня есть больше, чем 1TB
документов, которые необходимо проиндексировать с помощью solr, большая часть этой суммы - это pdf/word, я бы сказал, 80%
, который превращается в 800GB
данных, которые необходимо индексировать, но я верю, что Мне не нужен диск с 800GB
для хранения индекса. Итак, мой вопрос в том, что в среднем процент текста документа pdf/word? С этой информацией я могу оценить размер диска.Что такое среднее процентное содержание документа pdf/word?
ответ
Чтобы индексировать PDF-файлы/MSWords, Solr использует Apache Tika под обложками. Если вы планируете делать такую интенсивную индексацию, вы можете фактически использовать Tika в автономном клиенте и отправлять только извлеченную часть в Solr. Это будет как быстрее, так и меньше воздействовать на самого Solr, поскольку извлечение происходит из его процесса.
Что означает, что в качестве первой версии программы вы можете написать что-то, что использует Tika для чтения документов и просто рассчитать размер экстента, который вы получите. Не сохраняя его. Запустите это против представительской части ваших исходных документов, и вы должны получить свои реальные проценты.
Без доступа к представительному набору ваших файлов почти невозможно оценить, какой процент от размера файла представляет текст.
В целом, если есть много изображений или обширный графический текст без текста, процент будет составлять всего несколько процентов от размера файла.
Теперь для того, чтобы получить представление о файлах я могу предложить два подхода:
- использование Adobe Acrobat Pro, сделать «Сохранить как ...» в течение нескольких ваших PDF файлов, в В диалоговом окне «Сохранить как ...» установите параметр «Оптимизированный PDF», затем перейдите в «Настройки ...», а в диалоговом окне настроек нажмите «Использование пространства аудита ...» - вы получите диалоговое окно с указанием размеров для нескольких типов данных в PDF, например изображения, накладные расходы, метаданные и т. д. В то время как он не отображает текст как таковой, относительный вклад «потоки контента» будет отличным показателем вашего текстового размера (в то время как потоки контента могут рисовать много разных вещей, а не только текст , они также, как правило, Flate [фильтр, подобный сжатию ZIP] сжаты)
- используйте любой достойный просмотрщик PDF по своему вкусу, выберите весь текст в нем и сохраните его в текстовом файле; в зависимости от того, какие инструменты вы используете, вы можете автоматизировать это в командной строке или написать небольшую программу, например. с PDFBox
Отказ от ответственности: Я не в состоянии помочь с файлами Word, но извлечение только сырого текста из Word должно дать вам аналогичную ориентировочную информацию.
- 1. Что такое "Содержание дерева документов"?
- 2. Что такое:!: Среднее?
- 3. Что такое | = среднее?
- 4. Содержание конструкторского документа - что нужно?
- 5. Что такое среднее ниткой безопасным
- 6. Прочитать индекс (содержание) документа документа
- 7. Показывать процентное содержание файла при загрузке AFNetworking
- 8. Что такое среднее zendframework предлагает установить
- 9. Что такое синхронное среднее значение в C++
- 10. Что такое $ this-> переменное среднее
- 11. Что такое среднее арифметическое пустой последовательности?
- 12. Что такое "!" среднее значение в VBA
- 13. Что такое Google Analytics «Среднее время загрузки страницы»
- 14. Что такое содержание в Save() Джанго
- 15. Что такое процентное улучшение во времени, если я использую Threads?
- 16. Что такое <span> содержание</span> == $ 0 среднее значение в html?
- 17. Что такое документ документа V2 для документов?
- 18. Что такое класс документа в редакторе аса
- 19. Что такое тип вложенного документа в mogoose?
- 20. Вычислить среднее значение MongoDB документа
- 21. Mongo - Среднее значение второго документа
- 22. JQuery заменить полное содержание документа
- 23. Дополнительное содержание в конце документа
- 24. Solr не индексирует содержание документа
- 25. получить содержание тегов с помощью JavaScript тега, что «вне документа»
- 26. Как вы относите процентное содержание текста в андроиде?
- 27. SSRS Вычислить процентное содержание группы строк из общего
- 28. Подсчет количества наблюдений и их процентное содержание в SAS
- 29. Как подсчитать количество и процентное содержание поднабора в общедоступной таблице?
- 30. Что такое "?" среднее значение в параметрах цикла for в JavaScript?
Размер индекса будет зависеть от того, хотите ли вы сохранить текст в индексе или нет. Обычно вы сохраняете текст в индексе, если хотите извлечь его из индекса (например, чтобы показать фрагменты контекста в ваших результатах). – adrianbanks