Описание (для справки):Найти кратчайшее время индексации в Solr
Я хочу индексировать весь диск файлов: ~ 2TB
Я получаю список файлов (с помощью библиотеки Коммонс ИО).
После того, как у меня есть список файлов, я иду через каждый файл и извлечь считываемые данные, что при использовании Apache Тик
После того, как у меня есть данные, я индексация его с помощью Solr.
Я использую solrj с приложением Java
Мой вопрос: Как решить, какой размер сбора для передачи Solr. Я пробовал передавать разные размеры с разными результатами, т. Е. Иногда 150 документов на коллекцию выполняют более 100 документов, но иногда они этого не делают. Является ли их оптимальным способом/конфигурацией, которую вы можете настроить, поскольку этот процесс необходимо выполнять повторно.
Осложнения:
1) Файлы хранятся на сетевом диске, извлекая имена файлов/файлов занимает некоторое время тоже.
2) И эта программа (Java приложение) и Solr себе не может использовать более чем 512 Мб оперативной памяти