У меня есть вариант использования Lucene, в котором требуемые типы поиска очень просты. Я, скорее всего, буду использовать индексацию DOCS_ONLY без каких-либо сохраненных полей или каких-либо сложных надстроек. Документы представляют собой неструктурированный текст на английском языке.Оптимизация Lucene для степени сжатия
Для этого варианта использования наиболее важной задачей для оптимизации является степень сжатия исходных документов на размер индекса на диске. Индекс Lucene должен быть как можно меньше, даже за счет увеличения задержки поиска и обновления.
Мне интересно, как мне настроить Lucene (любая версия), чтобы выполнить это. В частности, какой кодек следует использовать? Есть ли тот, который подчеркивает сжатие по скорости поиска? Есть ли другие настройки, которые я могу настроить, чтобы оптимизировать сжатие списков проводок?
tl; dr: Для индексации DOCS_ONLY в Lucene, как я могу сделать индекс как можно меньшим?
Точный размер трудно сказать на данный момент, но с точки зрения необработанного размера документа 100gb + не находится за пределами сферы возможностей. Обновления и удаления не будут происходить очень часто. – pg1989