Lucene не документирует ограничения механизма хранения. Кто-нибудь знает максимальное количество индексов, разрешенных для каждого документа?Какое максимальное количество индексов lucene.net может обрабатывать в документе
ответ
Как предлагается для всех типов индексов (Lucene, RDBMS или иначе), предлагается индексировать наименьшее возможное количество полей, поскольку оно уменьшает размер вашего индекса и сокращает накладные расходы во время выполнения из индекса.
С учетом этого ограничения на количество полей ограничены вашими системными ресурсами. Поля идентифицируются по их имени (с учетом регистра), а не по произвольному числовому идентификатору, который обычно становится ограничивающим фактором в этих типах систем. Теоретические ограничения количества полей также трудно предсказать в системе без строгих максимальных длин имен полей, таких как Lucene.
Я лично использовал более 200 анализируемых полей более чем на 2 миллиарда документов без проблем. В то же время производительность для того же индекса не была тем, чего я ожидал с меньшими индексами на среднюю Azure VM.
Когда речь идет о номерах терминов, текущая реализация Lucene использует Java int для хранения индекса термина, что означает, что максимальное количество уникальных терминов в любом сегменте индекса составляет ~ 2,1 миллиарда раз от индекса индексного интервала (по умолчанию 128) = ~ 274 миллиарда. Это технически не является ограничением формата индексного файла, как раз в текущей реализации Lucene.
Аналогично, Lucene использует Java int для ссылки на номера документов, а формат индексного файла использует Int32 на диске для хранения номеров документов. Это ограничение как формата индексного файла, так и текущей реализации. В конце концов, их следует заменить либо значениями UInt64, либо, еще лучше, значениями VInt, которые не имеют ограничений.
- 1. Какое максимальное количество сокетов может обрабатывать epoll?
- 2. Какое максимальное количество флагов flag_shih_tzu может обрабатывать?
- 3. Какое максимальное количество сокетов, которые select() может обрабатывать в Windows?
- 4. Какое максимальное количество данных может обрабатывать приложение iOS?
- 5. Какое максимальное количество листов может обрабатывать книга Excel?
- 6. Какое максимальное число может обрабатывать десятичный класс?
- 7. Какое максимальное число PHP может обрабатывать?
- 8. Максимальное количество индексов в каталоге?
- 9. Какое максимальное количество секций может иметь PE?
- 10. Какое максимальное количество осколков может иметь MongoDB?
- 11. Какое максимальное количество соединений?
- 12. Какое максимальное количество HttpSession атрибутов
- 13. Максимальное количество атрибутов узла в XML-документе
- 14. Какое максимальное количество потоков может иметь процесс в окнах
- 15. Какое максимальное количество элементов может иметь перечисление в C?
- 16. Какое максимальное количество потоков доступно в SpecRun
- 17. Какое максимальное количество повторений разрешено в vbscript
- 18. Какое максимальное количество страниц может генерировать apache fop?
- 19. Какое максимальное количество строк может хранить одна таблица SQL Server?
- 20. Какое максимальное количество строк DataGridView может отобразить ОК?
- 21. Какое максимальное количество байтов может получить WSARecv за один раз?
- 22. Какое максимальное количество столкновений может быть вызвано хэшированием n ключей?
- 23. Какое максимальное количество параллельных подключений может обрабатывать сокет без учета вычислительных ресурсов?
- 24. Какое максимальное количество параметров может иметь процедура PL/SQL?
- 25. Какое максимальное количество арендаторов Azure Active Directory?
- 26. Какое максимальное количество услуг ограничено ОС Android?
- 27. Максимальное количество таблиц в MySQL
- 28. Каково максимальное количество Ibecons, которое может обрабатывать мобильное устройство/планшет?
- 29. Каково максимальное количество тем, которое может обрабатывать брокер ActiveMQ?
- 30. Имеет ли «grep» максимальное количество файлов, которые он может обрабатывать?
Что вы подразумеваете под "max number of indexes"? Индекс состоит из документов, которые состоят из полей, состоящих из терминов. Вы имеете в виду максимальное количество полей? –
да, это правильно. Знаете ли вы максимальное количество полей, которые могут быть проиндексированы в документе? – Luke101