Solr paging 100 миллионов Результирующий набор документов

Я понимаю проблемы/ограничения в области глубокого подкачки в Solr и что некоторые новые функции реализуются. Я пытаюсь выполнить глубокую подкачку очень больших наборов результатов (например, более 100 миллионов документов), используя отдельное проиндексированное поле (целое число), в которое я вставляю случайную переменную (между 0 и некоторым известным MAXINT). Когда вы запрашиваете большие результирующие наборы, я выполняю начальный запрос поля без возвращаемых строк, а затем на основе подсчета, я делю диапазон 0 на MAXINT, чтобы получить средние результаты PAGE_COUNT, выполнив запрос снова в поддиапазоне случайную переменную и захват всех строк в этом диапазоне. Очевидно, что фактическое количество строк будет меняться, но оно должно следовать предсказуемому распределению.Solr paging 100 миллионов Результирующий набор документов

Я хочу знать - кто-нибудь сделал это в масштабе? Должно ли это работать? Я расскажу о своих выводах, но захотел создать закладку в stackoverflow для этой проблемы.

источник

2014-12-23 Aaron Beach

См [SolrCloud: обходной путь для классической пагинации с «начинается, строками» параметры] (http://stackoverflow.com/questions/25306028/solrcloud -workaround-в-классической пагинация-с-Start-строка-параметры/25307700 # 25307700) – MatsLindh

Проверьте это руководство здесь. Курсоры должны быть достаточно эффективными, если и не хотят перегружать Solr

https://cwiki.apache.org/confluence/display/solr/Pagination+of+Results

источник

2014-12-24 09:35:47 Windys

Solr paging 100 миллионов Результирующий набор документов

ответ

Смежные вопросы