2013-02-17 3 views
4

Я заранее извиняюсь, если этот вопрос уже был дан где-то - я не смог его найти.Solr: Количество отправленных файлов не равно maxDoc

Я относительно новичок в Solr и выполнял инструкции, данные tutorial для использования стандартного SimplePostTool для индексации моих данных из командной строки. В настоящее время я использую Solr 4.0 в своем тестировании.

Во-первых, я удаляю все в своем индексе по запросу. Затем я указываю SimplePostTool нескольким каталогам и индексирую десятки тысяч файлов. В моем случае, сейчас, каждый XML-файл является отдельным документом. Некоторые документы могут иметь один и тот же уникальный идентификаторKey. Если это имеет значение, размеры документов XML варьируются от 460 КБ.

SimplePostTool возвращается, когда он закончен, и говорит, что было проиндексировано 26 541 файл. Затем я просматриваю страницу Admin collection1 и вижу Num Docs = 20,985 и Max Doc = 22,921.

Я видел other posts, обсуждая несоответствие между Num Docs и Max Doc (я чувствую, что понимаю, что переписывает поведение достаточно). Мой вопрос в том, почему количество индексированных документов, о которых сообщает SimplePostTool, не соответствует Max Doc, предоставленному на странице администрирования Solr?

+0

«может иметь тот же uniqueKey ID», что означает, что второй загрузки перезаписывает первый; без предупреждения. Фактически, в Solr обновление документа совпадает с добавлением нового документа с тем же идентификатором. – aitchnyu

+1

Правильно я это понимаю. Это не мой вопрос. – TimmTheEnchanter

ответ

5

Причины у вас есть разное количество numDocs и maxDoc:

numDocs представляет количество доступных для поиска документов в индексе (и будет больше, чем количество файлов XML, так как некоторые файлы содержали более чем один). maxDoc может быть больше, поскольку число maxDoc включает в себя логически удаленные документы, которые еще не удалены из индекса. Вы можете повторно размещать образцы XML-файлов снова и снова столько, сколько хотите, и numDocs никогда не будет увеличиваться, потому что новые документы будут постоянно заменять старые. От: Solr official Tutorial. Это относится к более старым версиям.

Вы можете удалить логически удаленные файлы за счет оптимизации индекса ->

+0

Возможно, мне было непонятно: «В моем случае ... каждый XML-файл является отдельным документом». - ни один файл XML не содержит более одного документа. Я ожидаю, что количество документов, проиндексированных SimplePostTool, будет> = numDocs, но никогда TimmTheEnchanter

Смежные вопросы