2013-08-19 1 views
0

Из моего понимания Nutch, когда Nutch выполняет повторный поиск и пытается извлечь документ, который больше не существует, он генерирует 404 и устанавливает статус этого документа в DB_GONE. Когда я с Nutch повторного сканирования она генерирует ошибку 404, но когда я сделать:Nutch не перемещает документы в состояние DB_GONE

readdb folder/crawldb - stats 

он показывает файл в качестве db_unfetched в отличие от db_gone. Это вызывает большие проблемы, так как я не могу держать мой индекс Solr уточненного

Если вы хотите, чтобы проверить мой Solr или Nutch до установленного-то следовать моему руководству пользователя, и это должно быть довольно идентично: http://amac4.blogspot.co.uk

ответ

1

Проверьте db.fetch.retry.max Недвижимость в файле конфигурации nutch. По умолчанию он установлен на 3. Только после максимального количества попыток орех отметит документ как db_gone. , т. Е. По умолчанию после 3-го повторного гайки отметит документ db_gone, до этого статус останется db_unfetched.

+0

Большое вам спасибо! –