Из моего понимания Nutch, когда Nutch выполняет повторный поиск и пытается извлечь документ, который больше не существует, он генерирует 404 и устанавливает статус этого документа в DB_GONE. Когда я с Nutch повторного сканирования она генерирует ошибку 404, но когда я сделать:Nutch не перемещает документы в состояние DB_GONE
readdb folder/crawldb - stats
он показывает файл в качестве db_unfetched в отличие от db_gone. Это вызывает большие проблемы, так как я не могу держать мой индекс Solr уточненного
Если вы хотите, чтобы проверить мой Solr или Nutch до установленного-то следовать моему руководству пользователя, и это должно быть довольно идентично: http://amac4.blogspot.co.uk
Большое вам спасибо! –