Использует ли nutch-генератор CrawlDB для начальных ссылок?

Я знаю, что семена inital предоставляются плоским файлом. Однако, куда вставляются эти URL-адреса? Это crawlDB? И если это так, новые ссылки, полученные от искателя, хранятся в crawlDB? и что происходит, когда система отключается, обновляется ли crawlDB при следующем запуске nutch?Использует ли nutch-генератор CrawlDB для начальных ссылок?

На самом деле я хочу, чтобы орех возобновил сканирование, где он остановился в случае выключения системы.

источник

2016-09-09 Abdullah Khan

Да, инъекция превращает ваш плоский список семян в записи в crawldb. Новые ссылки, обнаруженные на этапе синтаксического анализа, объединяются с существующим crawldb во время этапа обновления. Nutch не возобновит сканирование самостоятельно, если система выключится, вам придется перезапустить скрипты Nutch, и действия, которые необходимо предпринять, будут зависеть от того, где он был, когда он остановился.

StormCrawler может быть лучшим вариантом, если вам нужен непрерывный искатель, который возобновляет себя в случае сбоя.

Существует немало учебников по Nutch, которые помогут понять, как это работает, включая on from our blog, в котором описаны как Nutch, так и StormCrawler.

источник

2016-09-09 08:17:55

Использует ли nutch-генератор CrawlDB для начальных ссылок?

ответ

Смежные вопросы