Я знаю, что семена inital предоставляются плоским файлом. Однако, куда вставляются эти URL-адреса? Это crawlDB? И если это так, новые ссылки, полученные от искателя, хранятся в crawlDB? и что происходит, когда система отключается, обновляется ли crawlDB при следующем запуске nutch?Использует ли nutch-генератор CrawlDB для начальных ссылок?
На самом деле я хочу, чтобы орех возобновил сканирование, где он остановился в случае выключения системы.