У меня есть сайт для сканирования, который включает некоторые ссылки на pdf-файлы. Я хочу, чтобы nutch обходила эту ссылку и выгружала их как .pdf-файлы. Я использую Apache Nutch1.6 и я Тринга это в Java, какКак просканировать .pdf ссылки с помощью Apache Nutch
ToolRunner.run(NutchConfiguration.create(), new Crawl(),
tokenize(crawlArg));
SegmentReader.main(tokenize(dumpArg));
может кто-нибудь помочь мне в этом