2015-07-16 4 views
0

Я использую версию apache nutch 1.10, и я поменял исходники, чтобы сохранить исходные файлы htmls, css, js в каталог на локальном диске, все работает нормально, но после того, как шаг выборки идет медленно как я могу пропустить парсинг? я бег ползать, используя эту команду:apache nutch skip 'parse' stage

$ bin/crawl urls/ data/ 10 

ответ

0

Вы используете бен/ползание скрипт, который будет идти снова и снова (количества раундов раз) на генерацию выборки-разборе -... шаги , Проверьте nutch tutorial, вы можете выпустить любую команду самостоятельно (и создать собственный скрипт) с помощью bin/nutch.

Однако, если я понимаю, что вы делаете правильно, то есть индексирование html/css/js в локальную файловую систему, вместо изменения источников, вы можете create your own plugins (вам понадобится модуль синтаксического анализа и индекс- плагин, я думаю), и применять их на стандартном процессе nutch.