2013-02-15 3 views
4

Я хочу отключить проверку robots.txt в Nutch и сканировать все с веб-сайтов. Disable означает перед извлечением или анализом любого веб-сайта, пропустите проверку robot.txt. Возможно ли это?Отключить проверку robots.txt в nutch

+4

Вы ** действительно не должны ** делать это. Похоже, что проект поставляется в виде исходного кода под лицензией _Apache, Version 2.0_, поэтому вы можете редактировать строки в RobotRules или RobotRulesParser, чтобы обрабатывать каждый URL как «разрешенный». Если вы внесете какие-либо изменения здесь, вы должны добавить что-то к агенту пользователя, чтобы отразить, что это не нормальная версия программного обеспечения. –

+0

Я ищу способ отключить использование конфигурации, чтобы не менять код. –

+0

при этом [ссылка] (http://lucene.472066.n3.nabble.com/Ignoring-Robots-txt-td619276.html) есть дискуссия по аналогичному вопросу. Надеюсь, это будет полезно для вас. –

ответ

0

насколько я понимаю, мы не можем отключить robots.txt в nutch.

Смежные вопросы