2010-06-29 2 views

ответ

5

Heritrix - это поисковый робот с открытым исходным кодом, написанный на Java. Просматривая их javadoc, я вижу, что у них есть класс утилиты Robotstxt для разбора файла robots.txt.

+0

В Robotstxt есть ошибка. Пожалуйста, не используйте его. Потратил много времени. К файлу, подобному этому: User-agent: * Disallow:/ Метод AllowAll Robotstxt говорит «true». – 10101010

1

В SourceForge также есть jrobotx library.

(Полное раскрытие: я отделилась код, который формирует эту библиотеку.)

0

Существует также новый выпуск гусеничного достояния:

https://github.com/crawler-commons/crawler-commons

Библиотека стремится реализовать общие функции для любого веб-гусеничного устройства, и это включает очень удобный парсер robots.txt