Я пишу обложку, и для этого я использую парсер robots.txt, я использую стандартный lib robotparser.Robotparser, похоже, не правильно разобрался
Кажется, что robotparser является не разбор правильно, я отладки моего сканеру с помощью Google, robots.txt.
(Эти примеры из IPython)
In [1]: import robotparser
In [2]: x = robotparser.RobotFileParser()
In [3]: x.set_url("http://www.google.com/robots.txt")
In [4]: x.read()
In [5]: x.can_fetch("My_Crawler", "/catalogs") # This should return False, since it's on Disallow
Out[5]: False
In [6]: x.can_fetch("My_Crawler", "/catalogs/p?") # This should return True, since it's Allowed
Out[6]: False
In [7]: x.can_fetch("My_Crawler", "http://www.google.com/catalogs/p?")
Out[7]: False
Это смешно, потому что иногда кажется, что «работа», а иногда, кажется, не получится, я также попробовал то же самое с robots.txt от Facebook и Stackoverflow. Это ошибка от модуля robotpaser
? Или я делаю что-то не так? Если да, то?
мне было интересно, если this ошибка имела все, что связано
Также я использую Python 2.7.3 на Linux-машине (Arch Linux) – 2013-03-11 17:10:55