2010-07-04 3 views
1

В настоящее время у меня есть паук, написанный на Java, который входит в веб-сайт поставщика и пауки на веб-сайте. (С использованием HtmlUnit)Как установить защищенный паролем сайт в python?

Он держит сеанса (печенье) и даже позволяет мне включить/отключить Javascript и т.д.

Я также использую HTMLparser (Java), чтобы помочь разобрать HTML и извлечь соответствующую информацию.

Есть ли у python что-то подобное?

ответ

4

Python имеет urllib2 для сканирования страниц, поддерживающих аутентификацию по паролю и файлы cookie.

Существует также HTMLParser для извлечения html, но некоторые люди предпочитают больше функциональности BeatifulSoup.

+0

очень круто, я действительно возбуждаюсь всеми вещами python! – Blankman

+3

Что такое _really_ cool, так это то, что это будет примерно одна миллионная часть кода Java, который вы должны были написать;) – Stephen

+0

действительно, это именно то, что я имел в виду. – Blankman

1

Scrapy API использует urllib2 plus добавляет провода к некоторым различным синтаксическим анализаторам и вспомогательным подпрограммам.

Смежные вопросы