Сканирование веб-сайта с помощью Python

Для моей первой программы переползания, я планирую сделать следующее:Сканирование веб-сайта с помощью Python

Откройте следующий URL с помощью селена: http://www.google.com/
собрать все Релевент связывает
На открывшейся странице , перечислите все http-ссылки, которые присутствуют, и сохраните их в csv.
Вернитесь к шагу 2, но нажмите на следующий один

Может кто-нибудь дать мне некоторую помощь, чтобы начать? (Я нахожусь на python 2.6.6, если это помогает)

2012-01-09 user1063643

Использование селена для этого сайта является излишним. Сайт не имеет динамического (ajax) контента. Если это ваша первая задача, попробуйте [mechanize] (http://wwwsearch.sourceforge.net/mechanize/). В документации есть образцы – reclosedev

Посмотрите на библиотеку BeautifulSoup, найти ссылки на странице очень просто, и есть примеры на StackOverflow уже.

источник

2012-01-09 18:17:55 Peter

, спасибо каждому. Ваше предложение действительно помогло мне. – user1063643

Я использовал эту библиотеку BeautifulSoup и просканировал ссылку ниже. – user1063643

Посмотрите на библиотеку Python (для регулярных выражений), вы можете использовать ее для сопоставления URL-адресов, соответствующих вашим критериям. – Peter

IMO, lxml намного проще в использовании и имеет API-интерфейс pythonic. Посмотрите here для примера с подробным объяснением.

источник

2012-01-09 19:46:05 schlamar

Вы считаете, что обращаетесь к людям на Cars.com, если ваша цель - просто получить данные? Они могут предоставить вам доступ к каналу или API, предполагая, что ваша конечная цель - получить данные, а не просто разрабатывать программу сканирования.

источник

2012-01-14 18:15:46 carguy

Сканирование веб-сайта с помощью Python

ответ

Смежные вопросы