Для моей первой программы переползания, я планирую сделать следующее:Сканирование веб-сайта с помощью Python
- Откройте следующий URL с помощью селена: http://www.google.com/
- собрать все Релевент связывает
- На открывшейся странице , перечислите все http-ссылки, которые присутствуют, и сохраните их в csv.
- Вернитесь к шагу 2, но нажмите на следующий один
Может кто-нибудь дать мне некоторую помощь, чтобы начать? (Я нахожусь на python 2.6.6, если это помогает)
Использование селена для этого сайта является излишним. Сайт не имеет динамического (ajax) контента. Если это ваша первая задача, попробуйте [mechanize] (http://wwwsearch.sourceforge.net/mechanize/). В документации есть образцы – reclosedev