2010-06-19 2 views
8

Я не так уж и новичок в языках программирования (python), но не понял, где я начну с создания бота или скребка с помощью python ?. я должен учиться в программировании cgi? или скребок работает только с использованием скрипта python? Должен ли я построить для этого сервер? Не знаю, для этого ... спасибо за помощьС чего начать, создавая скребок или бот с помощью python?

+0

Голосование, чтобы закрыть как слишком широкое. –

+0

Ну, я полагаю, только потому, что OP никогда не принимал ответа и не был с тех пор, так что с тех пор он висит как «открытый». –

ответ

1

экран выскабливание включает в себя много регулярных выражений, чтобы получить точные данные, которые вы хотите. Вы также хотите знать, какие данные вы хотите проанализировать и как их сохранить.

Чтобы получить страницы, вам необходимо использовать библиотеки, такие как URLLIB (или urllib2) и регулярные выражения (ре) или хороший сценарий, чтобы использовать это BeautifulSoup делать грязную работу (http://www.crummy.com/software/BeautifulSoup/)

If вы хотите создать чистого бота, который делает то, что делают поисковые системы, вам также нужно построить достаточно умного бота, чтобы знать, что вы не продолжаете постоянно пинговать один и тот же домен (это приводит к атаке DOS).

2

Если вы пытаетесь получить доступ к веб-сайтам, которые сильно используют JavaScript, вы можете в целом найти Selenium.

Selenium - это сервер, который контролирует фактические веб-браузеры на вашем сервере и клиентскую библиотеку (включая порт Python), которая позволяет управлять браузерами и проверять страницы в них.

Это определенно больше накладных расходов, чтобы настроить (и выяснить) сервер и клиентскую библиотеку (и убедиться, что у вас есть рабочий браузер в вашей системе), но если сайт делает много вещей в JavaScript, ваш фактический код соскабливания может быть намного менее волосатым.

Смежные вопросы