Я не так уж и новичок в языках программирования (python), но не понял, где я начну с создания бота или скребка с помощью python ?. я должен учиться в программировании cgi? или скребок работает только с использованием скрипта python? Должен ли я построить для этого сервер? Не знаю, для этого ... спасибо за помощьС чего начать, создавая скребок или бот с помощью python?
ответ
Вот несколько ссылок, которые помогут вам начать работу.
экран выскабливание включает в себя много регулярных выражений, чтобы получить точные данные, которые вы хотите. Вы также хотите знать, какие данные вы хотите проанализировать и как их сохранить.
Чтобы получить страницы, вам необходимо использовать библиотеки, такие как URLLIB (или urllib2) и регулярные выражения (ре) или хороший сценарий, чтобы использовать это BeautifulSoup делать грязную работу (http://www.crummy.com/software/BeautifulSoup/)
If вы хотите создать чистого бота, который делает то, что делают поисковые системы, вам также нужно построить достаточно умного бота, чтобы знать, что вы не продолжаете постоянно пинговать один и тот же домен (это приводит к атаке DOS).
Если вы пытаетесь получить доступ к веб-сайтам, которые сильно используют JavaScript, вы можете в целом найти Selenium.
Selenium - это сервер, который контролирует фактические веб-браузеры на вашем сервере и клиентскую библиотеку (включая порт Python), которая позволяет управлять браузерами и проверять страницы в них.
Это определенно больше накладных расходов, чтобы настроить (и выяснить) сервер и клиентскую библиотеку (и убедиться, что у вас есть рабочий браузер в вашей системе), но если сайт делает много вещей в JavaScript, ваш фактический код соскабливания может быть намного менее волосатым.
- 1. С чего начать Python
- 2. Скребок с JQuery или Python?
- 3. DB - С чего начать?
- 4. С чего начать с SQL?
- 5. С чего начать WebRTC?
- 6. nginx фляжка gunicorn python .... с чего начать?
- 7. путаются с чего начать
- 8. С чего начать с сборки?
- 9. SCIP _ С чего начать
- 10. С чего начать? (Мобильная разработка)
- 11. С чего начать веб-страницу python?
- 12. XSLT, с чего начать?
- 13. DBus, с чего начать
- 14. С чего начать с GKMinmaxStrategy?
- 15. С чего начать с C#?
- 16. nodejs с чего начать?
- 17. Python 3 и Hadoop, с чего начать?
- 18. С чего начать с Direct2d?
- 19. С чего начать изучать аудио- или видеокодеки?
- 20. webdev: с чего начать?
- 21. С чего начать программирование?
- 22. Mean.js, с чего начать?
- 23. С чего начать весну?
- 24. С чего начать AlarmManager?
- 25. XNA С чего начать?
- 26. С чего начать, создавая программу сопряжения микроконтроллеров с помощью графического интерфейса?
- 27. css, javascript - с чего начать?
- 28. Facebook app - С чего начать?
- 29. С чего начать с секвенсера
- 30. С чего начать с C#
Голосование, чтобы закрыть как слишком широкое. –
Ну, я полагаю, только потому, что OP никогда не принимал ответа и не был с тех пор, так что с тех пор он висит как «открытый». –