2015-01-14 4 views
0

У меня есть сайт, на котором есть информация о теме (поясняющая, что это такое). У каждой темы есть своя веб-страница. Каждая веб-страница настроена одинаково, и я хочу получить эту информацию автоматически. Я думал использовать что-то вроде wget, чтобы автоматически захватывать информацию, но Im new с wget, поэтому я не знаю, будет ли это работать, и я не знаю, как я запустил его, чтобы перейти на каждую страницу и получить нужную мне информацию.Попытка сохранить информацию на разных веб-страницах

Надеюсь, у меня здесь немного смысла. Как я уже сказал, моя попытка проблемы заключается в использовании wget и, возможно, скрипта python? Я не прошу сценарий о том, как это сделать, просто ищет какое-то направление.

ответ

1

Чтобы получить веб-страницы в Python, а не с помощью wget, я бы рекомендовал, используя urllib2 питона - https://docs.python.org/2/howto/urllib2.html

После того как вы извлекли веб-страницы, вы можете разобрать его с помощью BeautifulSoup - http://www.crummy.com/software/BeautifulSoup/bs4/doc/ - это будет анализировать html для вас, и вы можете перейти прямо к частям требуемой веб-страницы.

2

Каждый раз в то время у меня та же проблема, что я обычно делаю это небольшой скрипт так:

url = "www.yoursite.com/topics" 
custom_regex = re.compile("insert your a regex here") 
req = urllib2.Request(url, headers={"User-Agent": "Magic Browser"}) 
text = urllib2.urlopen(req).read() 
for link in custom_regex.findall(text): 
    print link 

И затем использовать его как это:

python script.py > urls.txt 
wget -i urls 

-i вариант сообщает wget для загрузки всех URL-адресов, перечисленных в файле, по одному URL-адресу в строке.

Смежные вопросы