2014-01-12 3 views
1

Я совершенно новый, чтобы очищать веб-страницы, но я действительно хочу изучить его на python. У меня есть базовое понимание python.Очистка веб-страниц в python

У меня возникли проблемы с пониманием кода, чтобы очистить веб-страницу, потому что я не могу найти хорошую документацию о модулях, которые использует код.

Кодовые обрывки данных какого-то фильма о this веб-страницы

Я застревают после комментария «выбор в шаблоне следует правилам CSS».

Я хотел бы понять логику этого кода или хорошую документацию для понимания этих модулей. Есть ли предыдущая тема, которую мне нужно изучить?

Код следующее:

import requests 
from pattern import web 
from BeautifulSoup import BeautifulSoup 

url = 'http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=feature&year=1950,2012' 
r = requests.get(url) 
print r.url 

url = 'http://www.imdb.com/search/title' 
params = dict(sort='num_votes,desc', start=1, title_type='feature', year='1950,2012') 
r = requests.get(url, params=params) 
print r.url # notice it constructs the full url for you 

#selection in pattern follows the rules of CSS 

dom = web.Element(r.text) 
for movie in dom.by_tag('td.title'):  
    title = movie.by_tag('a')[0].content 
    genres = movie.by_tag('span.genre')[0].by_tag('a') 
    genres = [g.content for g in genres] 
    runtime = movie.by_tag('span.runtime')[0].content 
    rating = movie.by_tag('span.value')[0].content 
    print title, genres, runtime, rating 

ответ

1

Вот документация BeautifulSoup, которая является HTML и XML-парсер.

Комментарий

выбор в шаблоне следует правилам CSS

означает такие строки, как 'td.title' и 'span.runtime' являются CSS селекторы, которые помогают найти данные, которые вы ищете, где td.title поиски для элемента <TD> с атрибутом class="title".

Код выполняет итерацию через элементы HTML в телеобъекте и извлекает заголовок, жанры, время исполнения и рейтинг с помощью селекторов CSS.

Смежные вопросы