Q

Beautifulsoup scraping book catalog

2011-11-01 2 views -3 likes

-3

for i in range(1,1000000): 

    page = urllib2.urlopen("http://www.palgrave.com/products/title.aspx?pid="+str(i)) 
    print "http://www.palgrave.com/products/title.aspx?pid="+str(i) 
    soup = BeautifulSoup(page) #retreive 

    books = soup.findAll("div",{"id":"Title"}) #process

Мне нужно проползти весь каталог для издателя. мне нужно получить:Beautifulsoup scraping book catalog

Книга
Название
издание
Издательство
PubDate
PriceCurrency
ISBN13
Описание (в пределах вкладке AJAX)

источник

2011-11-01 user1023506

+1

В чем вопрос? – 0xd

+0

Мне нужно вытащить изображение для каждой книги в каталоге. – user1023506

+0

Не могли бы вы предоставить блок HTML, представляющий книгу? – 0xd

A

ответ

0

Использование XPath для извлечения содержимого из этих мест

источник

2011-11-03 13:40:42 hoju

Смежные вопросы