2011-11-01 2 views
-3
for i in range(1,1000000): 

    page = urllib2.urlopen("http://www.palgrave.com/products/title.aspx?pid="+str(i)) 
    print "http://www.palgrave.com/products/title.aspx?pid="+str(i) 
    soup = BeautifulSoup(page) #retreive 

    books = soup.findAll("div",{"id":"Title"}) #process 

Мне нужно проползти весь каталог для издателя. мне нужно получить:Beautifulsoup scraping book catalog

  • Книга
  • Название
  • издание
  • Издательство
  • PubDate
  • PriceCurrency
  • ISBN13
  • Описание (в пределах вкладке AJAX)
+1

В чем вопрос? – 0xd

+0

Мне нужно вытащить изображение для каждой книги в каталоге. – user1023506

+0

Не могли бы вы предоставить блок HTML, представляющий книгу? – 0xd

ответ

0

Использование XPath для извлечения содержимого из этих мест