Я хочу скопировать данные с this page. Вот мой текущий код:python scrapy extract данные с сайта
buf = cStringIO.StringIO()
c = pycurl.Curl()
c.setopt(c.URL, "http://www.guardalo.org/99407/")
c.setopt(c.VERBOSE, 0)
c.setopt(c.WRITEFUNCTION, buf.write)
c.setopt(c.CONNECTTIMEOUT, 15)
c.setopt(c.TIMEOUT, 15)
c.setopt(c.SSL_VERIFYPEER, 0)
c.setopt(c.SSL_VERIFYHOST, 0)
c.setopt(c.USERAGENT, 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:8.0) Gecko/20100101 Firefox/8.0')
c.perform()
body = buf.getvalue()
c.close()
response = HtmlResponse(url='http://www.guardalo.org/99407/', body=body)
print Selector(response=response).xpath('//edindex/text()').extract()
Это работает, но мне нужна ссылка, ссылка на видео и описание как отдельные переменные. Как я могу это достичь?
для видео требуется захватить этот код: L49VXZwfup8, это код видео с youtube! – pythoncoder
@pythoncoder в порядке, обновил ответ, это то, о чем вы спрашивали? Благодарю. – alecxe
@pythoncoder также отмечает, что у Alex Martelli есть действительная точка здесь - если вы используете Scrapy для извлечения данных из этого единственного URL-адреса, то это огромные накладные расходы. Я предполагаю, что вы собираетесь расширить решение для нескольких URL-адресов такого типа. – alecxe