Я учусь, как разобрать и манипулировать html
beautiful soup
с помощью так:BeautifulSoup не удалит элемент я
from lxml.html import parse
import urllib2
from urllib2 import urlopen
from BeautifulSoup import BeautifulSoup
url = 'some-url-here'
req = urllib2.Request(url, headers={'User-Agent' : "Magic Browser"})
parsed = urllib2.urlopen(req)
soup = BeautifulSoup(parsed)
for elem in soup.findAll(['script', 'style', 'i']):
elem.extract()
for main_body in soup.findAll("div", {"role" : "main"}):
print main_body.getText(separator=u' ')
Результат содержит <i>
теги и я не могу понять, как удалить их. Как это можно сделать и почему единственный тег не должен быть удален указанным выше кодом?
Можете ли вы поделиться HTML? Код должен работать нормально, как и –