Я использую BeautifulSoup для анализа веб-сайтапитон BeautifulSoup добавить дополнительные закрывающие теги
request = urllib2.Request(url)
response = urllib2.urlopen(request)
soup = BeautifulSoup.BeautifulSoup(response)
Я использую его, чтобы пройти через таблицу. Проблема, с которой я сталкиваюсь, заключается в том, что BS добавляет дополнительный тег конца таблицы в html, который не существует, который я проверил с помощью: print soup.prettify(). Таким образом, один из тд-тегов выходит из таблицы, и я не могу его выбрать.
Можете ли вы опубликовать существенную структуру HTML-кода, который не работает? –
тоже хотел бы ответить на этот вопрос. в моем случае, кажется, BS добавляет теги, которые * не * в исходный код страницы –