2014-10-15 1 views
0

Я пытаюсь разобрать страницаBeautifulSoup не разборе мимо тега заголовка

http://gwyneddathletics.com/custompages/sport/mlacrosse/stats/2014/ml0402gm.htm

и когда я пытаюсь FindAll («б») я не получаю никаких результатов, то же самое с 'тр. Я не могу найти ничего, кроме исходного тега заголовка.

Кроме того, когда я делаю суп = BeautifulSoup (разметку) и напечатать суп, я получаю всю страницу с дополнительным в конце выхода

Я использую Python 2.6 с BeautifulSoup 3.2.0. Почему мой суп не разбирает страницу правильно?

+0

Вы можете поделиться кодом, который используете для чтения содержимого? –

+0

req = urllib2.Request (url) response = urllib2.urlopen (req) markup = response.read() –

ответ

0

Вероятно, синтаксический анализатор, которым пользуется BeautifulSoup, действительно не похож на разметку на странице, у меня были подобные проблемы в прошлом. Я сделал быстрый тест на вашем входе и обнаружил, что если вы перейдете на новый BeautifulSoup (пакет называется bs4), он просто работает. bs4 также поддерживает python2.6, а назад несовместимые изменения между ним и BeautifulSoup (серия 3.x) являются крошечными. См. here, если вам нужно проверить, как порт.

Смежные вопросы