2010-09-11 3 views
0

Есть ли все-таки я могу разобрать веб-сайт, просто просмотрев контент, отображаемый пользователю в его браузере? То есть вместо загрузки «page.htm» l и начала синтаксического анализа всей страницы со всеми тегами HTML/javascript, я смогу получить версию, отображаемую пользователям в своих браузерах. Я хотел бы «сканировать» веб-сайты и оценивать их по популярности ключевых слов (просмотр исходной версии HTML проблематичен для этой цели).Подсчет содержимого только на HTML-странице

Спасибо!

Joel

ответ

0

Браузер также загружает страницу.html, а затем отображает ее. Вы должны работать одинаково. Используйте синтаксический анализатор html, например lxml.html или BeautifulSoup, используя те, которые вы можете запросить только текст, заключенный в теги (и аргументы do похожи, например, атрибуты title и alt).

0

Вы можете получить источник и полосы теги, оставляя только без тегов текст, который работает практически для всех страниц, за исключением тех, где JavaScript-контент имеет важное значение.

+0

Спасибо за ответ. использование re.sub (r '<[^>] *?>', '', in_text) по-прежнему оставляет много нежелательных ключевых слов, таких как «заполнение», «цвет», «граница», «размер» и т. д. Мысль, возможно, вместо того, может просто получить «версию дисплея» и обойти это так. – Joel

+0

Это, вероятно, потому, что он лишает сценарий или стиль тегов, но не содержание. –

Смежные вопросы