Есть ли все-таки я могу разобрать веб-сайт, просто просмотрев контент, отображаемый пользователю в его браузере? То есть вместо загрузки «page.htm» l и начала синтаксического анализа всей страницы со всеми тегами HTML/javascript, я смогу получить версию, отображаемую пользователям в своих браузерах. Я хотел бы «сканировать» веб-сайты и оценивать их по популярности ключевых слов (просмотр исходной версии HTML проблематичен для этой цели).Подсчет содержимого только на HTML-странице
Спасибо!
Joel
Спасибо за ответ. использование re.sub (r '<[^>] *?>', '', in_text) по-прежнему оставляет много нежелательных ключевых слов, таких как «заполнение», «цвет», «граница», «размер» и т. д. Мысль, возможно, вместо того, может просто получить «версию дисплея» и обойти это так. – Joel
Это, вероятно, потому, что он лишает сценарий или стиль тегов, но не содержание. –