Я пытаюсь написать программу, которая читает статьи (сообщения) любого веб-сайта, который может варьироваться от Blogspot или блогов Wordpress/любого другого веб-сайта. Что касается написания кода, который совместим практически со всеми сайтами, которые могли быть написаны в HTML5/XHTML и т. Д. Я думал об использовании RSS/Atom-каналов в качестве основы для извлечения контента.Как читать содержимое веб-сайта в python
Однако, поскольку RSS/Atom-каналы обычно не содержат целых статей веб-сайтов, я решил собрать все ссылки «сообщения» из фида, используя feedparser
, а затем хочу извлечь содержимое статьи из соответствующего URL-адреса.
Я мог бы получить URL всех статей на веб-сайте (включая сводку, т. Е. Содержимое статьи, показанную в фиде), но я хочу получить доступ ко всем данным статьи, для которых я должен использовать соответствующий URL-адрес.
Я столкнулся с различными библиотеками, такими как BeautifulSoup
, lxml
и т. Д. (Различные анализаторы HTML/XML), но я действительно не знаю, как получить «точный» контент статьи (я предполагаю, что «точный» означает данные со всеми гиперссылками, iframes, показ слайдов и т. д., я не хочу, чтобы часть CSS).
Итак, может ли кто-нибудь мне помочь?
Что вы пробовали? Вы хотите HTML, изображения и все файлы сайта или просто хотите захватить части HTML? Пожалуйста, будьте более конкретными. – serk
@serk рассматривает сообщение в блоге, я хочу, чтобы информация была точно такой, как она была написана. (сохранить CSS). – Surya
Почему бы не попробовать 'wget' тогда? – serk