Я использую библиотеку feedparser на python для извлечения новостей из местной газеты (я намерен делать обработку естественного языка над этим корпусом) и хотел бы получить много прошлых записи из RSS-канала.Feedparser - получить старые сообщения от Google Reader
Я не очень разбираюсь в технических проблемах RSS, но думаю, что это должно быть возможно (я вижу, что, например, Google Reader и Feedly могут это делать «по запросу», когда я перемещаю полосу прокрутки).
Когда я делаю следующее:
import feedparser
url = 'http://feeds.folha.uol.com.br/folha/emcimadahora/rss091.xml'
feed = feedparser.parse(url)
for post in feed.entries:
title = post.title
я получаю записи только дюжину. Я думал о сотнях. Возможно, все записи за последний месяц, если это возможно. Можно ли это сделать только с помощью feedparser?
Я собираюсь получить из rss-канала только ссылку на новостной материал и проанализировать полную страницу с помощью BeautifulSoup, чтобы получить текст, который я хочу. Альтернативное решение будет искателем, который следует за всеми локальными ссылками на странице, чтобы получить много новостей, но пока я хочу избежать этого.
-
Одно из решений, которые появились, чтобы использовать Google Reader RSS кэш:
Но получить доступ к этому я должен быть вход в Google Reader. Кто-нибудь знает, как я это делаю с python? (Я действительно ничего не знаю о сети, я обычно использую только числовое исчисление).
Еще раз спасибо Bartek. Кажется, теперь я понимаю это лучше. Итак, RSS - это просто xml-файл, хранящийся на сервере? У меня был неправильный образ об этом ... подумал, что это своего рода «протокол», чтобы получить текстовый фид. Еще раз спасибо. –