Я пытаюсь разобрать RSS-канал, используя feedparser.Feedparser: inconsistency entry.title
Я получаю название так:
import feedparser
url = 'http://chem.aalto.fi/en/current/events/rss.xml'
feed = feedparser.parse(url)
for entry in feed.entries:
title = entry.title
print title
Обычно это работает без проблем, но я столкнулся странный случай. В данном конкретном сырье, названия выглядеть следующим образом:
<title>06.11.2015: Some title text</title>
Как и следовало ожидать, я иногда получаю:
06.11.2015: Some title text
... но иногда и это для того же пункта:
11/06/15: Some title text
Неужели кто-нибудь испытал подобную проблему? Это кажется совершенно случайным.
Да. Даты не создают проблем. Но в случае, если я нахожусь в любом другом названии с текстом «текст: больше текста», то это исправление названия приведет к потере содержимого или? Но тот факт, что вы заметили, что разница между этими двумя форматами может быть чрезвычайно полезной. Я буду тестировать его в течение более длительного периода времени, чтобы увидеть, могу ли я получить согласованный вывод по крайней мере из одного из форматов. – apiljic
К сожалению, я не могу это подтвердить. Я просто получил оба формата: format = rss и? Format = atom обоих вариантов в заголовке. – apiljic
Я буду отмечать это как правильный ответ, так как он указывает, откуда возникла проблема. На самом деле решение этого потребует участия от поставщика кормов. – apiljic