2015-03-02 3 views
0

Я внедряю программу чтения RSS-сообщений, такую ​​как система, и у меня возникают проблемы с некоторыми фидами, которые меняют URL-адреса элементов через некоторое время. Когда я построил систему, я использовал md5 url как идентификатор, чтобы иметь простой и быстрый способ обнаружения дубликатов, люди не изменят URL-адрес для статей, потому что это плохо для SEO, но если они используют feedproxy или другие динамические генератор питает URLs в статьи использовать переназначение и URLs также изменяется, в качестве примера я получаю эти 3 записи в мою базу данных для того же статьиRss feed change url to items

http://feedproxy.google.com/~r/itsallaboutrevenue/~3/AElJBdzy2nY/your-story-is-not-about-you-content-pros-podcast-episode-2-with-ann-handley

http://feedproxy.google.com/~r/itsallaboutrevenue/~3/YIa4EeZgkJs/your-story-is-not-about-you-content-pros-podcast-episode-2-with-ann-handley

https://blogs.oracle.com/marketingcloud/your-story-is-not-about-you-content-pros-podcast-episode-2-with-ann-handley

Мой вопрос - это правильный способ сделать это, и если вы знаете какой-то открытый исходный код, который можно использовать на стороне сервера, который является стабильным, то я могу заменить мой PHP-код, который я использую сейчас (он может быть на любом языке) (я использую picofeed)

ответ

2

Вы не используете идентификатор элемента как уникальный идентификатор?

// Item object 
$feed->items[0]->getId();      // Item unique id (hash) 

Picofeed вероятно создает хэш уникального идентификатора из RSS item's guid или если справы отсутствуют они используют ссылки URL, как вы делаете. Обычно создатели корма добавляют подсказки, и они должны оставаться неизменными даже после изменения ссылки. Here is some more info about how rss readers detect duplicates.

+0

ссылка сломана в данный момент – simion314

+0

URL фиксированным, в статью также можно найти с помощью функции поиска «RSS обнаружения повторяющихся» на Google – janih

+0

Thnks, я буду видеть, если я найду способ для переноса данных с базой данных, чтобы использовать новые идентификаторы не получая много дубликатов, я хочу сохранить старые статьи, которые больше не находятся в фиде, поэтому я не могу удалить и запустить свежие – simion314