2015-02-12 4 views
0

Я хочу очистить почту блога и сохранить их в своем db. Для планирования лома я сделаю сопряжение на моем сервере. Но у меня проблемы с потоком. Я не хочу повторно очищать все, я хочу, чтобы скрипт проверял, есть ли новое сообщение, а затем сохраните его в моем db.Проверьте, нет ли у db указанных элементов.

Моя проблема в разных блогах может иметь различную структуру, я думаю, что один из способов - получить дату и дату последнего сообщения в db. Но что, если у поста нет даты? сравнить строку? это надежный подход?

ответ

0

Почему бы вам не использовать RSS-канал? В большинстве блогов есть один, и если они это делают, нет необходимости в соскабливании.

RSS - это простой XML-файл, который вы можете прочитать и сравнить с тем, что у вас есть (например, RSS-ридеры).

Если все их сообщение не видно в RSS (и, вероятно, нет), то просто следуйте URL из фида и получите свой пост, если это то, что вы хотите.

+0

, так что вы предлагаете мне очистить их rss? да, это облегчает мою жизнь, потому что библиотека получает rss-данные, но я хочу, чтобы записи были сохранены в моем db. Также некоторые из них сломали rss. –

+0

RSS дает общее представление о том, где добавляются сообщения и какие их URL-адреса. Затем вы можете использовать URL новых сообщений, получать сообщения, сохранять их и продолжать. Если кто-то сломал RSS или его нет, вы можете либо попросить их об api, либо очистить их в обычном режиме. Но я хочу сказать, что вам не нужно делать это каждый раз на каждом блоге, так как там есть RSS – Forien

+0

Я полностью получил урскую точку, но есть скрытая информация, которую я не мог получить из их rss. –

Смежные вопросы