2010-07-10 2 views
1

Я в настоящее время работаю над своим маленьким веб-гусеничным веществом и задавался вопросом ...Что такое приличный интервал обновления для веб-искателя?

Что такое приличный интервал для веб-гусениц, чтобы снова посетить те же сайты?

Следует ли пересматривать их один раз в день? Один раз в час? Я действительно не знаю ... есть ли у кого-нибудь опыт в этом вопросе? Может быть, кто-то может указать мне в правильном направлении?

+2

Приятная вещь, которую нужно сделать, это спросить владельцев сайта - они могут рассказать вам, как часто все в порядке. И, конечно же, уважайте их robots.txt. – Oded

ответ

2

Это будет зависеть от сайтов, которые вы просматриваете, и того, что вы делаете с результатами.

Некоторые не будут возражать против довольно частого посещения, но другие могут ограничить вас одним посещением каждый день, например.

Многие сайты стремятся защитить свой контент (свидетели Мердок и новости Международные рельсы против Google и размещение Times (Великобритания) за платной платой), поэтому они с недоверием относятся к искателям.

Если вы только собираетесь обходить несколько сайтов, вам стоит связаться с владельцами сайтов и объяснить, что вы хотите сделать, и посмотреть, что они ответят. Если они действительно отвечают на их пожелания и всегда подчиняются файлу robots.txt.

3

Я думаю, что ваши визитеры должны быть органичными.

Я бы начать ползать список один раз в неделю,
и когда сайты изменения содержания, установить, что один ползти два раза в неделю, [и тогда], когда вы видите более частые изменения, ползать чаще ,

Алгоритм должен быть достаточно умным, чтобы знать разницу между одним изменением и частыми изменениями сайта.

Кроме того, никогда не забывайте обращать внимание на Robots.txt ... это первая страница, на которую вы должны попасть в обход, и вам нужно уважать ее содержимое прежде всего.

1

Даже час может быть невежливым в зависимости от того, на каких сайтах вы занимаетесь и насколько интенсивно. Я предполагаю, что вы делаете это как упражнение, так что помогите спасти мир и ограничьте себя сайтами, которые созданы для обработки огромных загрузок, а затем сначала получите заголовки HTTP, чтобы узнать, нужно ли даже получать страницу.

Еще более вежливо было бы скрыть ограниченный набор с wget, хранить его локально и обходить свой кеш.

Если вы не делаете это как упражнение, нет причин делать это так, как это было сделано до смерти, а interwebz не нуждается в другом.

Смежные вопросы