2009-03-18 2 views
-1

Я собрал довольно простой движок сканирования, который работает достаточно хорошо и по большей части позволяет избежать застревания в круговых ловушках. (Т.е. ссылки на страницы B и страницы B на страницу A).Обнаружение запросов кеша-буфера при обходе страницы

Единственный момент, когда он застревает в этом цикле, - это когда обе страницы ссылаются друг на друга с помощью кеширования кеш-памяти, в основном это уникальная цепочка для каждой ссылки для каждого обновления.

Это приводит к тому, что страницы всегда выглядят как новые страницы для искателя, а искатель застревает между двумя страницами.

Помимо прорыва после N количество отскоков между двумя страницами с той лишь разницей, что это запрос (который, как я считаю, не очень хороший подход), есть ли другой способ обнаружить и вырваться из этих ловушки ...?

ответ

0

Может быть, они просто сеансовые идентификаторы, а не «кэш дёшево» --- печенье поможет

Несколько лет назад, я имел дело с подобной проблемой, и мы нашли простое решение: включить куки в вашем веб-клиенте. Вот объяснение, почему это помогло нам:

Это правда, что некоторые URL-адреса (в частности, рекламные изображения) предназначены для «перебора кешей». Однако мы не нашли для них круглых ссылок.

Многие URL-адреса добавляют случайные строки для URL-адресов, чтобы идентифицировать посетителей. Нет намерения перехватывать тайники --- это просто побочный эффект их метода, чтобы получить уникальный «идентификатор сеанса» для каждого посетителя.

Конечно, гораздо лучше идентифицировать посетителей с печеньем. Фактически, большинство динамических сайтов, использующих идентификаторы сеансов, сначала пытаются куки. Только когда они обнаруживают, что веб-клиент не поддерживает их, сайт возвращается к добавлению идентификаторов сеанса к URL-адресам.

Итог:

  • Обеспечивая печенье, мы можем сохранить большинство динамических сайтов счастливым и избежать случайных строк (идентификаторы сессии) в URL.
  • Рекламодатели do использовать кэш-баварцы --- но в основном без круговых ссылок.

Для нас это решило проблему.

Смежные вопросы