Я собрал довольно простой движок сканирования, который работает достаточно хорошо и по большей части позволяет избежать застревания в круговых ловушках. (Т.е. ссылки на страницы B и страницы B на страницу A).Обнаружение запросов кеша-буфера при обходе страницы
Единственный момент, когда он застревает в этом цикле, - это когда обе страницы ссылаются друг на друга с помощью кеширования кеш-памяти, в основном это уникальная цепочка для каждой ссылки для каждого обновления.
Это приводит к тому, что страницы всегда выглядят как новые страницы для искателя, а искатель застревает между двумя страницами.
Помимо прорыва после N количество отскоков между двумя страницами с той лишь разницей, что это запрос (который, как я считаю, не очень хороший подход), есть ли другой способ обнаружить и вырваться из этих ловушки ...?