Я написал программное обеспечение для очистки данных, используя JSOUP
lib в Java
. Я размещаю некоторые данные on this page и им получаю результаты с представленной страницы. Все работает отлично, но недавно они обновили сайт и теперь после 300-500 результатов эта страница недоступна для меня, ее сломаны в течение следующих нескольких часов. Когда я вручную меняю проксиИзменение прокси-сервера при очистке данных
System.setProperty("http.proxyHost", proxy);
System.setProperty("http.proxyPort", proxyPort);
Затем мое приложение продолжается, и все снова работает нормально. Проблема в том, что я должен вручную обновлять прокси каждый раз, когда получаю исключение Read time
.
Есть ли другой способ обойти этот block-ip filter
после 500+ результатов или я должен сам вводить прокси каждый раз, когда мой ip блокируется?
Лучшим решением было бы реализовать какое-то простое формирование трафика вместо того, чтобы забивать удаленный сервер, т. Е. Уменьшать скорость сканирования и выполнять более вежливое сканирование/очищение. – haddr
@haddr вы можете объяснить мне немного больше? например, теперь моя скорость соскабливания составляет 2-3 результата в секунду. Если я уменьшу его до 1 результата в секунду, вы думаете, что он не будет блокировать веб-сайт? –
См. Ответ ниже, поле комментариев немного мало. – haddr