Фундаментально, у вас есть 2 проблемы:
- Как Вы восстанавливаете данные?
- Должны ли вы?
Первый относительно прост - последний намного сложнее.
От чисто технического POV, если бы вы ежедневно царапали сайт, никто не может заметить, если он не является очень маленьким узлом (и маловероятно).
Помните, что чем чаще вы царапаете, тем больше ресурсов сервера вы будете потреблять.
Хороший неттикет говорит, что вы должны уважать пожелания владельца сайта. Многие сайты будут предлагать альтернативные одобренные способы получения данных, обычно через веб-службу.
Вы должны попытаться выполнить ограничения, указанные в любом файле robots.txt
(только в Google). Это также хорошее поведение.
Действительно, это зависит от того, где вы рисуете линию между вежливостью и потребностью.
Одна вещь, которую следует учитывать: многие источники информации счастливы, что их данные повторно используются до тех пор, пока они получают кредит. (Хотя, если быть честным, другие категорически противятся, независимо.)
Если бы я был на вашем месте, я бы сначала попытался связаться с данным сайтом и попросить разрешения в качестве вежливости - Самое худшее, что они могут сделать скажем нет.
Следующий вопрос возникает у кого точно вытягивает данные. Если вы очиститесь от центрального сервера, тот же IP-адрес будет выполнять запросы. Если приложение само потянет данные, это будет несколько IP-адресов и, вероятно, будет потеряно в «статическом», если приложение не ведет себя глупо.
Это зависит от многих факторов: позволяет ли этот веб-сайт выполнять сканирование; в какой стране вы находитесь; в какой стране находится сканированный веб-сайт; и что вы делаете с данными –