2012-01-03 3 views
0

Я хотел создать приложение для Android, которое будет сканировать веб-сайт с помощью php и получать информацию с крошечного тега span внутри веб-сайта, который я просматриваю.Как часто я могу сканировать сайт с помощью PHP?

Я хотел знать, что это даже законно (я думаю, это потому, что Google постоянно обходит сайты).

Мне также нужно знать, как часто я могу это сделать или даже если есть такое правило.

Спасибо!

+1

Это зависит от многих факторов: позволяет ли этот веб-сайт выполнять сканирование; в какой стране вы находитесь; в какой стране находится сканированный веб-сайт; и что вы делаете с данными –

ответ

3

Ну, я думаю, вы попадаете на арену веб-соскабливания больше, чем сканирование в Интернете. Они почти идентичны, но скремблирование «больше фокусируется на преобразовании неструктурированных данных в Интернете, как правило, в формате HTML, в структурированные данные, которые можно хранить и анализировать в центральной локальной базе данных или в электронной таблице». И, как правило, существует немало юридических вопросов, которые вращаются вокруг соскабливания веб-сайта, который не принадлежит вам.

Википедия имеет pretty decent section on the legal issues involving scraping.

Другими словами, это полностью зависит от владельца сайта, который вы хотите ползать или царапать.

+0

Что вы скажете о cnbc.com (действительно популярном сайте) – Joe

+0

Кажется, они этого не позволяют; см. вторую половину раздела 1 (Ограничения на использование) от их [ToS] (http://www.cnbc.com/id/15837353/). Он начинается с «Вы не можете» ... Это говорит о том, что в зависимости от того, насколько широко распространено ваше приложение, вы можете уйти от него или получить разрешение, но на этот раз может посоветовать только адвокат. – drew010

0

Фундаментально, у вас есть 2 проблемы:

  • Как Вы восстанавливаете данные?
  • Должны ли вы?

Первый относительно прост - последний намного сложнее.

От чисто технического POV, если бы вы ежедневно царапали сайт, никто не может заметить, если он не является очень маленьким узлом (и маловероятно).

Помните, что чем чаще вы царапаете, тем больше ресурсов сервера вы будете потреблять.

Хороший неттикет говорит, что вы должны уважать пожелания владельца сайта. Многие сайты будут предлагать альтернативные одобренные способы получения данных, обычно через веб-службу.

Вы должны попытаться выполнить ограничения, указанные в любом файле robots.txt (только в Google). Это также хорошее поведение.

Действительно, это зависит от того, где вы рисуете линию между вежливостью и потребностью.

Одна вещь, которую следует учитывать: многие источники информации счастливы, что их данные повторно используются до тех пор, пока они получают кредит. (Хотя, если быть честным, другие категорически противятся, независимо.)

Если бы я был на вашем месте, я бы сначала попытался связаться с данным сайтом и попросить разрешения в качестве вежливости - Самое худшее, что они могут сделать скажем нет.

Следующий вопрос возникает у кого точно вытягивает данные. Если вы очиститесь от центрального сервера, тот же IP-адрес будет выполнять запросы. Если приложение само потянет данные, это будет несколько IP-адресов и, вероятно, будет потеряно в «статическом», если приложение не ведет себя глупо.

Смежные вопросы