2010-06-03 2 views
2

Мне нужно запустить веб-искатель, и я хочу сделать это из EC2, потому что хочу, чтобы HTTP-запросы поступали из разных диапазонов IP-адресов, поэтому я не блокируюсь. Поэтому я думал, что распространение этого экземпляра EC2 может помочь, но я не могу найти никакой информации о том, какой диапазон исходящих IP-адресов будет. Я не хочу беспокоиться о том, чтобы вычислить дополнительную сложность EC2 и распределенных данных, только чтобы найти, что все экземпляры используют один и тот же блок адресов, и я все равно блокирую сервер.Можно ли использовать экземпляры EC2 для разных диапазонов IP-адресов?

ПРИМЕЧАНИЕ. Это не нападение DoS или что-то еще. Я пытаюсь собрать данные для законных целей бизнеса, я уважаю robots.txt, и я делаю только один запрос в секунду, но хост все еще закрывает меня.

Комментатор Пол Диксон предполагает, что действие блокировки даже моего скромного обхода указывает, что хост не хочет, чтобы я сканировал их, и поэтому я не должен этого делать (даже если я могу обойти блокировку). Согласны ли с этим люди?

+1

Если хост обнаруживает ваши выскабливания и закрывает вас, возможно, вы должны уважать их желания, а не основывать на нем бизнес? –

+0

FWIW, я делал именно такую ​​блокировку на pastebin.com, и, видя, что IP-адрес, принадлежащий EC2, всегда был красным флагом. Вы можете использовать Tor, но его можно заблокировать, получив динамический список выходных узлов и заблокировав эти ips. –

+3

, если это законная деловая проблема, почему бы вам не связаться с администратором этого хоста? Внешние IP-адреса всегда будут из диапазонов, которые легко идентифицируются как EC2, независимо от того, как вы распространяете свои экземпляры. – sfussenegger

ответ

5

Во-первых, ответ - да, каждый экземпляр EC2 получает свой собственный IP-адрес. Теперь на какой-то комментарий:

  • Это легко для владельца сайта, чтобы блокировать все запросы от EC2-земли, и некоторые веб-мастера начали делать это, из-за многих некачественных ботов, работающих в EC2. Поэтому использование EC2 может быть не долгосрочным решением вашей проблемы.

  • Один запрос/второй по-прежнему довольно быстро. Супер-вежливый использует задержку обхода 30 секунд. В Bixo Labs мы обычно запускаем с задержкой обхода 15 секунд - даже 10 секунд начинают вызывать проблемы на некоторых сайтах.

  • Вам также нужно беспокоиться об общем количестве запросов/днях, так как некоторые сайты контролируют это. Хорошим правилом является не более 5000 запросов/день/IP-адрес.

  • И, наконец, использование нескольких серверов в EC2 для ограничения скорости означает, что вы находитесь в серой зоне веб-сканирования, в основном населенные слизевными символами, собирающими электронные адреса, срывая содержимое и генерируя splog. Поэтому тщательно подумайте, действительно ли вы хотите жить в этом районе.

+0

По техническому вопросу, именно так я понимаю, будут ли эти адреса находиться в одной подсети, поэтому они, очевидно, связаны друг с другом? Как вы можете их отличить? Что касается этического момента, нет, я не хочу быть со спамерами, но, с другой стороны, я собираю эту информацию для службы, которую предоставляет моя компания, добавляя ценность для оплаты клиентов. Если бы у нас была большая инфраструктура, мы могли бы просто распространять обход самостоятельно, но, будучи маленькими, я рассматриваю, как еще это выполнить. Для малого бизнеса должен быть способ сделать законное сканирование. –

+0

@ Joshua EC2 использует разные подсети, но все они могут быть идентифицированы. Просто выполните поиск whois на любом IP-адресе. Поскольку большинство хостов/брандмауэров не будут использовать данные whois для защиты себя, вы можете попытаться найти подсеть, которая не заблокирована. Я бы поспорил, что эта сеть будет заблокирована, как только кто-нибудь заметит гусениц, идущий от него. – sfussenegger

+0

Я думаю, я могу попробовать это, но я думаю, что блокирование всей подсети является экстремальным и не позволяет хозяину различать уважительные искатели, делающие разумные запросы, и плохие парни. –

Смежные вопросы