2013-07-23 3 views
-1

Я строю скребок в nodeJS, и я столкнулся с проблемой, которую я не могу понять.NodeJS Web Scraper для конкретного региона

Некоторые веб-сайты используют специфический для местоположения контент, и я хотел бы найти способ запускать/манипулировать этим.

С летучей мыши, я знаю, что это, вероятно, сложная проблема. Некоторые сайты могут использовать разные методы для определения местоположения пользователя. Есть ли общий способ достичь этого? Я в настоящее время использую request модуль узла, и мои заголовки установить следующим образом:

'headers': { 
     'User-Agent': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)' 
    } 

Есть ли способ манипулирования мои заголовки подделать местоположение на веб-сайт?

ответ

1

Существует множество методов, используемых компаниями для определения того, какой контент должен обслуживать вас.

Крупные медиаорганизации, такие как BBC, используют базы данных, отображающие диапазоны IP-адресов, в географические местоположения, поддерживаемые частной компанией. Единственный способ победить их защиту доступа - использовать виртуальный сервер в качестве прокси-сервера в стране, с которой вы хотите посетить.

Другие компании (многие европейские) могут быть просто заинтересованы в том, чтобы знать, на каком языке будет обслуживаться контент. Для этого они могут посмотреть некоторые заголовки в веб-запросе.

Смежные вопросы