любопытства я пытался разобрать HTMLЗащитный сайт от cURL?
$url = "http://www.continente.pt/stores/continente/pt-pt/public/Pages/subcategory.aspx?cat=Bebidas_Vinhos";
$agent= 'Googlebot-Image/1.0 Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)';
$ch = curl_init();
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($ch, CURLOPT_VERBOSE, true);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_USERAGENT, $agent);
curl_setopt($ch, CURLOPT_URL,$url);
$result=curl_exec($ch);
var_dump($result);
с веб-сайта магазина супермаркета, и я получаю это сообщение
Ошибка Эта страница не может быть отображена. Обратитесь в службу поддержки за дополнительной информацией. Идентификатор инцидента: N/A.
Я нашел это странным, и у них есть некоторая защита от этого типа «атак», но как они защищают этот сайт и как они позволяют сканирование google бота для целей цифрового маркетинга?
Проще всего просто иметь
запрос 'curl' отлично работает для меня –
Я думаю, что мой вопрос является законным. Даже не проверил вас, если ваш ответ верен или нет. В chrome я отключу javascript и проверяю URL в скрипте. На веб-сайте отображаются все продукты без изображения, но информация есть. Спасибо за отрицательную оценку. –