php
  • security
  • curl
  • 2015-12-02 2 views 0 likes 
    0

    любопытства я пытался разобрать HTMLЗащитный сайт от cURL?

    $url = "http://www.continente.pt/stores/continente/pt-pt/public/Pages/subcategory.aspx?cat=Bebidas_Vinhos"; 
    
    $agent= 'Googlebot-Image/1.0 Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)'; 
    
    $ch = curl_init(); 
    curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false); 
    curl_setopt($ch, CURLOPT_VERBOSE, true); 
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); 
    curl_setopt($ch, CURLOPT_USERAGENT, $agent); 
    curl_setopt($ch, CURLOPT_URL,$url); 
    $result=curl_exec($ch); 
    
    var_dump($result); 
    

    с веб-сайта магазина супермаркета, и я получаю это сообщение

    Ошибка Эта страница не может быть отображена. Обратитесь в службу поддержки за дополнительной информацией. Идентификатор инцидента: N/A.

    Я нашел это странным, и у них есть некоторая защита от этого типа «атак», но как они защищают этот сайт и как они позволяют сканирование google бота для целей цифрового маркетинга?

    +0

    Проще всего просто иметь

    +0

    запрос 'curl' отлично работает для меня –

    +0

    Я думаю, что мой вопрос является законным. Даже не проверил вас, если ваш ответ верен или нет. В chrome я отключу javascript и проверяю URL в скрипте. На веб-сайте отображаются все продукты без изображения, но информация есть. Спасибо за отрицательную оценку. –

    ответ

    0

    Попробуйте использовать файлы cookie сеанса, но на этой странице нет содержимого, потому что загружается async с помощью ajax.

     
    curl 'http://www.continente.pt/stores/continente/pt-pt/public/Pages/subcategory.aspx?cat=Bebidas_Vinhos' -H 'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8' -H 'Accept-Encoding: gzip, deflate' -H 'Accept-Language: es-ES,es;q=0.8,en-US;q=0.5,en;q=0.3' -H 'Connection: keep-alive' -H 'Cookie: searchRefiner=%7B%22%22%3A%7B%221449049672079%22%3A%5B%5D%7D%7D; SPSessionGuid=ec3e4a3e-7cfe-4c8a-902f-1c64ba0868f4; __CommerceAnonymousShopper_ef77e72d-62b9-4b0f-8113-d111c9d6d7ce_Internet=0244rfNRN5rPgC7kvXzyqrNQg==WBGr/AUg99sKnXpF3QH4Sa5cHPFred5bJqPiwbFvDnL1jHUk6v0Jb0dpOZLY66bXpC8faWF7k5aOMi/qIkOgA4RNWuskMnicr6OJ12BBs8ns68kXmckzTJvkVEfDQB7DApeN5ULier028VPSLkChmWvBHyCHno328U6SrLu65m5e3lu521PF940napZPZIvN7hP51Yfi9c+FkwjIAZ+j8w==; MSCSProfile=287001FD2674671C70ED37E496ED003312D0DA42BDDB218BA1D2B71AD462488CF83AD1F7530553A13FDD4C8DB0E26123D3A02CCFBA6DAE49B72A185609583B9617878CEA5D73023FE7A74384436D54761511ED87FFA2AF58124E143C0E90DC9C72D55A51B3AE6EAB71153682F607FE3C29538E729117E4DD3D6B05C06E7FBA47; cPrompt_useCookies=1; cpup=2; _ga=GA1.2.532033017.1449049672; _dc_gtm_UA-158387-26=1; byside_webcare_tuid=5110f1jvvitrsyi82c2q4kddcxlrl0vdwfmrmtzeah679ditkl; __atuvc=1%7C48; __atuvs=565ebe4c6d710bda000; CampaignHistory=146148' -H 'Host: www.continente.pt' -H 'User-Agent: Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:41.0) Gecko/20100101 Firefox/41.0' 
    
    +0

    Странно, потому что с отключенным javascript я могу получить продукты (без изображения), но со всей информацией. Я проверю. –

    Смежные вопросы