2014-01-12 4 views
0

То, что я хочу просто Получить веб-страницы HTML и царапать все исходящие ссылкиScrape внешний веб-страницы и получить все исходящие ссылки

то, что я до сих пор

<?php 
    function get_content($URL){ 
      $ch = curl_init(); 
      curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
      curl_setopt($ch, CURLOPT_URL, $URL); 
      $data = curl_exec($ch); 
      curl_close($ch); 
      return $data; 
     } 


$html = get_content('http://example.com'); 
    ?> 
+0

Прохладный. Есть проблема? – qooplmao

ответ

1

Воспользоваться DOMDocument

$dom = new DOMDocument; 
$dom->loadHTML($html); // <----------- Pass the HTML content you retrieved from get_content() 
foreach ($dom->getElementsByTagName('a') as $tag) { 
     echo $tag->getAttribute('href'); 
} 
+0

Я получаю эту ошибку. Предупреждение: DOMDocument :: loadHTML(): пустая строка, предоставленная как входной файл в /web/com/138950087830688/main.php в строке 14 – user3151827

+0

Это не проблема с этим кодом .. Ваш cURL не отправляет вам HTML ответ. Могу ли я узнать название сайта? –

+0

http://www.pinterest.com/pin/314196511475186481/ – user3151827

Смежные вопросы