2015-11-05 4 views
1

Мне нужно просканировать сайт и получить все ссылки от него, проблема в том, что на этом сайте используется ajax, а стандартная версия Go http.Get (..) вернет что-то вроде:web scrapper/crawler, который работает с ajax

<body> 
    //javascript here  
    <div class="content"></div> 
    //javascript here 
</body> 

Div пусто. Есть ли какое-то решение с голаном?

+1

Возможно, вам понадобится использовать что-то вроде http://agouti.org/ вместе с драйвером selenium, phantom js или chrome – jcbwlkr

ответ

0

http.Get (Url) просто получите ответ Url. resp.Content, как:

<body> 
//javascript here  
<div class="content"></div> 
//javascript here 
</body> 

, если вы хотите, чтобы получить содержимое в DIV, вы должны анализа на JavaScript и знать, как Ajax для получения данных. Затем вы можете имитировать процессы, которые вы получаете, что хотите.

+0

Да, но это индивидуальный подход, для другого сайта, написанного с другой инфраструктурой javascript, это не будет работать. Должен быть общий путь ... – Kaign

0

Вы должны использовать один из бесщеточных веб-браузеров. Без проверки я говорю, что нет привязки Go для трех оставшихся браузеров (Webkit/Firefox, IE).

Перейти на python и javascript.