2014-12-06 2 views
0

Curl: Я пытаюсь получить/сохранить HTML страницы «Blogspot динамической модели» некоторые, такие как:локона, похоже, не работает «динамические модели Blogspot»

http://jackturf.blogspot.fr/

Моих простые пробы на досе Командная строка:

"D:\EXE_UTIL\CURL\curl.exe" -o "d:\temp.html" "http://jackturf.blogspot.fr/" 

Received=21597 bytes 

Но Google Chrome CTRL-S сохранить в HTML ПОЛНОЕ PAGE = 160 кб!

Я использую завиток в течение многих лет, всегда хорошо даже с кукисами, но теперь с этой «динамической моделью Google» я не знаю, как получить полный размер страницы html?

Мои Curl версии: (также я попробовать несколько других предыдущих версий ...)

curl 7.39.0 (i386-pc-win32) libcurl/7.39.0 OpenSSL/1.0.0o zlib/1.2.8 libidn/1.18 libssh2/1.4.3 librtmp/2.3 
Protocols: dict file ftp ftps gopher http https imap imaps ldap pop3 pop3s rtmp rtsp scp sftp smtp smtps telnet tftp 
Features: AsynchDNS IDN Largefile SSPI SPNEGO NTLM SSL libz 

Кто-нибудь есть решение для дос-командной строки работает?

ответ

0

Простой анализ трафика показывает, что для разбора доступен канал json. Попробуйте следующее:

"D:\EXE_UTIL\CURL\curl.exe" -o "d:\temp.json" "http://jackturf.blogspot.fr/feeds/posts/default?alt=json&orderby=published" 
+0

Редактировать: changed \ temp.html to \ temp.json – user2243670

+0

Да, спасибо, это работает. Файл примерно в 10 раз больше ... но я думаю, что смогу управлять этим решением. Если у кого-то еще нет других решений для проверки ... – steve

+0

Проанализируйте трафик, чтобы узнать о структуре api. Например, этот URL-адрес даст файл размером 4,6 МБ: http://jackturf.blogspot.fr/feeds/posts/default?alt=json&orderby=published&max-results=2500 – user2243670

0

Разница в размере вызвана curl, не выполняющим JavaScript внутри страницы, в то время как ваш браузер выполняет JavaScript (и, следовательно, изменяет HTML), прежде чем сохранять его с помощью CTRL-S.

Чтобы получить тот же результат, вам нужно будет выполнить JavaScript внутри страницы, прежде чем сохранять его. This is not possible with curl, поэтому вы можете изучить другие альтернативы.

+0

Спасибо. Другие альтернативы ... да, если у кого есть простые идеи? если возможно, в командной строке ... или иначе, если нет ... – steve

Смежные вопросы