2010-08-03 3 views
0

Я пытаюсь выполнить сканирование веб-сайта apple itunes. Я получаю вывод в двоичном формате. НапримерCrawling itunes.apple.com

завиток -A "Mozilla/5.0" http://itunes.apple.com/us/app/the-far-islands-by-john-buchan/id327765949?mt=8

возвращает двоичное.

Может кто-нибудь, пожалуйста, скажите мне, что мне не хватает?

Благодаря

+0

Что вы подразумеваете под «бинарным форматом»? –

ответ

1

Вы получаете двоичный файл обратно, потому что страница, которую вы цитируется не возвращает HTML/XML, это возвращение Яблочный WebObject. От wget:

wget http://itunes.apple.com/us/app/the-far-islands-by-john-buchan/id327765949?mt=8 
--2010-08-03 12:38:14-- http://itunes.apple.com/us/app/the-far-islands-by-john-buchan/id327765949?mt=8 
Resolving itunes.apple.com... 17.250.237.16 
Connecting to itunes.apple.com|17.250.237.16|:80... connected. 
HTTP request sent, awaiting response... 200 Apple WebObjects 
Length: 22900 (22K) [text/html] 
Saving to: `id327765949?mt=8' 

100%[======================================>] 22,900  --.-K/s in 0.05s 

2010-08-03 12:38:14 (440 KB/s) - `id327765949?mt=8' saved [22900/22900] 

Смотрите good old Wikipedia для получения дополнительной информации, но если вы хотите, чтобы сканировать его, возможно, придется использовать что-то, что имитирует браузер и, таким образом, может интерпретировать его - возможно watir будет работать.

+0

Ваша команда wget указывает, что она возвращает текст/html. Я просто запустил завиток на своей машине, как OP, и получил HTML: https://gist.github.com/2047126 – ZiggyTheHamster