Вы получаете двоичный файл обратно, потому что страница, которую вы цитируется не возвращает HTML/XML, это возвращение Яблочный WebObject. От wget
:
wget http://itunes.apple.com/us/app/the-far-islands-by-john-buchan/id327765949?mt=8
--2010-08-03 12:38:14-- http://itunes.apple.com/us/app/the-far-islands-by-john-buchan/id327765949?mt=8
Resolving itunes.apple.com... 17.250.237.16
Connecting to itunes.apple.com|17.250.237.16|:80... connected.
HTTP request sent, awaiting response... 200 Apple WebObjects
Length: 22900 (22K) [text/html]
Saving to: `id327765949?mt=8'
100%[======================================>] 22,900 --.-K/s in 0.05s
2010-08-03 12:38:14 (440 KB/s) - `id327765949?mt=8' saved [22900/22900]
Смотрите good old Wikipedia для получения дополнительной информации, но если вы хотите, чтобы сканировать его, возможно, придется использовать что-то, что имитирует браузер и, таким образом, может интерпретировать его - возможно watir будет работать.
Что вы подразумеваете под «бинарным форматом»? –