2015-10-06 2 views
0

Я хочу загрузить случайно много файлов Excel (например, .xls, .xlsx, .xlsm) из Интернета.Записать результаты поиска google на html страницы

Во-первых, файлы «google», имеющие .xlsx в качестве постфикса. У меня есть следующие оболочки:

for ((i=0 ; i<400 ; i=i+10)) ; do 
    wget -O $i.html "https://www.google.fr/?gws_rd=ssl#q=filetype:xlsx&start=$i" 
done 

выше оболочка формирует 0.html, 10.html ... Как ни странно, все сгенерированные страницы одинаковы:

enter image description here

Кто-нибудь знает, что это неправильно в моем коде ?

ответ

0

Потенциал wget в связи с этим немного ограничен, вы можете попробовать использовать, например,

lynx -dump "http://google.com/search?hl=en&safe=off&q=filetype:xlsx&start=$i" > output 

Однако следует держать Google Terms of Service в виду, в частности:

Дон Не злоупотребляйте нашими Сервисами. Например, не мешайте нашим службам или пытайтесь получить к ним доступ, используя метод, отличный от интерфейса и инструкций, которые мы предоставляем.

+0

Я вижу '...' в выделенном адресе, например, 'www.phoutcomes.info /.../ PHOF_inequality_data_available_May_2015.xlsx'. Как этого избежать? – SoftTimur

+1

Какая строка запроса? В общем случае 'lynx' возвращает отформатированный« список », где каждой ссылке присваивается номер, список полных ссылок можно найти в конце страницы – ewcz

+0

' lynx -dump 'http://google.com/search? hl = en & safe = off & q = filetype: xlsx & start = 30 "> 30.html' – SoftTimur

Смежные вопросы