Я хочу загрузить случайно много файлов Excel (например, .xls, .xlsx, .xlsm) из Интернета.Записать результаты поиска google на html страницы
Во-первых, файлы «google», имеющие .xlsx
в качестве постфикса. У меня есть следующие оболочки:
for ((i=0 ; i<400 ; i=i+10)) ; do
wget -O $i.html "https://www.google.fr/?gws_rd=ssl#q=filetype:xlsx&start=$i"
done
выше оболочка формирует 0.html
, 10.html
... Как ни странно, все сгенерированные страницы одинаковы:
Кто-нибудь знает, что это неправильно в моем коде ?
Я вижу '...' в выделенном адресе, например, 'www.phoutcomes.info /.../ PHOF_inequality_data_available_May_2015.xlsx'. Как этого избежать? – SoftTimur
Какая строка запроса? В общем случае 'lynx' возвращает отформатированный« список », где каждой ссылке присваивается номер, список полных ссылок можно найти в конце страницы – ewcz
' lynx -dump 'http://google.com/search? hl = en & safe = off & q = filetype: xlsx & start = 30 "> 30.html' – SoftTimur