2013-11-09 2 views
2

У меня есть следующий сайт http://www.asd.com.tr. Я хочу загрузить все файлы PDF в один каталог. Я пробовал пару команд, но мне не очень повезло.Загрузить все pdf-файлы с помощью wget

$ wget --random-wait -r -l inf -nd -A pdf http://www.asd.com.tr/ 

С помощью этого кода было загружено только четыре файла PDF. Проверить эту ссылку, Есть более нескольких тысяч файлов PDF доступны:

Например, сотни файлов в следующей папке:

Но я не могу понять, как правильно их получить, чтобы увидеть и загрузить все, есть некоторые папки в этом подкаталоге, http://www.asd.com.tr/Folders/ и тысячи PDF-файлов в этих папках.

Я попытался зеркально отобразить сайт, используя команду -m, но он тоже не удался.

Другие предложения?

+0

Почему? Какое возможное использование вы можете использовать для тысяч файлов PDF в турецком правительстве, которые в любом случае свободно доступны в Интернете? –

+0

Я просто пытаюсь сделать примеры для wget, и я турецкий парень, и этот сайт очень популярен. Вот и все. без обид bro .. –

ответ

8

Во-первых, убедитесь, что TOS веб-сайта разрешает его обходить. Тогда одно решение:

mech-dump --links 'http://domain.com' | 
    grep pdf$ | 
    sed 's/\s+/%20/g' | 
    xargs -I% wget http://domain.com/% 

Команда mech-dump поставляется с модулем Perl, WWW::Mechanize (libwww-mechanize-perl пакет на Debian & Debian любит дистрибутивы)

+0

+1 очень хорошее решение! – slm

Смежные вопросы