2013-12-21 2 views
1

Я иду, чтобы загрузить весь каталог с вебом-сервер, как это:Как загрузить целую директорию с wget ignoring index.xml?

wget -r -nH https://something.com/blah/ 

Но есть index.xml в/л /, который не имеет правильный hrefs к файлам, которые я хочу, чтобы загрузить ,

В результате, когда я запускаю команду wget, она загружает только index.xml и останавливается.

Я не могу изменить или удалить файл index.xml, потому что/blah/не принадлежит мне.

Есть ли способ обхода проблемы, который позволит мне загрузить весь каталог, игнорируя, что предлагает index.xml?

ответ

1

man wget От:

Recursive Accept/Reject Options 
    -A acclist --accept acclist 
    -R rejlist --reject rejlist 
    Specify comma-separated lists of file name suffixes or patterns to accept 
    or reject. Note that if any of the wildcard characters, *, ?, [ or ], appear 
    in an element of acclist or rejlist, it will be treated as a pattern, rather 
    than a suffix. 

Таким образом --reject xml должно решить вашу проблему.

+0

Не будет '--reject xml' отклонять любой файл суффиксом' .xml', а не только конкретный файл index.xml, который OP хочет исключить? –

+0

Да, но если это проблема, она легко адаптируется к 'index.xml', не так ли? –

+0

Извините, я не дал понять - загрузка индекса. (Xml/html), по-видимому, является поведением wget по умолчанию. Wget необходимо выяснить, какие файлы нужно загрузить из него. Поэтому независимо от того, укажу ли я --reject index.xml или нет, он всегда загружается, а другие файлы еще не загружаются. Кроме того, --reject index.xml по-прежнему загружает index.xml, но удаляет его из локального. – yzhang

Смежные вопросы