Я пытаюсь получить работает веб-страниц с Wget, и это будет хорошо для большинства сайтов с помощью следующей команды:Wget добавляет строку запроса в результирующий файл
wget -p -k http://www.example.com
В этих случаях я в конечном итоге с index.html и необходимые CSS/JS и т. д.
ОДНАКО, в определенных ситуациях URL-адрес будет иметь строку запроса, и в этих случаях я получаю index.html с добавленной строкой запроса.
Пример
www.onlinetechvision.com/?p=566
В сочетании с вышеприведенной команды Wget приведет:
index.html?page=566
Я попытался с помощью --restrict-файлов-имен = вариант окна, но это только заставляет меня до
[email protected]=566
Может ли кто-нибудь объяснить, почему это необходимо и как я могу закончить с помощью обычного файла index.html?
ОБНОВЛЕНИЕ: Я нахожусь на заборе, придерживаясь другого подхода. Я узнал, что могу взять первое имя файла, которое wget сохраняет, анализируя вывод. Поэтому имя, появившееся после сохранения: есть тот, который мне нужен.
Однако это обернуто этим странным символом â - вместо того, чтобы просто удалить этот жесткий диск - откуда это происходит?
Вы уже пробовали этот синтаксис: curl http: // {site, host} .host [1-5] .com -o "# 1_ # 2". Возможно, это можно будет скорректировать с учетом ваших потребностей. – Marged