2016-04-19 3 views
0

Я делаю Баш скрипт, чтобы получить некоторый HTML содержимого, командная строка:Как не отображать непечатаемые символы с выходом wget?

wget http://some_url.com -q -O -output.txt -o /dev/null 

Но когда есть изображения на странице Wget еще «дисплей» тех, с непечатаемыми caracters.

Есть ли способ сказать wget, чтобы не отображать эти непечатаемые символы?

Приветствия

пс: а по сути дела, я не могу делать какие-либо Grep на «output.txt», как это рассматривается как двоичный файл (поскольку из не печатаемых caracters)

Вы можете попробовать с помощью URL-адреса thsi, например: https://www.offensive-security.com/pwbonline/icq.html

+0

Не зная URL вы запрашиваете это может быть что угодно. Возможно, вы загружаете изображение для всех, кого здесь знают. – 123

+0

@ 123 Я только что редактировал мой пост – aurelien75000

+0

страница ssl. Используйте флаг '--secure-protocol = protocol'. Это могут быть любые из этих 'auto',' SSLv2', 'SSLv3',' TLSv1'. – 123

ответ

0

Обычно документы HTML не содержат двоичных данных. Я не могу воспроизвести эту конкретную проблему.

Если речь идет просто о заставить grep искать в файлах, которые, как правило, быть пропущено, потому что grep предполагает, что они являются бинарными, используйте --binary-files=text:

wget -O- http://server.com/url | grep --binary-files=text 'foo.*bar' 
+0

Фактически я не знаю, является ли это двоичным, потому что я создал файл как .txt, но когда я делаю grep, я получаю это сообщение: «соответствующий двоичный файл», также я использую вариант, который вы предлагаете, не помогает. Я думаю, что единственный способ для меня - удалить все непечатаемые символы из файла, но я не знаю, как – aurelien75000

Смежные вопросы