Я использую wget
для загрузки HTML-страницы и извлечения информации из. В частности, я хочу это сделать:Извлечение информации из документов HTML с использованием командной строки
<a href="/312728/" title="The 10 Best Goals ever">
<a href="/671921/" title="Golf at its best">
<a href="/371285/" title="Football Legends">
<a href="/576903/" title="Boxing Legends">
в это и сохранить как файл txt.
/312728/The 10 Best Goals ever
/671921/Golf at its best
/371285/Football Legends
/576903/Boxing Legends
Я пробовал:
wget --quiet -O - http://some-site.com | grep -o '<a href="/?/" title="?"> > new.txt
, но это не дало мне желаемых результатов.
'grep' или регулярное выражение в целом не является правильным инструментом для извлечения информации из языков разметки , Существует множество примеров того, как это сделать в Интернете. Тем не менее, вы также найдете множество неправильных примеров, используя регулярные выражения. Я немного перефразировал ваш вопрос. Надеюсь, это немного изменит ваши решения, отличные от 'grep'. – hek2mgl