Я пытаюсь проанализировать HTML-документ с awk.Анализ фрагмента HTML с awk
Документ содержит несколько блоков <div class="p_header_bottom"></div
<div class="p_header_bottom">
<span class="fl_r"></span>
287,489 people
</div>
<div class="p_header_bottom">
<span class="fl_r"></span>
5 links
</div>
Я использую
awk '/<div class="p_header_bottom">/,/<\/div>/'
получить все такие Див-х.
Как я могу получить 287,489
номер от первого?
Фактически awk '/<\/span>/,/people/'
не работает должным образом.
Почему AWK для разбора HTML? Используйте лучший инструмент, такой как PHP и его парсер DOM – anubhava
@anubhava, потому что мне нужно всего несколько элементов информации с одной страницы, а 'curl | awk 'фоновые задачи, порожденные скриптом bash, делают 10000 страниц за одну минуту. PHP будет слишком дорогим как с точки зрения памяти, так и с точки зрения ЦП. – zavg
Я не слишком уверен в том, что PHP стоит дорого, поскольку он может выполнять как завитущую часть, так и позже парсинг в том же коде, поэтому по существу вы будете вызывать только 1 двоичный файл из командной строки. Более важно то, что анализ с использованием DOM также будет точным. Только если вы на 100% уверены в местонахождении и организации этого HTML-кода, переходите к sed/awk для синтаксического анализа. – anubhava