Как остановить алчность, используя Grep из Баша

У меня есть HTML-страница со следующим содержанием:Как остановить алчность, используя Grep из Баша

[...] 
<tr><td class="n"><a href="play-1.0.1.zip">play-1.0.1.zip</a></td></tr> 
<tr><td class="n"><a href="play-1.0.2.1.zip">play-1.0.2.1.zip</a></td></tr> 
<tr><td class="n"><a href="play-1.0.2.zip">play-1.0.2.zip</a></td></tr> 
[...]

И я хотел бы, чтобы извлечь только

play-1.0.1.zip 
play-1.0.2.1.zip 
play-1.0.2.zip

, чтобы затем найти самую последнюю версию (в этом случае было бы play-1.0.2.1.zip)

Так что я попытался с

cat tmp.html | grep "<a href=\".*\""

<a href="play-1.0.1.zip">play-1.0.1.zip</a></td><td class="m" 
<a href="play-1.0.2.1.zip">play-1.0.2.1.zip</a></td><td class="m" 
<a href="play-1.0.2.zip">play-1.0.2.zip</a></td><td class="m"

Так что я попытался с ленивым:

cat tmp.html | grep "<a href=\".*?\""

и отрицая котировки

cat tmp.html | grep "<a href=\"[^\"]*?\""

оба они не возвращаются ничего

мне нужно получить только совпадающую часть (а не href), а затем найти последние, но я stu ск с этой проблемой жадностью ...

спасибо за ответы на все вопросы, все они были очень полезны, это трудно решить, какой из них правильный, в конце концов, я решил его с :

grep -v '.*-RC.*' index.html | grep -oP 'play-1.*?.zip' | sort -Vru | head -1

источник

2012-03-15 opensas

Grep -E " strkol

Нет необходимости использовать 'cat tmp.html' с grep, потому что grep может обрабатывать файлы самостоятельно. Вы должны использовать 'grep -E pattern tmp.html'. – piotrekkr

В отличие от других ответов, это может быть сделано исключительно с Grep.

Ваш выход немного отличается от вашего ввода - появляются дополнительные элементы. Для целей этого ответа я собираюсь использовать этот файл:

<tr><td class="n"><a href="play-1.0.1.zip">play-1.0.1.zip</a></td><td class="n"><a href="play-1.0.1.zip">play-1.0.1.zip</a></td></tr> 
<tr><td class="n"><a href="play-1.0.2.1.zip">play-1.0.2.1.zip</a></td><td class="n"><a href="play-1.0.1.zip">play-1.0.1.zip</a></td></tr> 
<tr><td class="n"><a href="play-1.0.2.zip">play-1.0.2.zip</a></td><td class="n"><a href="play-1.0.1.zip">play-1.0.1.zip</a></td></tr>

Здесь нужно сделать несколько вещей. Во-первых, вам нужно установить правильные grep-переключатели. Вам нужно:

-o для вывода только совпадающую часть каждой строки
-P использовать Perl совместимый механизм регулярных выражений

Теперь вы можете использовать?Модификатор для предотвращения жадных соответствий:

grep -o -P '<a href=".*?"' test.html 

<a href="play-1.0.1.zip" 
<a href="play-1.0.1.zip" 
<a href="play-1.0.2.1.zip" 
<a href="play-1.0.1.zip" 
<a href="play-1.0.2.zip" 
<a href="play-1.0.1.zip"

Это не совсем верно, так что мы будем якорем регулярного выражения в первый матч линии:

grep -o -P '^<tr><td class="n"><a href=".*?"' test.html 

<tr><td class="n"><a href="play-1.0.1.zip" 
<tr><td class="n"><a href="play-1.0.2.1.zip" 
<tr><td class="n"><a href="play-1.0.2.zip"

Это правильные данные, но слишком много хлама , Нам нужно использовать утверждения с нулевой шириной (часть синтаксиса PCRE). По существу биты регулярного выражения, которые не учитываются для сопоставленного шаблона.

grep -o -P '(?<=^<tr><td class="n"><a href=").*?(?=")' test.html 

play-1.0.1.zip 
play-1.0.2.1.zip 
play-1.0.2.zip

Теперь вы можете делать все, что нужно для сортировки списка. Более подробную информацию о нулевой ширины утверждений можно найти здесь: http://www.regular-expressions.info/lookaround.html

источник

2012-03-15 13:32:44

+1 хороший ответ, чтобы показать, как вы перебираете регулярное выражение. –

попробовать с -E переключателем:

[email protected]:~$ echo '<a href="play-1.0.1.zip">play-1.0.1.zip</a></td>' | grep -E '<a href=".*?"' 
<a href="play-1.0.1.zip">play-1.0.1.zip</a></td>

источник

2012-03-15 13:10:50 piotrekkr

Это работает, потому что grep по умолчанию использует основной механизм регулярных выражений. Переключатели '-E',' -F' и '-P' меняют используемый двигатель. Дополнительную информацию см. На странице руководства. –

grep не кажется, что правильный инструмент для этого, так как вы хотите, чтобы извлечь submatch.

Вот Perl один вкладыш, который будет делать это, хотя:

$ perl -ne 'while(/<a href="([^"]+)"/g){print $1, "\n";}' input 
play-1.0.1.zip 
play-1.0.2.1.zip 
play-1.0.2.zip

источник

2012-03-15 13:15:35 Mat

$ grep 'href=' tmp.html | sed 's/.*href="\(.*\)".*/\1/' 
play-1.0.1.zip 
play-1.0.2.1.zip 
play-1.0.2.zip

источник

2012-03-15 13:16:57 strkol

Хорошо, наконец, решение 'sed':) ...Ну, похоже, это не работает, если файл содержит другие строки, так что это можно сделать после 'grep'? –

да, правильно, исправлено, все еще самое короткое решение :-) – strkol

С GNU инструментов, вы можете сделать

grep -oP '(?<=<td class="n"><a href=")[^"]+' | sort -Vr | head -1

источник

2012-03-15 13:49:52

Awk является отличным инструментом, если вы знаете, число полей:

awk -F\" '$4 ~ /play.*zip/{ print $4 }'

Или это своего рода грязный путь; поиск всех почтовых файлов:

cat file | tr '"' '\n' | grep -e '.zip$' | sort -u

Это позволит получить все почтовые файлы для вас. Утилита tr слишком много используется, она просто заменяет символ, в этом случае заменяя каждую двойную кавычку новой строкой, красиво получая цитированные данные на своей собственной линии, где вы можете ее grep. Сорт -u позволяет избежать дублирования.

источник

2012-03-15 13:52:50

Perl-путь:

cat thefile | perl -anF'"' -e 'print $F[3],"\n";($v)=$F[3]=~/(\d.*\d)/;$m=$v if$v gt $m;}{print "max=$m\n";'

выход:

play-1.0.1.zip 
play-1.0.2.1.zip 
play-1.0.2.zip 
max=1.0.2.1

источник

2012-03-15 14:16:53 Toto

Используя ответ предоставленный Крейг Эндрюс с добавлением поддержки OSX.

grep -o -P '(?<=^<tr><td class="n"><a href=").*?(?=")' /test.html | sort -n -r -k1.10,12

Результат:

play-1.0.2.1.zip 
play-1.0.2.zip 
play-1.0.1.zip

источник

2012-04-10 15:31:02 E1Suave

Точно так же, как добавленная помощь для тех пользователей только xs x. sort -V по умолчанию недоступен в OSX. Это также должно работать на других машинах на базе UNIX. – E1Suave

Не видел вырезать (и мне нравится его скорость краткость &) так:

покрой -d \»-f4 TMP. html | sort -Vu | tail -1

мощность:

play-1.0.2.1.zip

источник

2012-11-27 08:46:56 jokmi

Как остановить алчность, используя Grep из Баша

ответ

Смежные вопросы