Регулярное выражение в HTML

Исходя из этого, пытаясь извлечь html-ссылки из исходного файла html. Что мне не хватает? Я проверил регулярное выражение, он прекрасно работает, но здесь она ничего не возвращает на всех (пробовал различные веб-сайты, а)Регулярное выражение в HTML

#!/usr/bin/perl 

use LWP::Simple; 
my $url = "http://www.svenskaspel.se"; 
my $content = get($url); 
my @links =(); 

$content =~ /<a[^>]* href=([^"]*)/; 
push (@links, $_); 

foreach $_ (@links){ 
    print "$_\n"; 

    }

источник

2015-03-12 kaktusräv

удалить одиночные кавычки, которые были вокруг '

Пробовал, такая же проблема, ничего .. –

print' $ 1' .... –

Линии:

$content =~ /<a[^>]* href=([^"]*)/; 
push (@links, $_);

должны быть:

$content =~ /<a[^>]* href="([^"]*)/; 
push (@links, $1);

источник

2015-03-12 12:45:48 Toto

Все еще не работает, извините. –

@ kaktusräv: см. Мое редактирование. – Toto

Ваше регулярное выражение кажется неправильным.

проверить эту ссылку - http://regexr.com/3ajeh, чтобы увидеть рабочее регулярное выражение. вставить источник любой HTML-страницы в текстовой области для тестирования.

Обратите внимание: регулярное выражение не является рекомендуемым способом анализа HTML, поскольку HTML не является регулярным языком.

См. this famous answer.

источник

2015-03-12 12:54:26 Heisenberg

Серьезно - не надо. Разбор HTML через регулярное выражение является грязным взломом и создает хрупкий код. RegEx match open tags except XHTML self-contained tags

Вот пример некоторых альтернативных подходов: How do I extract links from HTML with a Perl regex?

источник

2015-03-12 12:58:14 Sobrique

Что случилось с закрытием дубликатов? –

Если файл HTML не является чрезвычайно простой (список ссылок), вы, вероятно, следует избегать разбора его самостоятельно, как уже было сказано. В этом ответе я предлагаю вам «обмануть» и установить что-нибудь из CPAN, чтобы помочь :-)

например. вы могли use Mojolicious - конкретно mojo инструмент, который входит в состав этого модуля:

mojo get https://www.svenskaspel.se a attr href

, который в «длинной форме» это что-то вроде:

perl -Mojo -E ' my $ua = Mojo::UserAgent->new; 
     say $ua->get("https://www.svenskaspel.se") 
    ->res->dom->find("a[href]")->map(attr => 'href')->join("\n");'

Чем дольше Однострочник выходы:

/ 
/
/spela 
/mina-spel 


/bomben 
# 
/stryktipset/tipssm 
/triss 
/grasroten 
/spelkoll 
/kundservice 
/om-cookies

, который включает в себя пустые строки, потому что некоторые из атрибутов href не имеют содержания (href="").

Вы можете управлять селектором, используя синтаксис соответствия от Mojo::DOM SELECTORS. Таким образом, аналогично DOM CSS-селекторам, что-то вроде: ...->dom->find("a[href^=/]") будет искать значения атрибутов href, которые начинаются с "/".

источник

2015-03-12 15:50:41

Регулярное выражение в HTML

ответ

Смежные вопросы