Если файл HTML не является чрезвычайно простой (список ссылок), вы, вероятно, следует избегать разбора его самостоятельно, как уже было сказано. В этом ответе я предлагаю вам «обмануть» и установить что-нибудь из CPAN, чтобы помочь :-)
например. вы могли use Mojolicious
- конкретно mojo
инструмент, который входит в состав этого модуля:
mojo get https://www.svenskaspel.se a attr href
, который в «длинной форме» это что-то вроде:
perl -Mojo -E ' my $ua = Mojo::UserAgent->new;
say $ua->get("https://www.svenskaspel.se")
->res->dom->find("a[href]")->map(attr => 'href')->join("\n");'
Чем дольше Однострочник выходы:
/
/
/spela
/mina-spel
/bomben
#
/stryktipset/tipssm
/triss
/grasroten
/spelkoll
/kundservice
/om-cookies
, который включает в себя пустые строки, потому что некоторые из атрибутов href
не имеют содержания (href=""
).
Вы можете управлять селектором, используя синтаксис соответствия от Mojo::DOM
SELECTORS. Таким образом, аналогично DOM CSS-селекторам, что-то вроде: ...->dom->find("a[href^=/]")
будет искать значения атрибутов href
, которые начинаются с "/"
.
удалить одиночные кавычки, которые были вокруг '
Пробовал, такая же проблема, ничего .. –
print' $ 1' .... –