Я разбираю HTML-файл с HTML::TokeParser::Simple
. Файл HTML имеет контент, показанный ниже. Моя проблема заключается в том, что я пытаюсь игнорировать JavaScript в качестве текстового содержимого. Пример:HTML-анализ с помощью HTML :: TokeParser :: Simple
use HTML::TokeParser::Simple;
my $p = HTML::TokeParser::Simple->new('test.html');
while (my $token = $p->get_token) {
next unless $token->is_text;
print $token->as_is, "\n";
}
Это печатает вывод, как показано ниже:
Test HTML
<!--
var form_submitted = 0;
function submit_form() {
[..]
}
//-->
Фактическое содержание документа HTML:
<html>
<span>Test HTML</span>
<script type="text/javascript">
<!--
var form_submitted = 0;
function submit_form() {
[..]
}
//-->
</script>
</html>
Как игнорировать JavaScript
содержимое тегов от показа.