Вывод данных из HTML

Я получаю доступ к некоторому веб-сайту, и мне нужно извлечь некоторые данные. Точнее - из этой части:Вывод данных из HTML

<input type="hidden" value="1" name="d520783895194bd08750e47c744d553d">

Мне нужно извлечь часть «имя». Я слышал, что релак-выражения не лучшее решение, поэтому я хотел бы спросить, что является лучшим способом получить доступ к этим данным, которые мне нужны.

источник

2010-09-19 jjczopek

После анализа веб-сайта с NekoHTML или TagSoup (который должен заботиться о том, что ваш поле ввода тега не замкнут), я предлагаю использовать выражение XPath:

//input[@type='hidden'][@value=1]/@name

В заводной вы будете применять он в форме GPath.

источник

2010-10-04 03:49:13 Skarab

Использование библиотеки анализа синтаксиса Html, они исправляют неверный HTML-код, упрощающий перемещение документа для поиска и обновления элементов. Вот ссылка на список реализаций Java/Grovy:

http://www.wavyx.net/2009/01/13/looking-for-a-java-html-parser-or-groovy/

Похоже NekoHTML и TagSoup популярны, но я не использовал ни или Grovy по этому вопросу. Но я использовал Html Parsers на других языках.

источник

2010-09-19 03:14:11 tarn

Вывод данных из HTML

ответ

Смежные вопросы