2010-09-19 4 views
3

Я получаю доступ к некоторому веб-сайту, и мне нужно извлечь некоторые данные. Точнее - из этой части:Вывод данных из HTML

<input type="hidden" value="1" name="d520783895194bd08750e47c744d553d"> 

Мне нужно извлечь часть «имя». Я слышал, что релак-выражения не лучшее решение, поэтому я хотел бы спросить, что является лучшим способом получить доступ к этим данным, которые мне нужны.

ответ

2

После анализа веб-сайта с NekoHTML или TagSoup (который должен заботиться о том, что ваш поле ввода тега не замкнут), я предлагаю использовать выражение XPath:

//input[@type='hidden'][@value=1]/@name 

В заводной вы будете применять он в форме GPath.

2

Использование библиотеки анализа синтаксиса Html, они исправляют неверный HTML-код, упрощающий перемещение документа для поиска и обновления элементов. Вот ссылка на список реализаций Java/Grovy:

http://www.wavyx.net/2009/01/13/looking-for-a-java-html-parser-or-groovy/

Похоже NekoHTML и TagSoup популярны, но я не использовал ни или Grovy по этому вопросу. Но я использовал Html Parsers на других языках.

Смежные вопросы