2010-01-27 2 views
2

Мне интересно, знает ли кто-нибудь о хорошей библиотеке Java для измерения эквивалентности HTML?Измерение эквивалентности HTML?

Например, <td class="one two three" name="goat"> будет эквивалентно <td name="goat" class="three two one">. Я хотел бы сравнить все многострочные строки html таким образом, используя Java.

Любые предложения?

UPDATE:

поэтому я попытался использовать Diff.similar XMLUnit (в) и обнаружил, что я получаю, что эти два были похожи:

<html three="3" two="2" one="1"></html> и <html one="one" two="two"></html>

Это нежелательное поведение. .. Есть ли другие варианты?

+1

Похоже, вы хотите разобрать его как XML, а затем сравнить дерево doc? – Seth

ответ

2

Вы можете использовать HTML-парсер, как NekoHTML или JTidy, а затем использовать Diff класс из XMLUnit для сравнения двух XML-документов.

+0

Diff(). Похожее() звучит как то, что я ищу. Благодарю. –

+0

, поэтому я попробовал использовать .similar() и обнаружил, что получаю, что эти два схожи: и , который не является желаемым поведением ... –

+0

Я просто попытался сравнить два документа, которые вы указали, используя Diff.similar, и он вернул false ... Как вы это сделали? –

Смежные вопросы