Я использую Jsoup 1.9.2 для обработки и очистки некоторых XML-данных определенных тегов. Во время этого я заметил, что Jsoup ведет себя странно, когда его просят очистить теги title
. В частности, другие теги XML в теге title
не удаляются и фактически заменяются их экранированными формами.Jsoup clean title tag failure
Для этого я разработал короткий единичный тест, как показано ниже. Тест не проходит, поскольку output
выходит со значением CuCl<sub>2</sub>
.
@Test
public void stripXmlSubInTitle() {
final String input = "<title>CuCl<sub>2</sub></title>";
final String output = Jsoup.clean(input, Whitelist.none());
assertEquals("CuCl2", output);
}
Если title
тег заменяется другими тегами (например, p
или div
), то все работает, как ожидалось. Любое объяснение и обходное решение будут оценены.
http://stackoverflow.com/questions/8683018/jsoup-clean-without-adding-html-entities – maztt