Я очищающий текст от нежелательного HTML тегов (такие как <script>
) с помощьюJsoup.clean без добавления HTML сущности
String clean = Jsoup.clean(someInput, Whitelist.basicWithImages());
Проблемы заключается в том, что он заменяет, например å
с å
(что вызывает проблемы для меня, так как это не «чистый xml»).
Например
Jsoup.clean("hello å <script></script> world", Whitelist.basicWithImages())
дает
"hello å world"
, но я хотел бы
"hello å world"
Есть ли простой способ для достижения этой цели? (Т.е. проще, чем преобразование å
обратно в å
в результате.)
Как-то это не сработало для объекта •. – mvmn
Примечание. Вместо прямого взаимодействия с объектом [Cleaner] (https://jsoup.org/apidocs/org/jsoup/safety/Cleaner.html) используйте [clean methods] (https://jsoup.org/ apidocs/org/jsoup/Jsoup.html # clean-java.lang.String-java.lang.String-org.jsoup.safety.Whitelist-) в Jsoup. –