Я использую Jsoup для удаления всех изображений с HTML-страницы. Я получаю страницу через HTTP-ответ, который также содержит кодировку содержимого.Jsoup unescapes special characters
Проблема в том, что Jsoup не имеет специальных символов.
Например, для ввода:
<html><head></head><body><p>isn’t</p></body></html>
После запуска
String check = "<html><head></head><body><p>isn’t</p></body></html>";
Document doc = Jsoup.parse(check);
System.out.println(doc.outerHtml());
я получаю:
<html><head></head><body><p>isn’t</p></body></html><p></p>
Я хочу, чтобы избежать изменения HTML любым другим способом, кроме для удаления изображений.
С помощью команды:
doc.outputSettings().prettyPrint(false).charset("ASCII").escapeMode(EscapeMode.extended);
Я получаю правильный вывод, но я уверен, что есть случаи, когда что кодировка не будет хорошо. Я просто хочу использовать кодировку, указанную в заголовке HTTP, и я боюсь, что это изменит мой документ так, как я не могу предсказать. Есть ли какой-либо другой метод очистки изображений без каких-либо непреднамеренных изменений?
Спасибо!
Спасибо, я буду использовать это сейчас, хотя мне жаль, что в API Jsoup не было решения. – dlv
@dlv См. Мое обновление. – Stephan
Спасибо! Это действительно информативно. – dlv