Я использую библиотеку HtmlCleaner для анализа или преобразования HTML-файлов в java.HTMLCLEANER обрабатывает испанские символы
кажется, что не в состоянии обрабатывать испанские символы, такие как «ÁáÉéÍíÑñÓóÚúÜü»
Есть ли какое-то свойство, которое я могу установить в HtmlCleaner для обработки этого или любого другого решения? Вот код, я использую, чтобы вызвать его:
CleanerProperties props = new CleanerProperties();
props.setRecognizeUnicodeChars(true);
java.io.File file = new java.io.File("C:\\example.html");
TagNode tagNode = new HtmlCleaner(props).clean(file);
Есть ли способ установить кодировку для использования UTF-8? – Makoto
Я использую UTF-8 при записи в файл. 'new PrettyHtmlSerializer (реквизит) .writeToFile (tagNode, filePath," utf-8 ");' – choop
Но является ли файл HTML фактически закодирован как UTF-8? –