Когда я загружаю HTML, я сначала рассмотрю заголовки ответов, чтобы определить, какая кодировка используется. Иногда заголовок Content-Type не указывает кодировку. Даже если я получить кодировку из мета-тегов, таких как:Декодирование содержимого HTML на основе языка
<meta http-equiv="content-type" content="text/html; charset=iso-8859-1" />
это еще возможно, что содержание содержит символы, которые не декодирования правильно. Например, iso-8859-1 обычно используется для кодирования немецких символов. Однако в HTML, есть такие материалы, как это:
Öffnungszeiten
где & Ouml кодируется для немецкого Ö символов. Даже если я открою поток, используя кодировку iso-8859-1, & Ouml остается закодированным как есть. Как декодировать HTML так, чтобы отображались правильные символы. Есть еще один метатег:
<meta http-equiv="language" content="de" />
и, вероятно, браузер использует это для правильного декодирования символов.