2013-12-06 2 views
-2

Когда я загружаю HTML, я сначала рассмотрю заголовки ответов, чтобы определить, какая кодировка используется. Иногда заголовок Content-Type не указывает кодировку. Даже если я получить кодировку из мета-тегов, таких как:Декодирование содержимого HTML на основе языка

<meta http-equiv="content-type" content="text/html; charset=iso-8859-1" /> 

это еще возможно, что содержание содержит символы, которые не декодирования правильно. Например, iso-8859-1 обычно используется для кодирования немецких символов. Однако в HTML, есть такие материалы, как это:

&Ouml;ffnungszeiten 

где & Ouml кодируется для немецкого Ö символов. Даже если я открою поток, используя кодировку iso-8859-1, & Ouml остается закодированным как есть. Как декодировать HTML так, чтобы отображались правильные символы. Есть еще один метатег:

<meta http-equiv="language" content="de" /> 

и, вероятно, браузер использует это для правильного декодирования символов.

ответ

0

Оказывается, что кодировка на самом деле называется «кодировкой HTML» и не является специфической для языка, а скорее для самого HTML. Использование:

HttpUtility.HtmlDecode 

будет преобразовывать любые нечитаемые символы.

Смежные вопросы