2013-05-19 3 views
1

Я создаю веб-сервис ASP.NET, загружая другие веб-страницы, а затем передаю его клиентам. Я отлично справлялся с обработкой кода символа, читал метатег из HTML, а затем использовал этот код для чтения файла. Но, тем не менее, некоторые менее образованные пользователи просто не понимают наборы кода. Они объявляют конкретный способ кодирования, например. «gb2312», но на самом деле он просто использует обычный UTF8. Когда я использую gb2312 для декодирования текста, все получается святой беспорядок. Как определить, правильно ли декодирован текст? Я загрузил эту страницу в свой IE, которые правильно используют UTF-8 для декодирования страницы. Как это достигается?Как определить неправильное объявление кодировки?

+0

http://stackoverflow.com/questions/90838/how-can-i-detect-the-encoding-codepage-of-a-text-file – xxbbcc

ответ

0

Основываясь на спецификации, вы можете указать, какая кодировка используется.

BOM and encoding

BOM and encoding

Если вы хотите, чтобы обнаружить набор символов, вы можете использовать C# порт набора символов детектора Мозиллы.

CharDetSharp

Если вы хотите, чтобы сделать его дополнительно убедиться, что вы используете правильный, может быть, вы могли бы искать специальные символы, которые не должны быть там. Это вряд ли включает в себя «Ãkkà ©». Таким образом, вы можете искать такие символы и пытаться использовать разные кодировки/символы для обработки вашего файла.

На самом деле действительно сложно сделать ваше приложение полностью «безупречным».

Смежные вопросы