2011-01-27 2 views
2

Мне нужно расшифровать электронную почту, сохраненную из Outlook, только как текст. К сожалению, они не соответствуют стандарту ISO-8859-1, поскольку в них содержатся специальные символы «умной цитаты». Имеет ли кодовая страница, используемая Outlook, настоящее имя (которое я могу передать unicode.decode() в Python), или это просто какая-то произвольная глупость, которую мне придется вручную декодировать? И если да, то у кого есть ссылка на все «специальные» символы, добавленные Microsoft?Какая кодировка использует Outlook для текстовых сообщений?

+0

Это не стандарт UTF-8? (Я полагаю, вы уже пробовали это?) Я также не уверен, что это действительно связано с программированием. –

+0

Когда Microsoft начала использовать UTF-8 для чего-нибудь? Я считаю, что они все еще называют UTF-16 просто «Unicode»? –

ответ

2

Вполне вероятно, что Outlook сохранит сообщения в вашем текущем регионе. Мое предположение было бы Windows-1252.

Nitpick: То, что вы называете «умными кавычками», на самом деле должно выглядеть так, как должны выглядеть кавычки. Кавычки, которые вы использовали в своем сообщении, известны как «пишущие машинки»; для механических пишущих машинок количество ключей было основным фактором стоимости и котировками, которые выглядят очень похожими друг на друга, а символ «дюйм» объединен в один ключ, эстетика будет проклята.

+0

Вы правы, они в Windows-1252. Благодарю. –

+0

Это, кстати, «cp1252» в Python. –

1

Существует много (зависит от региона) Windows code pages, поэтому, возможно, в худшем случае это зависит от страны, в которой находится отправитель.

+0

Я могу предположить, что все сообщения будут из локалей США или Великобритании. Похоже, Windows-1252 - это правильная кодировка, спасибо. –

Смежные вопросы