2013-03-07 4 views
0

У меня есть текст, поступающий из фида, как показано ниже, с этим необычным персонажем:Что это за персонаж?

Новый помощник по управлению голосом Siri позволяет использовать ваш голос для отправки сообщений, расписания встреч, телефонных звонков и многого другого. Сири понимает, что вы говорите, знает, что вы имеете в виду, и даже разговаривает. Например, вы могли бы сказать что-то вроде «Скажи моей жене, что я бегу поздно», «Верь мне позвонить ветеринару» или «Какая погода похожа на завтра?» И Сири ответит.

Что это такое и как я могу избавиться от него? Я не могу сделать замену, поскольку я не уверен, что это на самом деле.

Благодаря

+0

Вы не декодируете фид с тем же набором символов, который закодирован с помощью ... – Teejay

+0

Почему это запрещено? – Aditi

ответ

6

Это символ замены отображается вместо символов, которые не могут быть отображены в текущей кодировке.

Попробуйте переключить кодировку на источник, используемый источником.

+0

, поэтому правильным ответом должно быть использование той же кодировки, что и сообщение, закодировано в –

+0

. Вы правы, конечно. Исправленный. –

3

Символ «» является U + FFFD ЗАМЕНА СИМВОЛОВ, что указывает на ошибку данных символьного уровня , Ссылка: стандарт Unicode, ch. 16, раздел 16.8.

В настоящее время чаще всего указывается, что некоторые данные содержат байты, которые не имеют значения в применяемой кодировке символов. Таким образом, он сигнализирует об отсутствии достоверных символьных данных, а не просто как-то некорректном или не воспроизводимом персонаже.

Типичная ситуация заключается в том, что кодированные данные Latin 1 интерпретируются как кодированные UTF-8. В вашем примере кажется, что все символы не-Ascii, такие как «умные» кавычки, апострофы и, возможно, «тире», превратились в « ». Вполне возможно, что сами данные верны; это просто информация о его кодировании, которая неверна. Если кодировка (в соответствии с которой данные интерпретируются) может быть изменена в настройках программы, вероятно, помогает UTF-8.

Символ « » может также отображаться, когда данные были преобразованы из одной кодировки в другую, и в данных, которые не имеют представления в целевой кодировке, есть символ. В этом случае исходные данные были бы потеряны, и нужно было бы угадать или вернуться к исходным закодированным данным для восстановления информации.