2010-10-13 3 views
2

Я предлагаю преобразовать свои веб-страницы Windows-1252 XHTML в UTF-8.charset-utf8 и объекты символов

У меня есть следующие символьные сущности в моем кодирования:

  • ' - апостроф,
  • ► - правый указатель,
  • ◄ - левый указатель.

Если изменить кодировку и сохранить страницы в UTF-8 с помощью моего редактора:

  • апостроф остается в качестве субъекта характер;
  • указатели преобразуются в символы внутри кода (предположительно потому, что сущности не поддерживаются в UTF-8?).

Вопросы:

  1. Если я понимаю UTF-8 правильно, вам не нужно использовать объекты и могут ввести символы непосредственно в код. В каком случае безопасно ли мне заменить #39 напечатанным апострофом?

  2. Правильно ли, что редактор поместил символы указателя непосредственно в мой код и будет ли он надежно отображаться в современных браузерах, кажется, все в порядке? Предположительно, я не могу вернуться к сущности в любом случае, если я использую UTF-8?

Спасибо.

ответ

1

Объекты имеют три цели: Кодирующие символы невозможно кодировать в кодировке символов (не относится к UTF-8), символы кодирования, которые не удобно набирать на данной клавиатуре, и символы кодирования, которые являются незаконно безвозвратно.

► должен всегда производить ► независимо от того, что кодирует. Если это не так, это ошибка в другом месте.

непосредственно в источнике в UTF-8. Вы можете сделать это или сущность, и это не имеет значения.

«в порядке вещей, но не в некоторых. Оба допускаются следующие:

<span title="Jon's example">This is Jon's example</span> 

Но должны быть закодированы в:

<span title='Jon&#x27;s example'>This is Jon's example</span> 

, потому что в противном случае оно будет принято как ", завершающая значение атрибута.

+0

Благодаря Джон, некоторые из моих ключевых слов включают апостроф, вы знаете, как поисковые системы интерпретировать объекты? Например, видят ли они виджеты # 39 так же, как и виджеты? Мне было интересно, перестают ли они существовать и видят виджет. Это было бы хорошей причиной для меня не использовать сущность в этом обстоятельстве. – cranfan

+0

Поисковая система, которая не может следовать основным правилам HTML, в той степени, в которой она знает ''' в исходном, такая же, как '' '(или даже это' J 'такое же, как' J', много чего делать) не стоит беспокоиться. Как бы то ни было, они не только поймут, что это апостроф, они даже будут достаточно сложными в разработке того, включать ли апостроф в соответствие с поисковыми условиями и т. Д. –

2

Это кодировка, а не набор диаграмм.

1) это зависит от того, где используется апостроф, это также действительный символ ASCII, поэтому в зависимости от намерения персонажей (пусть только для отображения (внутри узла DOMText) или используется в коде) вы можете или не можете иметь возможность использовать буквальный апостроф.

2) если ваш редактор является современным редактором, он будет использовать utf-последовательности вместо простого символа для отображения текста. большинство последовательностей, используемых в коде, являются просто ASCII (а ASCII - подмножеством utf8), поэтому эти символы будут занимать один байт. другие символы могут занимать два, три или даже четыре байта в специализированном порядке. они все равно будут отображаться вам как один символ, но отношение между символом и байтом стало другим.

В любом случае; поскольку все допустимые символы ASCII точно такие же, как в ASCII, utf8 и даже в windows-1252. вы не должны видеть никаких проблем с помощью utf8. И вы все равно можете использовать числовые и именованные объекты, потому что они написаны в этих действительных символах. Вам просто не нужно.

P.S. Все современные браузеры могут делать utf8 просто отлично. но наши определения «современных» могут отличаться.

0

Используйте объекты, если вы копируете/вставляете контент из текстового процессора или код является диалектом XML. Используйте макрос в текстовом редакторе, чтобы найти/заменить обычные в одном снимке. Вот простой список:

  • Половина: ½ =>&#189;
  • Акут: é =>&#233;
  • Ampersand: & =>&#38;
  • апостроф: '=>&#39;
  • кавычки : '=>&#96;
  • Обратная косая черта: \ =>&#92;
  • пули: • =>&#8226;
  • Знак доллара: $ =>&#36;
  • Cents Вход: ¢ =>&#162;
  • Ellipsis: ... =>&#8230;
  • Emdash: - =>&#8212;
  • кратким тире: - =>&#8211;
  • Left Цитата: «=>&#8220;
  • Right Цитата:» =>&#8221;

Ссылки

Смежные вопросы