У меня есть ASCII-кодированные файлы, содержащие ascii-представления отдельных символов Юникода, такие как ...
, --
и т. Д., Которые я хотел бы преобразовать, например. Юникод-эллипс и символы штрих-кода для отображения. Это может быть так же просто, как простой фильтр замены по всем таким сопоставлениям (в правильном порядке, чтобы поймать такие вещи, как ---
->—
и --
->–
, конечно). (примечание: их больше, чем просто)ASCII для Unicode «beautifier»
Существует ли база данных всех таких преобразований где-нибудь? Я предполагаю, что обратный должен каким-то образом иметь возможность изящно преобразовывать unicode в обычный текст, когда это возможно, например. …
->...
.
Это не должно быть предельно точным или чем угодно, если конверсия является подходящей в большинстве случаев и имеет смысл. Выход будет отображаться только пользователю и не будет обрабатываться дополнительно. Я мог бы просто скомпилировать список самостоятельно, но я бы сэкономил время и избегал дублирования усилий, если это уже сделано.
Спасибо!
В базе данных Юникода много таких сопоставлений совместимости (например, '...' → '...'), но они не являются «открытым текстом», и их реверсирование обычно представляет собой плохую идею. Вы хотите заменить 'p.m.'' '' 'или' HP' на '㏋'? –
Возможно, вы ищете что-то вроде [SmartyPants] (http://daringfireball.net/projects/smartypants/). –
@ 一 二三 SmartyPants выглядит так, как будто я хочу, спасибо! Можете ли вы добавить это как ответ, чтобы я мог принять его? – Thomas