2015-08-29 3 views
2

У меня есть ASCII-кодированные файлы, содержащие ascii-представления отдельных символов Юникода, такие как ..., -- и т. Д., Которые я хотел бы преобразовать, например. Юникод-эллипс и символы штрих-кода для отображения. Это может быть так же просто, как простой фильтр замены по всем таким сопоставлениям (в правильном порядке, чтобы поймать такие вещи, как --- -> и -- ->, конечно). (примечание: их больше, чем просто)ASCII для Unicode «beautifier»

Существует ли база данных всех таких преобразований где-нибудь? Я предполагаю, что обратный должен каким-то образом иметь возможность изящно преобразовывать unicode в обычный текст, когда это возможно, например. ->....

Это не должно быть предельно точным или чем угодно, если конверсия является подходящей в большинстве случаев и имеет смысл. Выход будет отображаться только пользователю и не будет обрабатываться дополнительно. Я мог бы просто скомпилировать список самостоятельно, но я бы сэкономил время и избегал дублирования усилий, если это уже сделано.

Спасибо!

+1

В базе данных Юникода много таких сопоставлений совместимости (например, '...' → '...'), но они не являются «открытым текстом», и их реверсирование обычно представляет собой плохую идею. Вы хотите заменить 'p.m.'' '' 'или' HP' на '㏋'? –

+2

Возможно, вы ищете что-то вроде [SmartyPants] (http://daringfireball.net/projects/smartypants/). –

+0

@ 一 二三 SmartyPants выглядит так, как будто я хочу, спасибо! Можете ли вы добавить это как ответ, чтобы я мог принять его? – Thomas

ответ

1

Полный список - не очень хорошая идея, так как существует много символов Unicode, которые существуют для совместимости или плохо поддерживаются (см. Мой комментарий). Вместо этого вы, вероятно, захотите использовать кураторский список/библиотеку, например SmartyPants (порты/альтернативы можно найти для большинства других языков).