2013-10-05 4 views
-2

У меня есть очень большой текстовый файл (~ 150 МБ), закодированный в UTF-8. Содержимое текста содержит как читаемые символы UTF-8, так и номера сущностей.Как преобразовать числа UTF-8 в символы

При отображении с помощью текстового редактора (TextWrangler, NotePad ++ ...), содержание текста, как показано ниже:

zygoma <B><FONT SIZE='+1'>zygoma</FONT></B>/z&#652;&#618;/ (g&#601;&#650;m&#601;)</FONT> 

Когда этот текстовый файл читается в веб-браузере, содержание корректно отображается в виде :

  • скуловой кости скуловой кости/г ʌ ɪ/(г ə ʊ м ə)

Я хочу, чтобы все UTF-8 числа (как g&#601;&#650;m&#601;) должны быть преобразованы в считываемых символов (например, г ə ʊ м ə), так что, когда открыт текстовый редактор, текстовый файл будет выглядеть следующим образом:

zygoma <B><FONT SIZE='+1'>zygoma</FONT></B>/zʌɪ/ (gəʊmə)</FONT> 

Я попытался с помощью кодирования инструментов, предоставляемых TextWrangler и Notepad ++ ... но не повезло. (для выполнения этой задачи есть некоторые онлайн-инструменты, но мой текстовый файл для них слишком велик).

Интересно, есть ли инструмент или способ преобразования этих номеров UTF-8 в их эквивалентные читаемые символы.

Не могли бы вы помочь? Спасибо.

+1

Это объекты HTML. Просто HTML-декодируйте файл, используя любой инструмент/язык, который вы хотите. – deceze

+0

Ну @ ​​tripleee, если вы не можете предоставить помощь, просто сдерживайте свое покровительство. Спасибо, в любом случае. –

ответ

1

Вы можете попробовать этот инструмент http://www.artlebedev.ru/tools/decoder/ (Russian lang).

Переведенный версия: http://bit.ly/15O0eQW (рус)

обновление:

Попробуйте этот сценарий https://gist.github.com/Funfun/6839052

+0

Спасибо, но, как сказано, мой текстовый файл составляет 150 МБ, слишком большой для таких онлайн-инструментов. –

+0

@NiamhDoyle Проверить обновленную версию. – CodeGroover

2

EditPad Pro может сделать это:

screenshot pre-conversion

Использование Convert - &#65535; and &#xFFFF; -> Character команда (и при условии, что текущий файл устанавливается в UTF-8, и что вы используете шрифт, который содержит необходимые глифы), вы получите

screenshot post-conversion

При сохранении того, вы получаете правильно кодированный UTF-8 файл с или без спецификации, по вашему выбору.


Отказ от ответственности: Я переводчик для немецкой версии ПОП (но я делаю это бесплатно, потому что этот редактор отлично).

+0

Огромное спасибо вам. Вот почему я люблю StackOverFlow. EditPad делает трюк. –

Смежные вопросы