У меня есть очень большой текстовый файл (~ 150 МБ), закодированный в UTF-8. Содержимое текста содержит как читаемые символы UTF-8, так и номера сущностей.Как преобразовать числа UTF-8 в символы
При отображении с помощью текстового редактора (TextWrangler, NotePad ++ ...), содержание текста, как показано ниже:
zygoma <B><FONT SIZE='+1'>zygoma</FONT></B>/zʌɪ/ (gəʊmə)</FONT>
Когда этот текстовый файл читается в веб-браузере, содержание корректно отображается в виде :
- скуловой кости скуловой кости/г ʌ ɪ/(г ə ʊ м ə)
Я хочу, чтобы все UTF-8 числа (как gəʊmə
) должны быть преобразованы в считываемых символов (например, г ə ʊ м ə), так что, когда открыт текстовый редактор, текстовый файл будет выглядеть следующим образом:
zygoma <B><FONT SIZE='+1'>zygoma</FONT></B>/zʌɪ/ (gəʊmə)</FONT>
Я попытался с помощью кодирования инструментов, предоставляемых TextWrangler и Notepad ++ ... но не повезло. (для выполнения этой задачи есть некоторые онлайн-инструменты, но мой текстовый файл для них слишком велик).
Интересно, есть ли инструмент или способ преобразования этих номеров UTF-8 в их эквивалентные читаемые символы.
Не могли бы вы помочь? Спасибо.
Это объекты HTML. Просто HTML-декодируйте файл, используя любой инструмент/язык, который вы хотите. – deceze
Ну @ tripleee, если вы не можете предоставить помощь, просто сдерживайте свое покровительство. Спасибо, в любом случае. –