Извините за запутанный заголовок, я не совсем уверен, как это сделать сам. Я постараюсь максимально упростить мой вопрос.Чтение файла с неизвестными строками UTF8 и известным ASCII смешанным
Я работаю над системой, которая хранит «каталог» строк. Этот каталог представляет собой простой текстовый файл, который индексируется определенным образом. Синтаксис файлов должен быть в ASCII, но содержимое строк может быть UTF8.
Пример файла:
{
STRINGS: {
THISHASTOBEASCII: "But this is UTF8"
HELLO1: "Hello, world"
HELLO2: "您好"
}
}
Чтение файла UTF8 не проблема здесь, я на самом деле не волнует, что это в кавычках, поскольку это просто копируется в другие места, никакие изменения не сделаны к строкам.
Проблема в том, что мне нужно разобрать скобу и метки строк для правильного хранения строк UTF8 в памяти. Как мне это сделать?
EDIT: Только что я осознал, что я его преувеличиваю. Я должен просто скопировать и сохранить все, что находится между двумя «», так как UTF8 можно прочитать в байтах> _ <. Помечается для закрытия.
Вы можете просто удалить свой вопрос, если вы это уже поняли. Или напишите ответ, если вы считаете, что это будет полезно для других людей. – yellowantphil
Проблема заключается в том, что nt читает их, но обнаруживает замыкающую двойную кавычку, убедившись, что это не элемент многобайтовой кодировки. – Christophe
@Christophe. Вы никогда не получите ASCII '' 'как часть многобайтового символа в UTF-8. – yellowantphil