У меня есть набор текстовых файлов, содержащих корейские символы с неправильными кодировками. В частности, кажется, что символы кодируются EUC-KR, но сами файлы были сохранены с помощью спецификации UTF8 +.Фиксация поврежденного кодирования (с Python)
До сих пор мне удалось исправить файл со следующим:
- Открыть файл с EditPlus (это показывает, кодировкой файла является
UTF8+BOM
) - В EditPlus, сохраните файл как
ANSI
Наконец, в Python:
with codecs.open(html, 'rb', encoding='euc-kr') as source_file: contents = source_file.read() with open(html, 'w+b') as dest_file: dest_file.write(contents.encode('utf-8'))
Я хочу автоматизировать это, но я не смог этого сделать. Я могу открыть исходный файл в Python:
codecs.open(html, 'rb', encoding='utf-8-sig')
Однако, я не мог понять, как сделать 2. часть.
Можете ли вы показать нам пример строки из файла данных? Первая строка или около того с BOM была бы лучше всего. –