2012-04-29 3 views
3

У меня есть файлы субтитров в UTF-8. Иногда в этих файлах есть несколько спорадических многобайтовых символов, которые вызывают проблемы в некоторых приложениях.Проверьте, содержит ли файл многобайтовый символ

Как проверить в linux (и возможность найти их), если определенный файл содержит любой многобайтовый символ.

ответ

2

командный файл можно использовать

chalet16$ echo test > a.txt 
chalet16$ echo testก > b.txt #One of Thai characters 
chalet16$ file *.txt 
a.txt: ASCII text 
b.txt: UTF-8 Unicode text 
+0

Большое спасибо. Есть ли способ найти обидного персонажа? – Masroor

2

Вы можете использовать команду file или chardet.

+0

Спасибо большое, chardet или файла похожие результаты. Есть ли способ найти оскорбительного персонажа, такого как ä? – Masroor

+2

@MMA Вы можете использовать 'grep -P '[^ \ x00- \ x7f]' input.txt' для поиска. – kev

Смежные вопросы