Я обрабатываю некоторые файлы данных, которые должны быть действительными UTF-8, но не являются, что приводит к сбою анализатора (не под моим контролем). Я хотел бы добавить этап предварительной проверки данных для корректности UTF-8, но я еще не нашел полезности, чтобы помочь в этом.Как проверить, действительно ли файл UTF-8?
Там в web service в W3C, который, как представляется, быть мертвым, и я нашел Windows-только проверку tool, подотчетная недопустимые UTF-8 файлов, но не сообщает, какие строки/символы исправить.
Я был бы доволен либо инструментом, который я могу зайти и использовать (в идеале кросс-платформенным), либо скриптом ruby / perl, который я могу сделать частью процесса загрузки данных.
В старых версиях iconv, как на OSX или в fink, флаг -o отсутствует. Однако перенаправление stdout всегда должно работать. – 2008-09-22 15:07:59
Torsten, спасибо, что отлично работает на моей Linux-машине. Я не мог найти версию утилиты iconv для cygwin, но это не демонстрация. – 2008-09-22 16:16:48
не поймать все проблемы ... – zvolkov 2011-10-04 00:28:26