Я ищу способ обнаружения наборов символов в документах. Я читал реализацию обнаружения набора символов Mozilla здесь:Алгоритм обнаружения кодирования символов
Я также нашел реализацию Java этого называется jCharDet:
Оба они основаны на исследование, проведенное с использованием набора статических данных. Мне интересно, кто-нибудь успешно использовал любую другую реализацию, и если да, то что? Вы применили свой собственный подход, и если да, то какой алгоритм вы использовали для обнаружения набора символов?
Любая помощь будет оценена по достоинству. Я не ищу список существующих подходов через Google, ни я ищу ссылку на статью Джоэл Спольский - просто уточнить:)
UPDATE: Я сделал кучу исследований в этом и закончился что нашли основу под названием cpdetector, который использует подключаемый подход к обнаружению символов см:
Это обеспечивает BOM, chardet (Mozilla подход) и плагины обнаружения ASCII. Также очень легко написать свой собственный. Там же еще одна структура, которая обеспечивает намного лучшее обнаружение характер, что подход Mozilla/jchardet и т.д ...
Это довольно легко написать свой собственный плагин для cpdetector, который использует эту структуру, чтобы обеспечить более точный характер алгоритм обнаружения кодирования. Он работает лучше, чем подход Mozilla.
Это сложная проблема. Спасибо за отличные ссылки из ваших собственных исследований. – erickson
Существует один известный случай: http://blogs.msdn.com/oldnewthing/archive/2007/04/17/2158334.aspx – McDowell
Да, я был над проблемой блокнота, я пересмотрю свой пост своими исследованиями как только я закончу и закончу, некоторые интересные вещи ... – Jon