Я имею дело с приложением, которое принимает ввод пользователя на разных языках (в настоящее время 3 языка фиксированы). Требование состоит в том, чтобы пользователи могли вводить текст и не беспокоиться, чтобы выбрать язык через предоставленный флажок в пользовательском интерфейсе.Как определить язык введенного пользователем текста?
Есть ли существующая библиотека Java для определения языка текста?
Я хочу что-то вроде этого:
text = "To be or not to be thats the question."
// returns ISO 639 Alpha-2 code
language = detect(text);
print(language);
результат:
EN
Я не хочу знать, как создать детектор языка сам (я видел много блогов, пытаясь сделай это). Библиотека должна предоставить простой APi, а также работать полностью автономно. Открытое или коммерческое закрытое не имеет значения.
я также нашел эти вопросы на SO (и еще несколько):
How to detect language
How to detect language of text?
Пожалуйста, прочитайте это: http://stackoverflow.com/questions/1383503/how-to-determine-the-natural-language-of-a- document –
@ S.Lott: Спасибо, я уже много читал, просто ищет рабочую библиотеку, которая работает в автономном режиме, не хочет ничего создавать самостоятельно. – ManBugra
Надежное распознавание естественного языка считается трудной проблемой. Любое решение, которое подходит для вашего кодового пространства и жесткого диска, вряд ли будет очень хорошим. –