2012-04-04 3 views
0

Есть ли библиотека, где я могу просто вызвать метод на строке, чтобы узнать, не является ли он английским? Я пытаюсь сохранить только английские строки, а входящий поток строк имеет в них много неанглийского языка.Определить, есть ли строка на английском языке

+8

Что такое «не-английский»? «Сохраните гавань!» Английский? Является ли «c u l8r»? – Gareth

+0

Английский или американский английский? «Сохраните гавань!» ;-) – Pavling

+1

Я думаю, что я могу просто вызвать метод на строке, а также «если он не английский» не является английским. – sawa

ответ

2

Вы можете попробовать использовать linguo.

"your string".lang 
# will return "en" for english strings 

Отказ от ответственности: Я создатель этого драгоценного камня.

0

Не то, чтобы я знал ... но вы можете получить этот список в массив (http://www.langmaker.com/wordlist/basiclex.htm), а затем сопоставить слова строки с ним ... Определите какой-то процент, как хороший, и идите оттуда.

Вы можете использовать байесовский алгоритм здесь, чтобы отметить эти слова как «хорошие» и учиться оттуда, но это может быть излишним.

Смежные вопросы