2015-06-14 3 views
5

Есть ли служба/библиотека (бесплатная или платная), которая берет фрагмент текста и возвращает его язык?API/библиотека обнаружения языков

Мне нужно пройти более миллиона сообщений в блогах и определить их языки.

+0

Вы смотрели на https://github.com/shuyo/language-detection? –

+1

см. Ответы на этот вопрос: http://stackoverflow.com/q/29290107/4588780 –

ответ

0

Я слышал хорошие вещи о langid.py.

Особенности из README:

  • Fast
  • Предварительное обучение на большом количестве языков (в настоящее время 97)
  • не чувствительны к особенностям предметно-ориентированных (например, HTML/XML разметки)
  • Один файл .py с минимальными зависимостями
  • Deployable как веб-службы

https://github.com/saffsd/langid.py

Смежные вопросы