Есть ли служба/библиотека (бесплатная или платная), которая берет фрагмент текста и возвращает его язык?API/библиотека обнаружения языков
Мне нужно пройти более миллиона сообщений в блогах и определить их языки.
Есть ли служба/библиотека (бесплатная или платная), которая берет фрагмент текста и возвращает его язык?API/библиотека обнаружения языков
Мне нужно пройти более миллиона сообщений в блогах и определить их языки.
Я думаю, что это лучший вариант!
Я слышал хорошие вещи о langid.py
.
Особенности из README:
- Fast
- Предварительное обучение на большом количестве языков (в настоящее время 97)
- не чувствительны к особенностям предметно-ориентированных (например, HTML/XML разметки)
- Один файл .py с минимальными зависимостями
- Deployable как веб-службы
Вы смотрели на https://github.com/shuyo/language-detection? –
см. Ответы на этот вопрос: http://stackoverflow.com/q/29290107/4588780 –