2016-08-30 2 views
0

LibShortText - это инструмент с открытым исходным кодом для классификации и анализа коротких текстов. http://www.csie.ntu.edu.tw/~cjlin/libshorttext/Работы LibShortText с другими языками тоже?

Я попытался выяснить, работает ли он на других языках, кроме английского (например, немецкий)? Но я не нашел намека.

Кто знает ответ? Заранее спасибо.

ответ

0

Я так думаю (но может потребоваться дополнительная предварительная обработка). Libsvm и Liblinear являются языковыми и агностиками. Поскольку LibShortText построен поверх LibLinear, он также должен работать на всех языках.

Согласно статье this, у нее есть внутренние методы предварительной обработки для извлечения функций.

libshorttext.converter: For given short texts, LibShortText follows 
the bag-of-word model to generate features. Users apply procedures in 
this library to pre-process short texts by tokenization, stemming 
(optional), and stop-word removal (optional). The library also allows 
users to choose between unigram and bigram features. 

Однако, похоже, что его удаление и удаление стоп-слова поддерживают только английский язык. Поэтому, если вы хотите, чтобы лучшие функции были извлечены для текста, отличного от английского, вы можете использовать свои собственные методы предварительной обработки, например, используя nltk.

Смежные вопросы