Я так думаю (но может потребоваться дополнительная предварительная обработка). Libsvm и Liblinear являются языковыми и агностиками. Поскольку LibShortText построен поверх LibLinear, он также должен работать на всех языках.
Согласно статье this, у нее есть внутренние методы предварительной обработки для извлечения функций.
libshorttext.converter: For given short texts, LibShortText follows
the bag-of-word model to generate features. Users apply procedures in
this library to pre-process short texts by tokenization, stemming
(optional), and stop-word removal (optional). The library also allows
users to choose between unigram and bigram features.
Однако, похоже, что его удаление и удаление стоп-слова поддерживают только английский язык. Поэтому, если вы хотите, чтобы лучшие функции были извлечены для текста, отличного от английского, вы можете использовать свои собственные методы предварительной обработки, например, используя nltk.