Я новичок в использовании Mallet. Я обычно использую WEKA для классификации, и теперь я пытаюсь использовать Mallet для классификации текста. В Weka есть атрибуты (такие как длина слова или слово top-n word), которые мы выбираем сами и делаем файл .arff.Текстовая классификация с использованием MALLET
Я прочитал о формате ввода для Mallet в http://mallet.cs.umass.edu/import.php, но я все еще смущен. Как назначить атрибут в формате ввода? Как мы можем сказать, что этот документ относится к определенному классу? Например, документ относится к классу «спорт»?
Любой пример файла формата ввода будет очень оценен.
Спасибо!
Спасибо за Ваш ответ. Итак, я полагаю, что тип атрибута по умолчанию Маллет - это униграмма, в которой все слова являются атрибутами? – kaylak
Точно. Вы можете выбрать bigrams, например, с размерами -грамм 1,2. – AnaB
Отлично! Ваш ответ действительно поможет мне понять Маллет для классификации :) Теперь я использовал Mallet для своих исследований. – kaylak