2015-07-12 3 views
1

Я новичок в использовании Mallet. Я обычно использую WEKA для классификации, и теперь я пытаюсь использовать Mallet для классификации текста. В Weka есть атрибуты (такие как длина слова или слово top-n word), которые мы выбираем сами и делаем файл .arff.Текстовая классификация с использованием MALLET

Я прочитал о формате ввода для Mallet в http://mallet.cs.umass.edu/import.php, но я все еще смущен. Как назначить атрибут в формате ввода? Как мы можем сказать, что этот документ относится к определенному классу? Например, документ относится к классу «спорт»?

Любой пример файла формата ввода будет очень оценен.

Спасибо!

ответ

4

-Как мы говорим этот документ принадлежит к определенному классу ?:

Вы можете иметь одну папку на класс, например: C:/Корпус/Class1 C:/Корпус/Class2 C:/Corpus/Classn , и каждая папка содержит документы, принадлежащие этому классу.

Как назначить атрибут в формате ввода?

Если вы хотите знать, варианты импортируемого файла, перейдите по ссылке: C:/клюшка/бен и как только вы там: клюшка будет отображаться импорт-Dir --help и опции для импорта файлов , например, --remove-stopwords, --gram sizes.

Пример кода для импорта файлов:

бен/Молоток импорт-Dir --input C:/Корпус/* --output corpus.mallet --gram размеры 1,2 --preserve регистра

+0

Спасибо за Ваш ответ. Итак, я полагаю, что тип атрибута по умолчанию Маллет - это униграмма, в которой все слова являются атрибутами? – kaylak

+1

Точно. Вы можете выбрать bigrams, например, с размерами -грамм 1,2. – AnaB

+0

Отлично! Ваш ответ действительно поможет мне понять Маллет для классификации :) Теперь я использовал Mallet для своих исследований. – kaylak

Смежные вопросы