Mallet POS-Tagging время обучения

Я пытаюсь использовать простую метку Mallet (http://mallet.cs.umass.edu/sequences.php), чтобы узнать CRF-модель для POS-маркировки.Mallet POS-Tagging время обучения

Теперь я начинаю беспокоиться/запутываться, так как мой компьютер учится на эту модель более недели. Это, кажется, не вешаться, как подоконник дает мне выход в виде:

... 
Punkte NN->Puppenk�nig NN(Puppenk�nig NN) Punkte NN,Puppenk�nig NN 
Punkte NN->Obere NN(Obere NN) Punkte NN,Obere NN 
Punkte NN->Entfernung NN(Entfernung NN) Punkte NN,Entfernung NN 
...

Так что я хотел бы спросить, если это нормально для Маллет принять это долго, или же что-то пойдет не так?

Я использовал команду, указанную на веб-странице:

[email protected]:~/tagger-test$ java -cp 
"/home/hough/mallet/class:/home/hough/mallet/lib/mallet-deps.jar" 
cc.mallet.fst.SimpleTagger 
--train true --model-file nouncrf sample

Данные тренировки содержит 96903 лексем.

Edit:
Мы предполагаем, что, возможно, что-то делать с формой входа. Сайт определяет форму:

Bill CAPITALIZED noun 
slept non-noun 
here LOWERCASE STOPWORD non-noun

И документацию для SimpleTagger (http://mallet.cs.umass.edu/api/) гласит, что каждый экземпляр должен быть отдельным блоком, разделенный пустыми строками. Хотя я не уверен, что подразумевается под Я, например, думал, ожидаемая форма что-то вроде этого:

word pos 
word pos 
. $. 

word pos 
word pos 
word pos 
. $. 

word pos 
word pos  
. $. 

...

Это правильный формат? Может быть, у кого-то есть файл примера, чтобы показать, как должен выглядеть формат?

источник

2016-10-06 Kai

Неделя для 100k token corpus кажется слишком длинной. Я ожидал бы больше половины часа.

источник

2016-10-06 14:07:30

Mallet POS-Tagging время обучения

ответ

Смежные вопросы