2016-10-06 5 views
2

Я пытаюсь использовать простую метку Mallet (http://mallet.cs.umass.edu/sequences.php), чтобы узнать CRF-модель для POS-маркировки.Mallet POS-Tagging время обучения

Теперь я начинаю беспокоиться/запутываться, так как мой компьютер учится на эту модель более недели. Это, кажется, не вешаться, как подоконник дает мне выход в виде:

... 
Punkte NN->Puppenk�nig NN(Puppenk�nig NN) Punkte NN,Puppenk�nig NN 
Punkte NN->Obere NN(Obere NN) Punkte NN,Obere NN 
Punkte NN->Entfernung NN(Entfernung NN) Punkte NN,Entfernung NN 
... 

Так что я хотел бы спросить, если это нормально для Маллет принять это долго, или же что-то пойдет не так?

Я использовал команду, указанную на веб-странице:

[email protected]:~/tagger-test$ java -cp 
"/home/hough/mallet/class:/home/hough/mallet/lib/mallet-deps.jar" 
cc.mallet.fst.SimpleTagger 
--train true --model-file nouncrf sample 

Данные тренировки содержит 96903 лексем.

Edit:
Мы предполагаем, что, возможно, что-то делать с формой входа. Сайт определяет форму:

Bill CAPITALIZED noun 
slept non-noun 
here LOWERCASE STOPWORD non-noun 

И документацию для SimpleTagger (http://mallet.cs.umass.edu/api/) гласит, что каждый экземпляр должен быть отдельным блоком, разделенный пустыми строками. Хотя я не уверен, что подразумевается под Я, например, думал, ожидаемая форма что-то вроде этого:

word pos 
word pos 
. $. 

word pos 
word pos 
word pos 
. $. 

word pos 
word pos  
. $. 

... 

Это правильный формат? Может быть, у кого-то есть файл примера, чтобы показать, как должен выглядеть формат?

ответ

1

Неделя для 100k token corpus кажется слишком длинной. Я ожидал бы больше половины часа.

Смежные вопросы