Я пытаюсь использовать простую метку Mallet (http://mallet.cs.umass.edu/sequences.php), чтобы узнать CRF-модель для POS-маркировки.Mallet POS-Tagging время обучения
Теперь я начинаю беспокоиться/запутываться, так как мой компьютер учится на эту модель более недели. Это, кажется, не вешаться, как подоконник дает мне выход в виде:
...
Punkte NN->Puppenk�nig NN(Puppenk�nig NN) Punkte NN,Puppenk�nig NN
Punkte NN->Obere NN(Obere NN) Punkte NN,Obere NN
Punkte NN->Entfernung NN(Entfernung NN) Punkte NN,Entfernung NN
...
Так что я хотел бы спросить, если это нормально для Маллет принять это долго, или же что-то пойдет не так?
Я использовал команду, указанную на веб-странице:
[email protected]:~/tagger-test$ java -cp
"/home/hough/mallet/class:/home/hough/mallet/lib/mallet-deps.jar"
cc.mallet.fst.SimpleTagger
--train true --model-file nouncrf sample
Данные тренировки содержит 96903 лексем.
Edit:
Мы предполагаем, что, возможно, что-то делать с формой входа. Сайт определяет форму:
Bill CAPITALIZED noun
slept non-noun
here LOWERCASE STOPWORD non-noun
И документацию для SimpleTagger (http://mallet.cs.umass.edu/api/) гласит, что каждый экземпляр должен быть отдельным блоком, разделенный пустыми строками. Хотя я не уверен, что подразумевается под Я, например, думал, ожидаемая форма что-то вроде этого:
word pos
word pos
. $.
word pos
word pos
word pos
. $.
word pos
word pos
. $.
...
Это правильный формат? Может быть, у кого-то есть файл примера, чтобы показать, как должен выглядеть формат?