2014-12-05 4 views
1

Я попытался добавить больше возможностей в шаблон CRF ++.пользовательская функция в CRF ++

Согласно How can I tell CRF++ classifier that a word x is captilized or understanding punctuations?

обучающей выборки

The DT 0 1 0 1 B-MISC 
Oxford NNP 0 1 0 1 I-MISC 
Companion NNP 0 1 0 1 I-MISC 
to TO 0 0 0 0 I-MISC 
Philosophy NNP 0 1 0 1 I-MISC 

шаблона функция

# Unigram 
U00:%x[-2,0] 
U01:%x[-1,0] 
U02:%x[0,0] 
U03:%x[1,0] 
U04:%x[2,0] 
U05:%x[-1,0]/%x[0,0] 
U06:%x[0,0]/%x[1,0] 
U07:%x[-2,0]/%x[-1,0]/%x[0,0] 

#shape feature 
U08:%x[-2,2] 
U09:%x[-1,2] 
U10:%x[0,2] 
U11:%x[1,2] 
U12:%x[2,2] 

B 

фаза TRAING нормально. Но у меня нет выхода с crf_test

[email protected]:/data/wikipedia/en$ crf_test -m validation_model test.data 
[email protected]:/data/wikipedia/en$ 

Все работает нормально, если игнорировать фигуру выше. Где я неправ?

ответ

1

Я понял это. Это проблема с моими тестовыми данными. Я думал, что каждая функция должна быть взята из обученной модели, поэтому у меня есть только два столбца в тестовых данных: тег слова, который, как оказалось, должен иметь тот же формат, что и данные обучения!

Смежные вопросы