Когда речь идет о формате CONLL, я полагаю, вы имеете в виду CONLL2000 отрывов форматов задача, как, например:
He PRP B-NP
reckons VBZ B-VP
the DT B-NP
current JJ I-NP
account NN I-NP
deficit NN I-NP
will MD B-VP
narrow VB I-VP
to TO B-PP
only RB B-NP
# # I-NP
1.8 CD I-NP
billion CD I-NP
in IN B-PP
September NNP B-NP
. . O
Есть три столбца в формате задачи разделения на порции CONLL:
token
(т.е. слово)
POS
тег
BIO
(начало, внутри, снаружи) из куска/фразы тег
К сожалению, если вы используете эту отметку Стэнфорд MaxEnt, это только дать вам информацию о token
и POS
но не имеет BIO
кусок информация.
java -cp stanford-postagger.jar edu.stanford.nlp.tagger.maxent.MaxentTagger -model models/left3words-wsj-0-18.tagger -textFile short.txt -outputFormat tsv 2> /dev/null
Используя вышеприведенную команду Таггер Stanford POS уже даст вам вкладку отделенный формат, просто, что это без 3-го столбца (см http://nlp.stanford.edu/software/pos-tagger-faq.shtml):
He PRP
reckons VBZ
the DT
...
Чтобы получить BIO
Колум, вам потребует либо:
- статистический Chunker или
- полный синтаксический анализатор
см http://www-nlp.stanford.edu/links/statnlp.html для списка Chunker/синтаксического анализатора, если вы хотите придерживаться инструментов Стэнфорд, я предлагаю анализатор Стэнфорде, но это дает вам в квадратные скобки формат синтаксического анализа, который вы должны сделать некоторую пост-обработку, чтобы получить ее в формате CONLL2000, см. http://nlp.stanford.edu/software/lex-parser.shtml
Вы имеете в виду формат задачи для разделения звонков? – alvas