Результаты вывода в формате conll (POS-tagging, stanford pos tagger)

Я пытаюсь использовать PST-tagger в Stanford, я хочу спросить, возможно ли синтаксическое разборку (на самом деле достаточно только тега pos), английский текст и вывод результатов в формате conll. Есть ли такой вариант?Результаты вывода в формате conll (POS-tagging, stanford pos tagger)

Я использую полную 3.2.0 версию пос Tagger Стэнфордского

Большое спасибо

источник

2013-09-22 chryssa

Вы имеете в виду формат задачи для разделения звонков? – alvas

Когда речь идет о формате CONLL, я полагаю, вы имеете в виду CONLL2000 отрывов форматов задача, как, например:

He  PRP B-NP 
    reckons VBZ B-VP 
    the  DT B-NP 
    current JJ I-NP 
    account NN I-NP 
    deficit NN I-NP 
    will  MD B-VP 
    narrow VB I-VP 
    to  TO B-PP 
    only  RB B-NP 
    #   # I-NP 
    1.8  CD I-NP 
    billion CD I-NP 
    in  IN B-PP 
    September NNP B-NP 
    .   . O

Есть три столбца в формате задачи разделения на порции CONLL:

token (т.е. слово)
POS тег
BIO (начало, внутри, снаружи) из куска/фразы тег

К сожалению, если вы используете эту отметку Стэнфорд MaxEnt, это только дать вам информацию о token и POS но не имеет BIO кусок информация.

java -cp stanford-postagger.jar edu.stanford.nlp.tagger.maxent.MaxentTagger -model models/left3words-wsj-0-18.tagger -textFile short.txt -outputFormat tsv 2> /dev/null

Используя вышеприведенную команду Таггер Stanford POS уже даст вам вкладку отделенный формат, просто, что это без 3-го столбца (см http://nlp.stanford.edu/software/pos-tagger-faq.shtml):

He  PRP 
    reckons VBZ 
    the  DT 
    ...

Чтобы получить BIO Колум, вам потребует либо:

статистический Chunker или
полный синтаксический анализатор

см http://www-nlp.stanford.edu/links/statnlp.html для списка Chunker/синтаксического анализатора, если вы хотите придерживаться инструментов Стэнфорд, я предлагаю анализатор Стэнфорде, но это дает вам в квадратные скобки формат синтаксического анализа, который вы должны сделать некоторую пост-обработку, чтобы получить ее в формате CONLL2000, см. http://nlp.stanford.edu/software/lex-parser.shtml

источник

2013-09-22 21:38:32 alvas

также см. Http://stackoverflow.com/questions/13883277/stanford-parser-and-nltk/14376410#14376410 – alvas

Результаты вывода в формате conll (POS-tagging, stanford pos tagger)

ответ

Смежные вопросы