3

Я пытаюсь использовать PST-tagger в Stanford, я хочу спросить, возможно ли синтаксическое разборку (на самом деле достаточно только тега pos), английский текст и вывод результатов в формате conll. Есть ли такой вариант?Результаты вывода в формате conll (POS-tagging, stanford pos tagger)

Я использую полную 3.2.0 версию пос Tagger Стэнфордского

Большое спасибо

+0

Вы имеете в виду формат задачи для разделения звонков? – alvas

ответ

3

Когда речь идет о формате CONLL, я полагаю, вы имеете в виду CONLL2000 отрывов форматов задача, как, например:

He  PRP B-NP 
    reckons VBZ B-VP 
    the  DT B-NP 
    current JJ I-NP 
    account NN I-NP 
    deficit NN I-NP 
    will  MD B-VP 
    narrow VB I-VP 
    to  TO B-PP 
    only  RB B-NP 
    #   # I-NP 
    1.8  CD I-NP 
    billion CD I-NP 
    in  IN B-PP 
    September NNP B-NP 
    .   . O 

Есть три столбца в формате задачи разделения на порции CONLL:

  1. token (т.е. слово)
  2. POS тег
  3. BIO (начало, внутри, снаружи) из куска/фразы тег

К сожалению, если вы используете эту отметку Стэнфорд MaxEnt, это только дать вам информацию о token и POS но не имеет BIO кусок информация.

java -cp stanford-postagger.jar edu.stanford.nlp.tagger.maxent.MaxentTagger -model models/left3words-wsj-0-18.tagger -textFile short.txt -outputFormat tsv 2> /dev/null 

Используя вышеприведенную команду Таггер Stanford POS уже даст вам вкладку отделенный формат, просто, что это без 3-го столбца (см http://nlp.stanford.edu/software/pos-tagger-faq.shtml):

He  PRP 
    reckons VBZ 
    the  DT 
    ... 

Чтобы получить BIO Колум, вам потребует либо:

  • статистический Chunker или
  • полный синтаксический анализатор

см http://www-nlp.stanford.edu/links/statnlp.html для списка Chunker/синтаксического анализатора, если вы хотите придерживаться инструментов Стэнфорд, я предлагаю анализатор Стэнфорде, но это дает вам в квадратные скобки формат синтаксического анализа, который вы должны сделать некоторую пост-обработку, чтобы получить ее в формате CONLL2000, см. http://nlp.stanford.edu/software/lex-parser.shtml

+0

также см. Http://stackoverflow.com/questions/13883277/stanford-parser-and-nltk/14376410#14376410 – alvas

Смежные вопросы