Я использую Stanford Log-linear Part-Of-Speech Tagger и вот образец фраза, что я помечать:Почему теги алгоритмов тегов POS `can't` как отдельные слова?
Он не может сделать это
Когда меченой я получаю этот результат:
He_PRP ca_MD n't_RB do_VB that_DT
Как вы можете видеть, can't
разделен на tw o words, ca
отмечен как Модальный (MD), а n't
помечен как ADVERB (RB)?
я на самом деле получить тот же результат, если я использую can not
отдельно: can
является MD и not
является RB, так это способ расставания, как ожидается, вместо того, чтобы сказать, как нарушение can_MD
и 't_RB
?
Спасибо, я мог бы рассмотреть этот подход. Но он производит отличный результат, чем оригинал - отмечает '' t' как VB вместо 'RB' - так что, возможно, я буду придерживаться оригинальной токенизации. –
Это не проблема, а выбор. Мы выбираем следовать за частью Penn Treebank набора речевых меток и, следовательно, токенизации .... –