2015-07-02 1 views
0

Я использую питон-crfsuite пакет в Python, реализация CRFSUITE разработанной Naoaki Оказаки (http://www.chokkan.org/software/crfsuite/)как я могу использовать сущности класс предыдущих маркеров в качестве признака для НЭКЕ при использовании crfsuite

Я хочу использовать класс сущности предыдущего токена как функция, которая поможет мне идентифицировать многословные имена объектов. мой пример обучения данные:

[(Raheja, B-строитель), (перспектива, I-строитель), (это, O), (очень, O), (известный, O)]

здесь если я могу использовать предыдущую функцию класса во время обучения. но при прогнозировании мы передаем список функций объекту tagger. Проблема во время тестирования заключается в том, что предыдущий класс не будет известен.

может кто-нибудь сказать мне, если это возможно в python-crfsuite вообще. Я чувствую, что способ передачи объектов объекту tagger невозможен.

ответ

0

Я считаю, что это не представляется возможным с crfsuite (и питона-crfsuite), на основе этого предложения в tutorial:

Особенности кондиционером с атрибутами и этикетки биграмм не поддерживаются.

0

Класс предыдущего токена используется как функция по умолчанию в CRFSuite. CRFSuite использует два вида функций:

  1. «Характеристики состояния» - I(current_label=A and f(sequence, current_position));
  2. "функции переходов" - I(current_label=A and previous_label=B)

Особенности вы определяете, на самом деле f функции в (1); свойства состояния генерируются для всех возможных значений метки. Чтобы использовать функции перехода, вам не нужно ничего делать, они генерируются по умолчанию.

Что не реализовано в CRFsuite - это третий вид функции: I(current_label=A and previous_label=B and f(sequence, current_position)); это то, что учебник означает «Особенности, связанные с атрибутами и ярлыками биграмм».

Смежные вопросы