Я пытаюсь использовать Machine Learning для маркировки предложений (каждое предложение с одной меткой, я предполагаю, что предложения не зависят друг от друга). Я думал, что линейная модель CRF будет в порядке для этого случая, но у меня есть некоторые вопросы.Можно ли использовать CRF (условные случайные поля) для обозначения целых предложений?
Я попытался использовать CRF++ (другие реализации, которые я видел, похоже, имеют аналоговые форматы). Он использует предложения как входные данные, но метка вывода назначается каждому токену . Как использовать единую метку для всего предложения? (Хак Я думал о том, чтобы присвоить значительную метки только точку в тестовых данных и рассматривать его в качестве выходного этикетки для всего предложения.)
Как можно использовать предложения разной длины? Для конфигурации обучения требуется указать, какие маркеры принимаются во внимание при анализе текущего токена в . Но предложение может иметь большое или небольшое количество токенов, и я хочу использовать все токены из предложения (не более или менее), чтобы использовать всю информацию.
От this question кажется, что то, что я пытаюсь сделать, возможно (одна метка для всей последовательности), , но я не знаю, как форматировать данные для обучения для этого.
Разделите предложение на токены, поместите его в одну строку, а не отдельно, добавьте соответствующие функции, а затем метку. Возможно, он может найти определенные шаблоны. – arjun