2014-10-19 2 views
0

Я хочу обучить тэгстер Стэнфорд, используя корпус, который состоит из нескольких файлов и будет расширен в будущем.Поезд и переучивание тестеров в Стэнфорде с помощью API

Возможно ли обновить существующую модель или мне нужно каждый раз тренироваться с использованием всего корпуса?

Есть ли примеры того, как сделать обучение с использованием API? JavaDoc MaxentTagger охватывает только обучение через командную строку.

Спасибо!

ответ

1

В настоящее время вы должны тренироваться с использованием всего корпуса каждый раз. (Теоретически возможно обновление модели с дополнительными данными, но это не то, что в настоящее время существует, и оно не находится на нашей передней горелке.)

Мы делаем все, что мы делаем для подготовки моделей из командной строки .... Собственно, глядя на код, кажется, что метод поезда является закрытым, поэтому вам нужно сделать его более доступным для обучения в API. Мы должны это исправить. Можете попытаться это сделать.

Если уровень доступа был другим, вы можете создать TaggerConfig и затем вызвать этот метод:

private static void trainAndSaveModel(TaggerConfig config) throws IOException { ... } 

Но даже тогда, в настоящее время он всегда сохраняет свой встроенный Tagger на диск. Таким образом, все может сделать с некоторой переработкой, чтобы это было плавно.