2014-12-31 4 views
0

Обучая модель настроений Стэнфорде для данного набора данных, мы используем команду:Какая польза devTrees во время обучения модели настроения Стэнфорда?

java -mx8g edu.stanford.nlp.sentiment.SentimentTraining -numHid 25 -trainPath train.txt -devPath dev.txt -train -model model.ser.gz 

Можно ли тренироваться без использования dev.txt? Каково его значение?

ответ

0

Да, можно тренироваться без использования данных разработки. Данные разработки используются для оценки модели на «невидимых» тестовых данных, чтобы угадать, насколько окончательная модель будет обобщаться на новые входы.

Если вы не указали какие-либо данные разработки, вы не сможете получить обратную связь во время обучения по эффективности вашей модели. (Вы можете взять сохраненные модели и проверить новые данные вручную.)

+0

Спасибо. Я также хотел бы знать, как вы находите точность модели настроений после оценки ее по сравнению с тестовым набором данных. В обзоре оценки есть две вещи: точность метки и точность метки корня. В чем разница между ними. Как вы находите общую точность? – mary

+0

Точность метки измеряет точность меток сметы на каждом узле каждого дерева, тогда как точность метки корня проверяет только общую метку настроения. Вам нужно выбрать метрику, которая наилучшим образом соответствует вашей задаче. Например, если вам не нужно получать точную правильность ниже уровня предложения до тех пор, пока настроение на уровне предложения создается правильно, вы, вероятно, должны сосредоточиться на точности метки метки. –

+0

Сейчас я тренирую набор данных из 27328 предложений. Но моя точность метки корня составляет всего 33 процента, когда я тестирую ее на основе известного набора данных из 1794 предложений. Что может быть проблемой? Связано ли это с длиной предложения? – mary

Смежные вопросы