Как вычислить точность и отзыв для системы, которая порождает вопросы?

Моя система генерирует вопросы из набора предложений. Может генерировать несколько вопросов для одного предложения в зависимости от качества предложения. Людям также предоставляется одинаковый набор предложений для генерации вопросов.Как вычислить точность и отзыв для системы, которая порождает вопросы?

Например:

предложение: Столица России Москва.

============ # Система-Сформированные Вопросы # =============

Вопрос 1: Что столица России?

Вопрос 2: Что такое Москва?

============ # человека-Сформирован Вопросы # =============

Вопрос 1: Какой город является столицей России?

Вопрос 2: Что такое Москва?

Вопрос 3: Является ли столица России Москва?

Я хочу оценить точность, отзыв и точность моей системы. Но я не знаю, как вычислить такие меры для случая системы генерации Вопроса.

данные

Аннотированного набор вопросов генерируемой системы (Допустимы, недопустимых)
человека сгенерированных вопросов (для того же набор предложений)

Учитывая эти данные, как Я рассчитываю эти меры?

источник

2016-05-24 dryleaf

Включает ли аннотированный набор системных вопросов: _все_ возможные вопросы? – gudok

Система генерирует вопросы для конкретных WH-слов. Это следует за следующей стратегией: найдите _answers_ в предложениях, затем сгенерируйте _question_ для каждого _answer_. – dryleaf

Можете ли вы предположить, что человеческие вопросы содержат * все * возможные вопросы для этого предложения? – NBartley

Я думаю, что понимаю вашу ситуацию, но, пожалуйста, исправьте меня, если я ошибаюсь.

Если вы пытаетесь вычислить точность, отзыв и точность (интересно, могут ли быть более подходящие показатели производительности, но это не так), нам нужно определить, что такое истинный положительный, ложноположительный, истинный отрицательный , и ложные отрицательные.

Если ваша система порождает вопросы, и у вас есть набор основных вопросов правды, порожденных людьми (мы предполагаем, что люди создали КАЖДЫЙ приемлемый вопрос для каждого предложения), мы знаем, что любой вопрос, который генерирует ваша система, - это положительное (T/F):

True Positive: Вопрос, генерируемый системой соответствует генерируемый человеком вопрос для этого предложения.

False Положительный: Вопрос, генерируемый системой не соответствует генерирует запрос для данного предложения.

True Negative: Я не думаю, что это легко вычислить, поскольку ваша система генерирует только то, что, по ее мнению, является вопросом. Я думаю, что это был бы каждый неприемлемый вопрос, который ваша система не создавала, что также не встречается в человеческих вопросах.

False Отрицательный: Созданный человеком вопрос, который не был создан вашей системой.

Это то просто подключить их в уравнения для расчета точности и вспомнить:

Precision = TP/TP + FP

Напомним = TP/TP + FN

Потому что это не так просто подумайте о TN, я не думаю, что разумно вычислить точность. Вместо этого вы можете вычислить скорость ложного обнаружения (1 - точность).

источник

2016-05-24 15:33:31 NBartley

Если вопрос аннотируется как ** Неприемлемый **, то это потому, что во время аннотации _системных сгенерированных вопросов аннотатор обнаружил недостатки в вопросе (такие как _ungrammatical_, _vagueness_, _does__not__make__sense_, _etc_...). В противном случае аннотатор отмечает как ** Допустимо **, если нет недостатка (это означает, что вопрос, созданный системой, является правильным). – dryleaf

Я немного скептически отношусь к ** неприемлемому сценарию **. – dryleaf

Ах ладно, я что-то неправильно истолковал. Я уточню свой ответ. – NBartley

Как вычислить точность и отзыв для системы, которая порождает вопросы?

ответ

Смежные вопросы