0

Моя система генерирует вопросы из набора предложений. Может генерировать несколько вопросов для одного предложения в зависимости от качества предложения. Людям также предоставляется одинаковый набор предложений для генерации вопросов.Как вычислить точность и отзыв для системы, которая порождает вопросы?

Например:

предложение: Столица России Москва.

============ # Система-Сформированные Вопросы # =============

Вопрос 1: Что столица России?

Вопрос 2: Что такое Москва?

============ # человека-Сформирован Вопросы # =============

Вопрос 1: Какой город является столицей России?

Вопрос 2: Что такое Москва?

Вопрос 3: Является ли столица России Москва?

Я хочу оценить точность, отзыв и точность моей системы. Но я не знаю, как вычислить такие меры для случая системы генерации Вопроса.

данные

  1. Аннотированного набор вопросов генерируемой системы (Допустимы, недопустимых)
  2. человека сгенерированных вопросов (для того же набор предложений)

Учитывая эти данные, как Я рассчитываю эти меры?

+0

Включает ли аннотированный набор системных вопросов: _все_ возможные вопросы? – gudok

+0

Система генерирует вопросы для конкретных WH-слов. Это следует за следующей стратегией: найдите _answers_ в предложениях, затем сгенерируйте _question_ для каждого _answer_. – dryleaf

+0

Можете ли вы предположить, что человеческие вопросы содержат * все * возможные вопросы для этого предложения? – NBartley

ответ

1

Я думаю, что понимаю вашу ситуацию, но, пожалуйста, исправьте меня, если я ошибаюсь.

Если вы пытаетесь вычислить точность, отзыв и точность (интересно, могут ли быть более подходящие показатели производительности, но это не так), нам нужно определить, что такое истинный положительный, ложноположительный, истинный отрицательный , и ложные отрицательные.

Если ваша система порождает вопросы, и у вас есть набор основных вопросов правды, порожденных людьми (мы предполагаем, что люди создали КАЖДЫЙ приемлемый вопрос для каждого предложения), мы знаем, что любой вопрос, который генерирует ваша система, - это положительное (T/F):

True Positive: Вопрос, генерируемый системой соответствует генерируемый человеком вопрос для этого предложения.

False Положительный: Вопрос, генерируемый системой не соответствует генерирует запрос для данного предложения.

True Negative: Я не думаю, что это легко вычислить, поскольку ваша система генерирует только то, что, по ее мнению, является вопросом. Я думаю, что это был бы каждый неприемлемый вопрос, который ваша система не создавала, что также не встречается в человеческих вопросах.

False Отрицательный: Созданный человеком вопрос, который не был создан вашей системой.

Это то просто подключить их в уравнения для расчета точности и вспомнить:

Precision = TP/TP + FP

Напомним = TP/TP + FN

Потому что это не так просто подумайте о TN, я не думаю, что разумно вычислить точность. Вместо этого вы можете вычислить скорость ложного обнаружения (1 - точность).

+0

Если вопрос аннотируется как ** Неприемлемый **, то это потому, что во время аннотации _системных сгенерированных вопросов аннотатор обнаружил недостатки в вопросе (такие как _ungrammatical_, _vagueness_, _does__not__make__sense_, _etc_...). В противном случае аннотатор отмечает как ** Допустимо **, если нет недостатка (это означает, что вопрос, созданный системой, является правильным). – dryleaf

+0

Я немного скептически отношусь к ** неприемлемому сценарию **. – dryleaf

+0

Ах ладно, я что-то неправильно истолковал. Я уточню свой ответ. – NBartley

Смежные вопросы