Моя система генерирует вопросы из набора предложений. Может генерировать несколько вопросов для одного предложения в зависимости от качества предложения. Людям также предоставляется одинаковый набор предложений для генерации вопросов.Как вычислить точность и отзыв для системы, которая порождает вопросы?
Например:
предложение: Столица России Москва.
============ # Система-Сформированные Вопросы # =============
Вопрос 1: Что столица России?
Вопрос 2: Что такое Москва?
============ # человека-Сформирован Вопросы # =============
Вопрос 1: Какой город является столицей России?
Вопрос 2: Что такое Москва?
Вопрос 3: Является ли столица России Москва?
Я хочу оценить точность, отзыв и точность моей системы. Но я не знаю, как вычислить такие меры для случая системы генерации Вопроса.
данные
- Аннотированного набор вопросов генерируемой системы (Допустимы, недопустимых)
- человека сгенерированных вопросов (для того же набор предложений)
Учитывая эти данные, как Я рассчитываю эти меры?
Включает ли аннотированный набор системных вопросов: _все_ возможные вопросы? – gudok
Система генерирует вопросы для конкретных WH-слов. Это следует за следующей стратегией: найдите _answers_ в предложениях, затем сгенерируйте _question_ для каждого _answer_. – dryleaf
Можете ли вы предположить, что человеческие вопросы содержат * все * возможные вопросы для этого предложения? – NBartley