2016-06-27 3 views
8

С результатами двух разных сводных систем (sys1 и sys2) и тех же ссылочных сводок я оценил их как с BLEU, так и с ROUGE. Проблема в том, что все ROUGE-оценки sys1 были выше, чем sys2 (ROUGE-1, ROUGE-2, ROUGE-3, ROUGE-4, ROUGE-L, ROUGE-SU4, ...), но оценка BLEU sys1 была меньше чем оценка BLEU sys2 (довольно много).Оценка суммирования текста - BLEU vs ROUGE

Так что мой вопрос: и ROUGE, и BLEU основаны на n-грамм для измерения аналогичных между сводками систем и сводки человеческого. Итак, почему существуют различия в результатах оценки? И каковы основные отличия ROUGE против BLEU, чтобы объяснить эту проблему?

Любые советы и предложения будут очень благодарны! Благодаря!

ответ

12

В общем:

Bleu измеряет точность: сколько слов (и/или п-г) в машины сгенерированных резюме появились в справочных аннотаций человека.

меры

Rouge вспомнить: сколько слов (и/или п-г) в ссылочных резюме человека появились в машинных генерироваться резюме.

Естественно - эти результаты дополняют, как это часто бывает в области точности и отзыва. Если у вас много слов из результатов системы, появляющихся в ссылках на человека, у вас будет высокий уровень Bleu, и если у вас будет много слов из человеческих ссылок, появляющихся в результатах системы, у вас будет высокий Rouge.

В вашем случае окажется, что sys1 имеет более высокий Rouge, чем sys2, поскольку результаты в sys1 последовательно содержат больше слов из ссылок на человека, чем результаты sys2. Однако, поскольку ваш балл Bleu показал, что sys1 имеет более низкий отзыв, чем sys2, это предполагает, что в ссылках на человека в отношении sys2 появилось не так много слов из ваших результатов sys1.

Это может произойти, например, если ваш sys1 выводит результаты, содержащие слова из ссылок (вверх по Rouge), но также много слов, которые ссылки не включали (опускание Bleu). sys2, по-видимому, дает результаты, для которых большинство выраженных слов действительно появляются в ссылках на человека (вверх по Синему), но также не хватает многих слов из его результатов, которые появляются в ссылках на человека.

BTW, есть что-то под названием краткое наказание, что весьма важно и уже добавлено к стандартным реализациям Bleu. Он штрафует результаты системы, которые являются короче, чем общая длина ссылки (подробнее об этом here). Это дополняет поведение метрики n-грамм, которое фактически наказывает дольше, чем исходные, поскольку знаменатель растет дольше, чем результат системы.

Вы также можете реализовать что-то подобное для Rouge, но на этот раз наказание результаты системы, которые больше чем общая позиция длина, которые в противном случае позволят им получить искусственно высокие баллы кхмеров (так как больше результата, тем выше шанс, что вы попадете в какое-то слово, содержащееся в ссылках). В Руже мы разделяем длину человеческих ссылок, поэтому нам потребуется дополнительный штраф за более длинные системные результаты, которые могли бы искусственно поднять их оценку Rouge.

Наконец, вы можете использовать F1 меру сделать метрики работать вместе: F1 = 2 * (Bleu * Rouge)/(Bleu + Rouge)

+0

Вы отправили точный ответ на два вопроса. Если вы считаете, что один из них является дубликатом другого, вы должны пометить их как таковые (а не повторить один и тот же ответ дважды). – Jaap

+1

Ответы не совсем то же самое, и вопросы не совсем одинаковы. Правильно, что один из ответов содержит другой, но я не вижу четкого способа свести два вопроса. –

+0

* * другой * * ответ затем должен быть отмечен как дубликат imo. – Jaap

1

Оба ROUGE и BLEU основаны на n-грамм для измерения сходства между сводками систем и сводки человеческого. Итак, почему существуют различия в результатах оценки? И каковы основные отличия ROUGE против BLEU, чтобы объяснить эту проблему?

Существуют как точность ROUGE-n, так и точность повторения ROUGE-n. оригинальная реализация ROUGE из статьи, в которой вводится ROUGE {3}, вычисляет оба, а также итоговый результат F1.

От http://text-analytics101.rxnlp.com/2017/01/how-rouge-works-for-evaluation-of.html (mirror):

РУМЯН отзыв:

enter image description here

РУМЯН точность:

enter image description here

(Оригинальная реализация РУМЯН из бумаги, введенной Rouge { 1} может выполнять несколько такие как стринг.)

Точность и отзыв ROUGE-n легко интерпретировать, в отличие от BLEU (см. Interpreting ROUGE scores).

Разница между точностью ROUGE-n и BLEU заключается в том, что BLEU вводит короткий срок наказания, а также вычисляет соответствие n-грамм для нескольких размеров n-граммов (в отличие от ROUGE-n, где есть только один выбранный размер n-грамм). Stack Overflow не поддерживает LaTeX, поэтому я не буду использовать больше формул для сравнения с BLEU. {2} ясно объясняет BLEU.


Литература:

Смежные вопросы