2013-05-10 2 views
5

я хочу прочитать данные IRStatisticsImpl, но есть некоторые проблемы:как интерпретировать данные IRStatisticsImpl в погонщик

мой результат:

IRStatisticsImpl[precision:0.04285714285714287,recall:0.04275534441805227,fallOut:0.0018668022652391654,nDCG:0.04447353132522083,reach:0.997624703087886] 

это означало, что я получил только 4% хороших рекомендаций (точность) и примерно такой же уровень плохой рекомендации (отзыв)?

Каковы должны быть цифры в лучшем случае - точность 1,0 и отзыв при 0.0?

ответ

2

Ну, по определению:

Precision представляет, сколько результаты правильны в результирующий набор. Recall представляет вероятность того, что правильный элемент в тестовом наборе должен быть выбран как правильный и выбранный в результирующем наборе.

Должно быть совершенным Прецизионность и отзыв должны быть на уровне 100%. Хорошие результаты и критерии для этих значений должны оцениваться в соответствии с вашим доменом.

Например, если у вас есть ведро с хорошими и плохими грибами, вы должны стремиться к точности на 100%, независимо от того, насколько низкий ваш отзыв. Поскольку точность важна для вашего здоровья, вы даже можете оставить много хороших грибов. Важно то, что не едят уродливые. Вы можете выбрать один хороший гриб, чтобы получить 100% -ную точность, но если в вашем ковше было четыре хороших гриба, ваш отзыв составляет 25%. В идеале, если точность и отзыв 100% означают, что в вашем результирующем наборе все ваши грибы хороши и также все хорошие грибы находятся в вашем результирующем наборе, и ни один из них не находится в вашем тестовом наборе.

Значения могут иметь разные значения.

К сожалению, ваши результаты кажутся очень уродливыми, потому что у вас много ложных срабатываний и слишком много ложных негативов.

Посмотрите here.

+0

Вы могли бы рассказать мне, как должны выглядеть цифры для 'fallOut' и' nDCG'? должны ли они быть 1,0 или 0,0? – ulkas

+0

по определению fallOut - это «доля не относящихся к делу документов, которые извлекаются из всех доступных не доступных документов:« http://en.wikipedia.org/wiki/Information_retrieval#Falloutout Насколько я знаю, он должен быть как можно более низким, но также тривиально получить 0%, чтобы вы могли оценить свой домен. – gpicchiarelli

+0

о nDCG, это нормализованная версия DCG, что означает «Дисконтированный кумулятивный выигрыш». Если быть точным, посмотрите здесь http://en.wikipedia.org/wiki/Discounted_cumulative_gain – gpicchiarelli

Смежные вопросы