2014-10-14 4 views
0

Я хочу рассчитать точность и отзыв алгоритма ранжирования веб-сервисов. У меня разные базы данных в базе данных.Как рассчитать точность и отзыв алгоритма ранжирования веб-сервисов?

Клиент задает некоторые условия в своем поиске. Согласно требованиям клиента, мой алгоритм должен назначать оценку для каждого веб-сервиса в базе данных и получать веб-сервисы с наивысшими баллами.

Я искал сеть и прочитал все вопросы на этом сайте по этой теме и знаю о точности и отзыве, но я не знаю, как рассчитать их в моем случае. Наиболее релевантный поиск был в этой ссылке: http://ijcsi.org/papers/IJCSI-8-3-2-452-460.pdf

Согласно этой статье,

Precision = Самый высокий ранг оценка/Общий ранг оценка всех услуг

Recall = Самый высокий ранг оценка/Суммарная оценка второй самый высокий обслуживание

Но, я думаю, это неправда. Не могли бы вы мне помочь?

Большое спасибо.

ответ

0

Нет такой вещи, как «точность и отзыв для ранжирования». Точность и отзыв определены для задачи двоичной классификации и расширены до задач с несколькими метками. Ранжирование требует различных мер, поскольку это гораздо более сложная проблема. Есть множество способов, чтобы вычислить нечто похожее на точность и вспомнить, я обобщаю некоторые основные подходы к точности, напомнит иду аналогичен: алгоритм поиска

  • предела для некоторых K наилучших результатов и подсчет истинных позитивов как число запросы, для которых желаемые результаты: в тех результатах K. Таким образом, точность - это доля запросов, для которых вы можете найти соответствующий результат в K лучших выходах
  • очень строгая вариация выше, установите K = 1, что означает, что результаты должны стать «лучшими из всех»
  • присваивать весам каждой позиции, так что, например, вы можете дать 1/T «истинный положительный результат» каждому запросу, где действительный результат будет важен T'th. Другими словами, если действительный результат не был возвращен, вы назначаете 1/inf = 0, если он был первым в списке, тогда 1/1 = 1, если второй 1/2 и т. Д. Теперь точность - это просто среднее значение эти оценки
+0

Большое спасибо. Ваш комментарий был действительно полезен. С наилучшими пожеланиями. –

+0

Я изучал и работал над этой проблемой. Я думал, что могу найти результат, но здесь есть проблема: мои результаты сортировки алгоритмов, поэтому первый элемент в моем списке результатов является лучшим с наивысшим балл, второй результат имеет второй верхний балл и так далее. Я ограничиваю свой алгоритм поиска, например, нахожу 5 лучших результатов. Результаты - самые верхние 5 пунктов. Итак, точность будет 1. Когда я ограничиваю свой поиск, чтобы найти лучший результат, он находит лучший. Опять же, точность будет 1. Но проблема в том, что это неприемлемо для людей, которые видят этот результат. Что я могу сделать? Пожалуйста, помогите мне –

-1

Это то, что я мог думать:

Напомним может быть фракция получения пользователем нажмите для топ-5 запросов и точность может получать долю пользователя, получая щелчок в первом запросе по сравнению для остальной части запросов. Я не знаю, но кажется очень расплывчатым говорить о точности и отзыве в таком сценарии.

+0

Большое спасибо за ваш ответ. С наилучшими пожеланиями. –

0

Как отметил лейблот, использование показателя «точность и отзыв для ранжирования» применяется для оценки эффективности ранжирования. Определение «точность» и «отзыв» очень «настроено» в указанном вами referenced paper.

It is a measure of the tradeoff between the precision and 
recall of the particular ranking algorithm. Precision is the 
accuracy of the ranks i.e. how well the algorithm has 
ranked the services according to the user preferences. 
Recall is the deviation between the top ranked service and 
the next relevant service in the list. Both these metrics are 
used together to arrive at the f-measure which then tests the 
algorithm efficiency. 

Возможно, у первоначального автора есть определенная мотивация для использования такого определения.Некоторые обычные метрики для оценки алгоритмов ранжирования включает в себя:

  • Нормализация дисконтированных усиление информации или nDCG (используется во многом kaggle соревнований)
  • Precision @ K, вызов @ K

This бумага также перечислена несколько общих мер ранжирования.

+0

Большое спасибо. Ваш комментарий был полезен. С наилучшими пожеланиями. –

+0

Я изучал и работал над этой проблемой. Я думал, что могу найти результат, но здесь есть проблема: мои результаты сортировки алгоритмов, поэтому первый элемент в моем списке результатов является лучшим с наивысшим балл, второй результат имеет второй верхний балл и так далее. Я ограничиваю свой алгоритм поиска, например, нахожу 5 лучших результатов. Результаты - самые верхние 5 пунктов. Итак, точность будет 1. Когда я ограничиваю свой поиск, чтобы найти лучший результат, он находит лучший. Опять же, точность будет 1. Но проблема в том, что это неприемлемо для людей, которые видят этот результат. Что я могу сделать? –

Смежные вопросы