У меня 50 продуктов. Для каждого продукта я хочу идентифицировать следующие четыре связанных продукта, используя меры сходства.Сравнение ранжированного списка в Python
- 1 связан наиболее
- -частично связанные
- -не связанный
Я хочу, чтобы сравнить ранжированный список порожденного моей моделью (прогноз) с ранжированным списком, указанным Эксперты по домену (наземная правда).
С помощью чтения я обнаружил, что для сравнения ранжированных списков я могу использовать подходы с ранговой корреляцией, такие как Kendall Tau/Spearmen. Тем не менее, я не уверен, подходят ли эти подходы, так как число моих образцов невелико. (4). Пожалуйста, поправьте меня, если я ошибаюсь.
Другой подход - использовать сходство Jaccard (установить пересечение), чтобы количественно оценить сходство между двумя ранжированными списками. Затем я могу построить гистограмму из setbased_list (см. Ниже).
for index, row in evaluate.iterrows():
d= row['Id']
y_pred = [3,2,1,0]
y_true = [row['A'],row['B'],row['C'],row['D']]
sim = jaccard_similarity_score(y_true, y_pred)
setbased_list.append(sim)
Является ли мой подход к проблеме выше правильно?
Какие существуют другие подходы, которые я могу использовать, если я хочу учитывать позиции элементов в списке (на основе веса)?
Почему вы идентифицируете один продукт, не связанный с _not_? – Rojan
Это похоже на «контрольные» данные, чтобы пользователи оценили соответственно. – kitchenprinzessin