Если у меня есть большой список элементов, каждый со списком атрибутов, который может содержать несколько (или нет) баллов, что было бы хорошим методом для ранжирования этих предметов с учетом, возможно, неодинакового количества информации, известной о каждом элементе ?Алгоритм ранжирования элементов с несколькими атрибутами?
Например:
item1
attribute1 Значения (70) attribute2 Значения (90) Attribute3 значения (нуль)
item2
attribute1 Значения (50; 60; 70) Атрибут2 Значения (90) Атрибут3 Значения (10)
Здесь просто усредненные значения будут ранжировать Item1 выше Item2, но на практике они/могут/быть идентичными, потому что Item2 просто имеет больше данных. Может ли кто-нибудь предложить метод для сравнения и ранжирования данных, подобных этому?
Вы уже рассмотрели [Radix Sort] (http://en.wikipedia.org/wiki/Radix_sort)? –
Насколько нам известно, Item2 выше Item1, потому что он имеет значение 1000, о котором вы не знаете. Похоже, что любая схема ранжирования может потерпеть неудачу, с такой неопределенностью. – Kevin
Вам нужно что-то делать с отсутствующими атрибутами. Это обычная проблема в компьютерном обучении. См. Этот пост StackOverflow для идей: http://stackoverflow.com/questions/13425722/how-to-deal-with-missing-attribute-values-in-c4-5-j48-decision-tree – AndyG