2012-05-18 2 views
-1

У меня есть список пар значений ключа. Для каждого ключа я хочу видеть, насколько уникальными являются значения. Например, для конкретного ключа k1 все значения могут быть одинаковыми. (лучший случай). Для ключа k2 половина значений является одним типом, а другая половина отличается. . . Аналогично, для ключа kx ни одно из значений не соответствует (наихудший случай).Алгоритм реального мира - измерение уникальности входных значений

Я хочу присвоить каждому из этих ключей ранги (или проценты, что угодно) на основе вышеизложенного и иметь окончательный порядок, чтобы я мог отфильтровывать те, у которых много разных значений (скажем, выше предопределенного порогового ранга или процентов).

Я как-то думаю, что это несколько связано с некоторыми понятиями, которые я изучил в своем курсе интеллектуального анализа данных, но просто не могу вспомнить эффективно.

Спасибо.

+2

Можете ли вы показать нам, что вы пробовали, и конкретную проблему, с которой вы сталкиваетесь? –

+0

Единственная проблема, с которой я сталкиваюсь, я не могу вспомнить, какую категорию проблемы это. Я действительно не хочу решения. – dreamer13134

+0

Ум, действительно ли это важно? О каких типах категорий вы думали? –

ответ

-1

Возможно, вы можете использовать для этого Information Theory.

Для каждой клавиши вы можете вычислить значения entropy. Чем выше энтропия, тем более разнообразны значения ключа. Вы можете использовать это для ранжирования ключей.

В следующей статье обсуждаются некоторые связанные темы: Calculating Entropy for Data Mining.

+0

Можно взглянуть на «Универсальный тест генератора случайных бит» Юли Маурера, который в принципе можно использовать в качестве специального вида энтропийного калькулятора и - для требуемой протяженности - легко реализуется. – JimmyB

-1

В терминах интеллектуального анализа данных от http://en.wikipedia.org/wiki/Association_rule_learning вы можете рассматривать индекс как средство прогнозирования значения, и в этом случае вас может заинтересовать доверие - процентное соотношение наиболее частого значения для этого индекса. Вы также можете посмотреть на вероятность того, что два случайно выбранных значения будут одинаковыми, что будет суммой квадратов частот значений, или http://en.wikipedia.org/wiki/Shannon_entropy - которые будут иметь схожие свойства, но включают в себя логарифмы.

Смежные вопросы