У меня есть несколько числовых наборов данных, для которых мне нужно создать иерархию понятий. На данный момент я делаю это вручную, наблюдая данные (и соответствующую строку строки). Основываясь на моей интуиции, я создал некоторые приемлемые иерархии.Алгоритм для создания численной концепции иерархии
Это похоже на задачу, которая может быть автоматизирована. Кто-нибудь знает, существует ли алгоритм генерации иерархии понятий для числовых данных?
К примеру, у меня есть следующий набор данных:
Bangladesh 521
Brazil 8295
Burma 446
China 3259
Congo 2952
Egypt 2162
Ethiopia 333
France 46037
Germany 44729
India 1017
Indonesia 2239
Iran 4600
Italy 38996
Japan 38457
Mexico 10200
Nigeria 1401
Pakistan 1022
Philippines 1845
Russia 11807
South Africa 5685
Thailand 4116
Turkey 10479
UK 43734
US 47440
Vietnam 1042
alt text http://i40.tinypic.com/fd7xxu.jpg
, для которого я создал следующую иерархию:
- низшем (< 1000)
- LOW (1000 - 2500)
- MEDIUM (2501 - 7500)
- HIGH (7501 - 30000)
- HIGHEST (> 30000)
Спасибо, это действительно то, что мне нужно. Сейчас я читаю. –
Проблема с кластеризацией этого набора данных (ну, любой набор данных, который фактически не указывает в каком-либо пространстве), будет выбирать правильную метрику расстояния для любого алгоритма, с которым вы работаете. Я бы предположил, что простое евклидово расстояние будет вызывать проблемы, учитывая, что вы ищете небольшие диапазоны (1000-2500) в некоторых районах, где они более близко расположены и намного больше (7501-30000), где они не являются. Может быть, что-то вроде евклидова над журнальным пространством? Это должно быть легко дать ему хотя бы один шаг. – Dusty