Я хотел бы скопировать данные на основе ключевого слова co-entries, используя R. Я столкнулся с двумя трудностями по сравнению с other posts.Кластеризация на основе совпадений
- Слова различных уровней иерархии
- ключевые слова не обязательно показывают в порядке или уровня иерархии
Пример
Keywords
Food;Fruit;Banana
Food;Fruit;Apple
Fruit;Food;Orange
Food;Bread;Toast
Food;Bread;Whole Grain
Bed;Bedroom;Furniture
Furniture;Bedroom;Bed
Furniture;Living Room;Chair
Furniture;Bedroom;Chair
Я хотел бы результат будет что ключевые слова вступают в Продовольствие и Мебель на первом уровне. На втором и третьем имеются дополнительные суббры, например. Спальня, Гостиная. Если я использую иерархического кластерного анализа, как
hc <- hclust(dist(data))
plot(hc)
я бы в конечном итоге с «Мебель» в качестве одной из категорий, на самом низком уровне, но это «узловая точка» в моем примере.
Есть функция, чтобы решить эту проблему?
Лучший Пит
Я не понимаю, каков ваш желаемый результат. Что такое 'data', на котором вы запускаете' hclust'? Вы спрашиваете о статистических методах кластеризации? Вы просто пытаетесь изменить данные? – MrFlick
Я пытаюсь найти метод для запуска по ключевым словам. Результатом должно быть дерево или что-то подобное. В этом примере метод должен определить, что продукты питания и мебель являются общими категориями. «фрукты» и «хлеб» являются подчиненными «пищей», а под фруктами - 3 категории, а именно «яблоко», «банан» и «апельсин». Есть ли такой способ, который может это сделать? – PeterGerft
«Найти метод для запуска по ключевым словам» по-прежнему не очень специфичен. Похоже, что вы хотите превратить это в объект, представляющий дерево или график, но конкретные функции, доступные вам после того, как вы сделали преобразование, сильно отличаются. – MrFlick