Я использую последнюю версию trunk версии mahout's PFP Growth, реализующую поверх кластера хаопов, чтобы определить частые шаблоны в наборе данных movielens. На предыдущем шаге я преобразовал набор данных в список транзакций, так как алгоритм роста pfp нуждается в этом формате ввода.Неверный выход алгоритма Mahout PFPGrowth?
Однако выход я получаю неожиданно
Например, для элемента 1017 только частая картина
1017 ([100,1017, 50])
я бы также ожидаем шаблон, подобный ([1017], X) с X> = 50 в этой строке.
Я также testset пример ввода
1,2,3
1,2,3
1,3
и выход я получаю
1 ([1, 3], 3), ([1], 3), ([1, 3, 2], 2)
2 ([1, 3, 2], 2)
3 ([1, 3], 3), ([1, 3, 2] , 2)
Там отсутствуют модели, как ([1,2], 2)
Что не так?
Я бы предположил, что PFPGrowth только вероятностно завершен? Многие распространенные алгоритмы «больших данных» являются только приближенными. –
Убирается ли это minSupport? –
Вероятностный был бы очень плохим. MinSupport не может быть причиной, поскольку вы можете видеть, что есть шаблоны, включенные в поддержку 2. Вы реализовали алгоритм Sean? Мне нужно использовать его для моего бакалавриата. Я пытаюсь расширить рост pfp. В качестве дополнительного шага i сначала конвертируйте набор данных movielens в список транзакций, затем выполните шаги роста pfp, а затем выполните еще один шаг карты/уменьшения, чтобы извлечь все правила ассоциаций, включая значения для поддержки и уверенности. – Chris