2012-05-09 3 views
0

Я использую последнюю версию trunk версии mahout's PFP Growth, реализующую поверх кластера хаопов, чтобы определить частые шаблоны в наборе данных movielens. На предыдущем шаге я преобразовал набор данных в список транзакций, так как алгоритм роста pfp нуждается в этом формате ввода.Неверный выход алгоритма Mahout PFPGrowth?

Однако выход я получаю неожиданно

Например, для элемента 1017 только частая картина

1017 ([100,1017, 50])

я бы также ожидаем шаблон, подобный ([1017], X) с X> = 50 в этой строке.

Я также testset пример ввода

1,2,3

1,2,3

1,3

и выход я получаю

1 ([1, 3], 3), ([1], 3), ([1, 3, 2], 2)

2 ([1, 3, 2], 2)

3 ([1, 3], 3), ([1, 3, 2] , 2)

Там отсутствуют модели, как ([1,2], 2)

Что не так?

+0

Я бы предположил, что PFPGrowth только вероятностно завершен? Многие распространенные алгоритмы «больших данных» являются только приближенными. –

+0

Убирается ли это minSupport? –

+0

Вероятностный был бы очень плохим. MinSupport не может быть причиной, поскольку вы можете видеть, что есть шаблоны, включенные в поддержку 2. Вы реализовали алгоритм Sean? Мне нужно использовать его для моего бакалавриата. Я пытаюсь расширить рост pfp. В качестве дополнительного шага i сначала конвертируйте набор данных movielens в список транзакций, затем выполните шаги роста pfp, а затем выполните еще один шаг карты/уменьшения, чтобы извлечь все правила ассоциаций, включая значения для поддержки и уверенности. – Chris

ответ

0

Я прочитал бумагу и код, и кажется, что алгоритм PFP не совсем прав. Мне интересно, почему никто этого не осознал.

Это настолько очевидно, если вы уже знаете о FP-Growth и просто за пару часов прочитайте эту статью и код.