2016-08-12 3 views
0

Я хочу провести анализ: какой элемент не прошел хорошо в анализе корзины. В основном выяснение, какой элемент вместе не вышел из очереди. У меня есть ситуация, когда запись (содержащая 13 атрибутов/столбцов) является неполной из-за различных комбинаций атрибутов. для: a1, a2 .... a13. Все вышеуказанные атрибуты могут иметь или не иметь значений. Но любой атрибут, не имеющий значений, сделает запись неполнойОбратный анализ рыночной корзины с помощью R

В этой ситуации мне нужно увидеть, какая комбинация неполных записей в основном происходит на моих наборах записей. Знание этой модели поможет моей команде уделять первоочередное внимание отчетам, которые требуют наибольшего внимания. Я вижу, что алгоритм Apriori принимает только значения, которые доступны, но мне нужно проанализировать комбинацию, которая не происходит. Я уверен, что эта проблема должна была быть решена в прошлом, но я не вижу никаких намеков на форуме. Есть ли у кого-нибудь опыт такого рода? Или вы предлагаете любой другой алгоритм, который я должен использовать? Я использую R для этого анализа. И общее количество записей: 218k

+1

Если вам нужна помощь в выборе подходящего метода статистического анализа для ваших данных, вы должны отправить свой вопрос в [stats.se] или [datascience.se]. Это не совсем конкретный вопрос программирования. Тот факт, что вы хотите использовать R, не имеет значения для выбора правильного способа анализа ваших данных. – MrFlick

ответ

1

Если я правильно понимаю вашу заявленную ситуацию, вы хотели бы получить набор данных, где элемент дела либо имеет значение, либо не имеет значения, правила ассоциации для этих которые имеют хотя бы один элемент без значения, а затем только для этих элементов, который не имеет значений. Для этого алгоритм Apriori просто отлично. И вам даже не нужно его инвертировать. Решение лежит здесь в форматировании набора данных: просто избавляйтесь от элементов со значениями и дайте элементам без значений значение, подобное имени соответствующего элемента, например. a12. Тогда ваш набор данных содержит только случаи с хотя бы одним элементом без значения и элементами без значений, плюс эти элементы могут быть идентифицированы по их значениям, то есть их имена. Теперь алгоритму Apriori можно извлечь из форматированного набора данных частые наборы элементов и впоследствии правила ассоциации. Если вам нужно использовать другой алгоритм для извлечения правил ассоциации: Да. Используйте FP-Growth. Это быстрее, чем алгоритм Apriori.

0

Спасибо, этот ответ помог. Мне нужно проанализировать все нулевые элементы в каждой транзакции, и мне нужно увидеть, какая комбинация нулей имеет наибольшее значение из всех транзакций. Я попытался заменить все мои значения null на константы. Были некоторые настройки в алгоритме apriori, чтобы получить эти константы как rhs. Но я не понял, как алгоритм роста FP может помочь в этом? Можете ли вы объяснить.

+0

Алгоритм Apriori и FP-Growth разделяют идентичную цель: извлечение частых наборов элементов и правил ассоциации. Более старый алгоритм Apriori работает медленнее. Он должен многократно сканировать набор данных в своей обработке, тогда как для FP-Growth требуется всего два сканирования. (Ключевые слова: генерация кандидатов и дерево роста FP) – n01dea

Смежные вопросы