Я делаю приложение, которое будет вычислять все 2 размера частых наборов предметов из набора транзакций. То есть приложение будет иметь в качестве входного файла данных (текстовый файл с разделителями пространства - с элементами, закодированными как целые числа) и процент, заданный как целое число (например, вход 2 представляет 2%). Приложение будет выводить в отдельный файл каждую пару чисел, которые отображаются вместе в одной транзакции (транзакция представлена одной строкой в файле) более чем в 2% от всех транзакций (где 2% - это процент, указанный во входном). Выходной файл будет содержать каждую пару элементов в строке вместе с их поддержкой (количество транзакций, где они появляются), и приложение будет выводить (на экране в файле) продолжительность (время, необходимое для выполнения задачи) ,приложение о генерации пар частых наборов предметов
файл данных будет как
55 22 33 123 231 414
21 43 432 435 231 4324 534
22 21 33 123 231 534 666 222
...
каждая строка называется транзакцию, и входной файл содержит тысячи транзакций. Сначала я думаю об использовании правила интеллектуального анализа данных, чтобы найти все одиночные числа, частота появления которых превышает 2% в каждой транзакции, а затем формировать пары для каждой транзакции и, наконец, сравнивать каждую пару и генерировать выходной файл.
У кого-нибудь есть некоторые идеи или код для этого, пожалуйста, помогите, если у вас есть код (лучше в java) для этого, что будет очень полезно Спасибо большое.
Нам нужна дополнительная информация. Используя ваши данные, какой будет выходной образец? –
выход должен быть похож на содержащий пары чисел с их частотой witch имеет> = 2% частоту появления, спасибо – starcaller
http://stackoverflow.com/questions/3847079/how-to-get-the-most-frequent-items –