Анализ рыночной корзины в R с Hadoop

Я пытаюсь найти быстрый способ анализа аффинности данных транзакционных рыночных корзин с несколькими миллионами строк.Анализ рыночной корзины в R с Hadoop

Что я сделал до сих пор:

Создал R-сервер на вершине Спарк & Hadoop на облаке (Azure HDInsight)
Загруженные данные о HDFS
Начало работы с RevoScaleR

Однако, я застрял на последнем шаге. Насколько я понимаю, я не смогу обработать данные с помощью функции, которая не предусмотрена в RevoScaleR.

Вот код для доступа к данным на HDFS:

bigDataDirRoot <- "/basket" 
mySparkCluster <- RxSpark(consoleOutput=TRUE) 
rxSetComputeContext(mySparkCluster) 
hdfsFS <- RxHdfsFileSystem(hostName=myNameNode, port=myPort) 
inputFile <-file.path(bigDataDirRoot,"gunluk")

Так что мой infputFile является CSV в Azure Blob уже создана в/корзины/GUNLUK напоминает

gunluk_data <- RxTextData(file = inputFile,returnDataFrame = TRUE,fileSystem = hdfsFS)

После выполнения этой команды Я могу видеть данные с помощью head (gunluk_data).

Как я могу управлять использовать gunluk_data с arules функции пакета. Это возможно?

Если нет, возможно ли обработать CSV-файл, который находится в HDFS, используя обычные пакеты R (например, arules)?

источник

2016-12-15 tyumru

В arules вы можете использовать read.transactions для чтения данных из файлов и write.PMML для выписывания правил/наборов элементов.

источник

2016-12-16 20:50:11

Анализ рыночной корзины в R с Hadoop

ответ

Смежные вопросы