Я пытаюсь найти быстрый способ анализа аффинности данных транзакционных рыночных корзин с несколькими миллионами строк.Анализ рыночной корзины в R с Hadoop
Что я сделал до сих пор:
- Создал R-сервер на вершине Спарк & Hadoop на облаке (Azure HDInsight)
- Загруженные данные о HDFS
- Начало работы с RevoScaleR
Однако, я застрял на последнем шаге. Насколько я понимаю, я не смогу обработать данные с помощью функции, которая не предусмотрена в RevoScaleR.
Вот код для доступа к данным на HDFS:
bigDataDirRoot <- "/basket"
mySparkCluster <- RxSpark(consoleOutput=TRUE)
rxSetComputeContext(mySparkCluster)
hdfsFS <- RxHdfsFileSystem(hostName=myNameNode, port=myPort)
inputFile <-file.path(bigDataDirRoot,"gunluk")
Так что мой infputFile является CSV в Azure Blob уже создана в/корзины/GUNLUK напоминает
gunluk_data <- RxTextData(file = inputFile,returnDataFrame = TRUE,fileSystem = hdfsFS)
После выполнения этой команды Я могу видеть данные с помощью head (gunluk_data).
Как я могу управлять использовать gunluk_data с arules функции пакета. Это возможно?
Если нет, возможно ли обработать CSV-файл, который находится в HDFS, используя обычные пакеты R (например, arules)?