2016-12-15 3 views
0

Я пытаюсь найти быстрый способ анализа аффинности данных транзакционных рыночных корзин с несколькими миллионами строк.Анализ рыночной корзины в R с Hadoop

Что я сделал до сих пор:

  • Создал R-сервер на вершине Спарк & Hadoop на облаке (Azure HDInsight)
  • Загруженные данные о HDFS
  • Начало работы с RevoScaleR

Однако, я застрял на последнем шаге. Насколько я понимаю, я не смогу обработать данные с помощью функции, которая не предусмотрена в RevoScaleR.

Вот код для доступа к данным на HDFS:

bigDataDirRoot <- "/basket" 
mySparkCluster <- RxSpark(consoleOutput=TRUE) 
rxSetComputeContext(mySparkCluster) 
hdfsFS <- RxHdfsFileSystem(hostName=myNameNode, port=myPort) 
inputFile <-file.path(bigDataDirRoot,"gunluk") 

Так что мой infputFile является CSV в Azure Blob уже создана в/корзины/GUNLUK напоминает

gunluk_data <- RxTextData(file = inputFile,returnDataFrame = TRUE,fileSystem = hdfsFS) 

После выполнения этой команды Я могу видеть данные с помощью head (gunluk_data).

Как я могу управлять использовать gunluk_data с arules функции пакета. Это возможно?

Если нет, возможно ли обработать CSV-файл, который находится в HDFS, используя обычные пакеты R (например, arules)?

ответ

0

В arules вы можете использовать read.transactions для чтения данных из файлов и write.PMML для выписывания правил/наборов элементов.

Смежные вопросы