2016-11-25 14 views
1

У меня есть пара .csv файлов в C:\Users\USER_NAME\Documents размером более 2 ГБ. Я хочу использовать Apache Spark для чтения данных из них в R. Я использую Microsoft R Open 3.3.1 с Spark 2.0.1.Прочтите файл .csv с Sparklyr в R

Я застрял с чтением файлов .csv с функцией spark_read_csv(...), определенной в Sparklyr пакете. Он запрашивает путь к файлу, который начинается с file://. Я хочу знать правильный путь к файлу для моего дела, начиная с file:// и заканчивая именем файла, которые находятся в каталоге .../Documents.

+0

не так ли «файл: /// C:/Users /USER_NAME/Documents/FILENAME.csv '? –

ответ

1

У меня была аналогичная проблема. В моем случае файл CSV должен был быть помещен в файловую систему hdfs, прежде чем вызвать его с помощью spark_read_csv.

Я думаю, что у вас, вероятно, есть аналогичная проблема.

Если кластер также работает с HDFS вам нужно использовать:

HDFS -Положите

глубину

Best, Felix

+0

Если каталог находится в hdfs, вы можете создать сопоставление hive (создать внешнюю таблицу ...) и сразу прочитать все CSV с помощью 'spark_read_csv' – nachti

Смежные вопросы