Я установил Spark-1.4.0. Я также установил свой пакет R SparkR, и я могу использовать его через Spark-shell и через RStudio, однако есть одна разница, которую я не могу решить.Загрузка com.databricks.spark.csv через RStudio
При запуске SparkR-оболочки
./bin/sparkR --master local[7] --packages com.databricks:spark-csv_2.10:1.0.3
Я могу читать .csv-файл следующим образом
flights <- read.df(sqlContext, "data/nycflights13.csv", "com.databricks.spark.csv", header="true")
К сожалению, когда я начинаю SparkR через RStudio (правильно настроить мой SPARK_HOME) Я получаю следующее сообщение об ошибке:
15/06/16 16:18:58 ERROR RBackendHandler: load on 1 failed
Caused by: java.lang.RuntimeException: Failed to load class for data source: com.databricks.spark.csv
Я знаю, что я должен загрузить com.databricks: искрового-csv_2.10: 1 .0.3 в некотором смысле, но я понятия не имею, как это сделать. Может кто-нибудь мне помочь?
Следуя приведенным выше шагам, я не могу прочитать файл csv в оболочке sparkR. Получение этой ошибки, Вызвано: org.apache.spark.SparkException: Работа прерывается из-за отказа этапа: Ta sk 0 на этапе 0.0 не удалось 1 раз, последний сбой: потерянная задача 0.0 на этапе 0. 0 (TID 0 , localhost): java.lang.NullPointerException У вас есть идея по этому поводу? –
Я понятия не имею, я не могу воспроизвести ошибку. Я знаю, однако, что ваш sqlContext существует, что входной путь существует и что он правильно находит com.databricks.spark.csv, иначе у вас будут другие сообщения об ошибках. Не могли бы вы указать весь рабочий процесс? –
Я добавил данные здесь http: // stackoverflow.com/questions/31050823/job-fail-on-load-com-databricks-spark-csv-in-sparkr-shell –