2016-07-20 18 views
0

Я пытаюсь подключить R Спарк после sparklyr учебника от RStudio: http://spark.rstudio.com/Connect R Спарк через sparklyr

Но некоторые, как, я получаю сообщение об ошибке странно, как показано ниже. Кто-нибудь знает, как это решить? Я попытался добавить путь C:\Windows\system32 к пути системных переменных без каких-либо успехов. Спасибо за вашу помощь.

> library(sparklyr) 
> sc <- spark_connect(master = "local") 
Error in sparkapi::start_shell(master = master, spark_home = spark_home, : 
    Failed to launch Spark shell. Ports file does not exist. 
    Path: C:\Users\Gaud\AppData\Local\rstudio\spark\Cache\spark-1.6.1-bin-hadoop2.6\bin\spark-submit.cmd 
    Parameters: --jars, "C:\Users\Gaud\Documents\R\win-library\3.3\sparklyr\java\sparklyr.jar", --packages, "com.databricks:spark-csv_2.11:1.3.0","com.amazonaws:aws-java-sdk-pom:1.10.34", sparkr-shell, C:\Users\Gaud\AppData\Local\Temp\RtmpC8MAa8\file322c47ee2a28.out 
+0

Я только использовал R и Спарк несколько раз, так что я не знаю, как решить вашу проблему, но я очень рекомендую подписавшись Databricks Community Edition, который «сберегите» вас от многих головных болей, требуемых для запуска искры в Windows. У них также есть ноутбуки R, которые довольно сообразительны. https://databricks.com/try-databricks –

ответ

0

Сначала вы хотите, чтобы убедиться, что у вас есть самый последняя версия RStudio, если это то, что вы используете (скачать и установить после закрытия RStudio отсюда): https://www.rstudio.com/products/rstudio/download/preview/

library(DBI) 
    library(lazyeval) 
    library(dplyr) 
    library(devtools) 
    # install_github("rstudio/sparkapi") 
    library(sparkapi) 
    # install_github("rstudio/sparklyr") 
    library(sparklyr) 
    library(yaml) 
    library(nycflights13) 

    # Note: Only perform Spark once 
    spark_install(version = "1.6.1") 

    # Connect to Spark through connection 
    sc <- spark_connect(master = "local") 
    iris_tbl <- copy_to(sc, iris, "iris", overwrite = TRUE) 
    flights_tbl <- copy_to(sc, nycflights13::flights, "flights", overwrite = TRUE) 
    class(flights_tbl) 


flights_preview <- DBI::dbGetQuery(sc, "SELECT * FROM flights LIMIT 10") 
    flights_preview 

Выведет это в Windows 10:

# year month day dep_time sched_dep_time dep_delay arr_time sched_arr_time arr_delay carrier flight tailnum origin 
# 1 2013  1 1  517   515   2  830   819  11  UA 1545 N14228 EWR 
# 2 2013  1 1  533   529   4  850   830  20  UA 1714 N24211 LGA 
# 3 2013  1 1  542   540   2  923   850  33  AA 1141 N619AA JFK 
# 4 2013  1 1  544   545  -1  1004   1022  -18  B6 725 N804JB JFK 
# 5 2013  1 1  554   600  -6  812   837  -25  DL 461 N668DN LGA 
# 6 2013  1 1  554   558  -4  740   728  12  UA 1696 N39463 EWR 
# 7 2013  1 1  555   600  -5  913   854  19  B6 507 N516JB EWR 
# 8 2013  1 1  557   600  -3  709   723  -14  EV 5708 N829AS LGA 
# 9 2013  1 1  557   600  -3  838   846  -8  B6  79 N593JB JFK 
# 10 2013  1 1  558   600  -2  753   745   8  AA 301 N3ALAA LGA 
2

У меня была такая же проблема в последнее время. Эта ошибка обсуждалась в RStudio GitHub sparklyr pages.

Не могли бы вы предоставить свои sessionInfo() результаты? Его выход проливает свет на версии пакета и используемую ОС.

2 основные моменты, которые помогли мне:

  • Установка искру с помощью spark_install()
  • Установите Dev. издание искры с использованием devtools::install_github("rstudio/sparklyr")

Проверьте версию пакета sparklyr. В моем случае проблема исчезла только после обновления до версии sparklyr_0.4.11.

1

Установить последние sparklyr из хранилища github.

Шаги по установке sparklyr, если у вас нет интернета на вашем сервере.

  • Установите R пакеты DevTools и git2r
  • Скачать файл мастер зип от мерзавца
  • разархивировать на окнах пути
  • Создать источник: источник < - Devtools ::: source_pkg ("окна путь/мастер имя каталога ")
  • установки (источник)
Смежные вопросы