2016-08-05 1 views
2

Я создал экземпляр службы IBM BigInsights с кластером hadoop из 5 узлов (включая Apache Spark). Я пытаюсь использовать SparkR для подключения базы данных Cloudant, получения некоторых данных и выполнения некоторой обработки.java.lang.ClassNotFoundException: Не удалось найти источник данных: com.cloudant.spark. в кластере IBM BigInsights

Я запустил SparkR оболочку (терминал) и побежал следующий код:

sparkR.stop() 
# Creating SparkConext and connecting to Cloudant DB 
sc <- sparkR.init(sparkEnv = list("cloudant.host"="<<cloudant-host-name>>","<<><<cloudant-user-name>>>","cloudant.password"="<<cloudant-password>>", "jsonstore.rdd.schemaSampleSize"="-1")) 

# Database to be connected to extract the data 
database <- "testdata" 
# Creating Spark SQL Context 
sqlContext <- sparkRSQL.init(sc) 
# Creating DataFrame for the "testdata" Cloudant DB 
testDataDF <- read.df(sqlContext, database, header='true', source = "com.cloudant.spark",inferSchema='true') 

Я получаю следующие сообщения об ошибках:

16/08/05 19:00:27 ERROR RBackendHandler: loadDF on org.apache.spark.sql.api.r.SQLUtils failed 
Error in invokeJava(isStatic = TRUE, className, methodName, ...) : 
    java.lang.ClassNotFoundException: Failed to find data source: com.cloudant.spark. Please find packages at http://spark-packages.org 
     at org.apache.spark.sql.execution.datasources.ResolvedDataSource$.lookupDataSource(ResolvedDataSource.scala:77) 
     at org.apache.spark.sql.execution.datasources.ResolvedDataSource$.apply(ResolvedDataSource.scala:102) 
     at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:119) 
     at org.apache.spark.sql.api.r.SQLUtils$.loadDF(SQLUtils.scala:160) 
     at org.apache.spark.sql.api.r.SQLUtils.loadDF(SQLUtils.scala) 
     at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 
     at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) 
     at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) 
     at java.lang.reflect.Method.invoke(Method.java:498) 
     at org.apache.spark.api.r.RBackendHandler.handleMethodCall(RBackendHandler.scala:141) 
     at org.apache.spark.api.r.RBackendHandler.channelRead0(RBacke 

Как установить свечу-Cloudant разъем в IBM BigInsights и решить эту проблему? Любая помощь приветствуется.

ответ

0

Вам нужно передать имя из пакетов sparkR.init:

sc <- sparkR.init(sparkPackages="com.databricks:spark-csv_2.11:1.0.3") 

Смотрите здесь:

https://spark.apache.org/docs/1.6.0/sparkr.html#from-data-sources

Искровой пакет Cloudant здесь:

https://spark-packages.org/package/cloudant-labs/spark-cloudant

Для кластера 4.2, I Думаю, что вам необходимо:

cloudant-labs:spark-cloudant:1.6.4-s_2.10 
Смежные вопросы