Я только начинаю с разъема spark-cassandra и сталкиваюсь со следующей проблемой: у меня есть набор данных, который частично находится в cassandra, частично в HDFS (такая же точная схема). Я хотел бы создать единый UnionRDD из двух наборов и перейти оттуда.Cassandra/Parquet union RDD
кода я до сих пор выглядит следующим образом:
DataFrame df = sqlContext.parquetFile("foo.parquet");
JavaRDD cassandraRDD = (JavaRDD)javaFuntions(sc).cassandraTable("foo_ks","foo_table");
DataFrame cassandraDF = sqlContext.applySchema(cassandraRDD,df.schema());
Я получаю сообщение об ошибке выполнения, говоря, что CassandraRow не может быть приведена к spark.sql.Row, исходя из вызова applySchema ... который не все к удивлению. Каким будет правильный способ заставить это работать? (моей конечной целью является объединение df & cassandraDF).
Я пробовал это с помощью Spark 1.3.1 и сборки из главной ветви cassandra-spark.
Если вы получаете исключение, вы сначала печатаете схему и сравниваете ее с полями cassandraRDD. – Kaushal