CSV в RDD в магазин Cassandra в Apache Spark

У меня есть куча данных в файле csv, который мне нужно хранить в Cassandra через искру. Для этого я использую искру для соединителя cassandra. Обычно для хранения в Кассандре, я создаю Pojo и затем сериализовать его РДУ, а затем магазин:CSV в RDD в магазин Cassandra в Apache Spark

Employee emp = new Employee(1 , 'Mr', 'X'); 
JavaRDD<Employee> empRdd = SparkContext.parallelize(emp);

Наконец я пишу это Кассандре как:

CassandraJavaUtil.javaFunctions(empRdd, Emp.class).saveToCassandra("dev", "emp");

Это прекрасно, но мои данные хранится в файле csv. Каждая строка представляет собой кортеж в базе данных cassandra.

Я знаю, что могу читать каждую строку, разбивать столбцы, создавать объекты с использованием значений столбцов, добавлять их в список и затем, наконец, сериализовать весь список. Мне было интересно, есть ли более простой способ сделать это?

источник

2014-10-16 Aneesh

Ну, вы можете просто использовать SSTableLoader for BulkLoading и избегать искры. Если вы полагаетесь на искру, то я думаю, вам не повезло ... Хотя я не уверен, насколько проще, чем чтение строк за строкой и разделение линий, возможно даже ...

источник

2014-10-16 16:39:43 elmalto

CSV в RDD в магазин Cassandra в Apache Spark

ответ

Смежные вопросы