У меня есть куча данных в файле csv, который мне нужно хранить в Cassandra через искру. Для этого я использую искру для соединителя cassandra. Обычно для хранения в Кассандре, я создаю Pojo и затем сериализовать его РДУ, а затем магазин:CSV в RDD в магазин Cassandra в Apache Spark
Employee emp = new Employee(1 , 'Mr', 'X');
JavaRDD<Employee> empRdd = SparkContext.parallelize(emp);
Наконец я пишу это Кассандре как:
CassandraJavaUtil.javaFunctions(empRdd, Emp.class).saveToCassandra("dev", "emp");
Это прекрасно, но мои данные хранится в файле csv
. Каждая строка представляет собой кортеж в базе данных cassandra.
Я знаю, что могу читать каждую строку, разбивать столбцы, создавать объекты с использованием значений столбцов, добавлять их в список и затем, наконец, сериализовать весь список. Мне было интересно, есть ли более простой способ сделать это?