Я новый ученик Спарка и Кассандры. Я столкнулся с серьезной проблемой производительности. Я передаю данные от Kafka каждые 5 секунд в Spark, а затем аналитически анализирую данные на языке R с использованием JRI и, наконец, сохраняя данные в соответствующем семействе столбцов Cassandra. Длительность (в миллисекундах) для сохранения данных в Cassandra очень быстро увеличивается с количеством входных запросов [каждый запрос - 200 КБ].Spark Cassandra Performance Issue
код Spark:
sessionData.foreachRDD(new Function<JavaRDD<NormalizedData>, Void>() {
public Void call(JavaRDD<NormalizedData> rdd) {
System.out.println("step-3 " + System.currentTimeMillis());
javaFunctions(rdd).writerBuilder("keyspace",normalized_data",mapToRow(NormalizedData.class)).saveToCassandra();
System.out.println("step-4 " + System.currentTimeMillis());}}
искровым default.conf: connection.spark.Cassandra.connection.keep_alive_ms 3600000 spark.Cassandra.output.batch.size.rows 2 spark.cassandra.output.concurrent.writes10 spark.cassandra.output.batch. size.bytes 2m spark.cassandra.input.split.size_in_mb 1 мбПожалуйста, позвольте мне kno – Niharika