Я - опытный разработчик и администратор RDBMD. Но я новичок в Apache Cassandra и Spark. Я изучил CQL Cassandra, и в документации говорится, что CQL не поддерживает объединения и подзапросы, потому что это было бы слишком неэффективно в Cassandra из-за его распределенной природы данных.Apache Cassandra and Spark
Итак, я пришел к выводу, что в распределенных данных env., Объединения и подзапросы не поддерживаются, потому что они плохо влияют на производительность.
Но потом я изучил Spark, который также работает с распределенными данными, но Spark поддерживает все функции SQL, включая объединения и подзапросы. Несмотря на то, что Spark не является системой базы данных и, следовательно, даже не имеет индексов ... Итак, мой вопрос заключается в том, как Spark поддерживает соединения и подзапросы распределенных данных ?, и эффективно ли это делает?
Заранее спасибо.