2014-12-25 2 views
-1

У меня есть два вопроса:datastax, Спарк и MLLIB

  1. Кажется, что искра, которая поставляется с предприятия Datastax не поддерживает MLLIB искры, в полном объеме. Это приводит к значительным ограничениям в алгоритмах, которые могут быть запущены с использованием Datastax Spark. Планируется ли Datastax полностью поддерживать MLLIB в ближайшем будущем? Если да, то когда?

  2. Возможно ли запустить Apache Spark (не использовать Datastax Spark) в кластере вдоль стороны Datastax Cassandra и обмениваться данными между ними? Если да, какова наилучшая практика для этого? Я не мог найти документацию об этом, и я буду признателен, если вы можете направить меня к ней (если таковая существует).

Спасибо, Этан

+0

вы должны сделать 2 вопроса из этого. – maasg

ответ

0
  1. Я бы себе да.
  2. Иметь рабочие узлы Spark в тех же ящиках, что и узлы Cassandra (OLTP). У вас есть отдельный мастер искры (при условии автономного режима). Если требуется переход на другой ресурс, запустите другой мастер Spark с Zookeeper. Проверьте https://spark.apache.org/docs/latest/spark-standalone.html для деталей. Это по существу то же самое, что и запуск apache spark и apache cassandra. Соединитель искровой кассандры https://github.com/datastax/spark-cassandra-connector - это местонахождение, и в этом качестве есть огромная выгода при работе искровых работников и кассандры на тех же узлах. Вы теряете автоматическую отказоустойчивость, которую вы получите от DSE для искры, и вам нужно все наладить, но она отлично работает. Например, я использую apache spark и apache cassandra вместе в процессе производства некоторое время. Преимущество в том, что вам не нужно ждать, пока DSE не догонит, когда выпущены новые версии искры.
Смежные вопросы