2016-01-15 3 views
1

Моя учетная запись выглядит следующим образом: мы читаем и преобразуем данные из HDFS с помощью Spark. Преобразованные данные должны быть сохранены в memsql.Рекомендации по написанию memsql с использованием Spark

Есть ли какие-либо рекомендации по написанию memsql с помощью Spark? I.e., что является лучшим способом обеспечить производительность записи и масштабируемость при массивной (параллельной) записи с использованием Dataframe?

Какое предпочтительное решение: Использование разъема memsql/Spark (https://github.com/memsql/memsql-spark-connector) или метод записи данных DataFrame (в сочетании с драйвером JDBC MySQL).

Чтобы сделать длинный рассказ коротким: как может шкала Spark записываться в memsql?

ответ

1

Разъем MemSQL/Spark имеет некоторые оптимизации, характерные для memsql, которые могут повысить производительность по сравнению с записью через драйвер mysql.

Вы также должны взглянуть на MemSQL Streamliner (http://docs.memsql.com/latest/spark/), который позволяет вам легко настраивать конвейеры для загрузки данных в memsql с помощью Spark и выполняет большую часть работы по управлению масштабируемостью для вас.

Смежные вопросы