2016-01-31 2 views
0

У нас есть Spark Cluster, работающий под Memsql. У нас есть разные трубопроводы, настройка ETL такова, как показано ниже.Ошибка преобразования Memsql Spark-Kafka

  1. Extract: - Спарк чтения сообщений из Кафки кластера (с помощью Memsql Кафка-Zookeeper)
  2. Transform: - У нас есть собственная баночка развернутой для этого шага
  3. нагрузки: - Данные из Transform стадии загружаются в Columnstore

у меня есть ниже сомнения:

Что происходит с Посланием опрашиваемого от Кафки, если задание не в Transform стадии - есть ли Memsql принимает Утеряно - Или данные теряются

Если данные потеряны, как я могу решить эту проблему, есть ли какие-либо изменения в конфигурации, которые необходимо сделать для этого?

ответ

0

Как бы то ни было, по крайней мере, семантика не доступна в MemSQL Ops. Он находится на дорожной карте и будет присутствовать в одном из будущих выпусков Ops.

0

Если вы еще этого не сделали, вы должны проверить трубопроводы MemSQL 5.5.

Это не основано на искре, (и преобразования выполняются несколько иначе, поэтому вам, возможно, придется переписать код), но теперь у нас есть родные потоки кафки.

Способ, которым мы получаем ровно один раз с родной версией, прост; хранить смещения в базе данных, такую ​​же атомную транзакцию, что и фактические данные. Если что-то не удается и транзакция не совершена, смещения не будут зафиксированы, поэтому мы естественно и автоматически повторим этот диапазон смещения раздела.

Смежные вопросы