2016-12-11 4 views
0

Я пытаюсь импортировать большие данные блоба (около 10 ТБ) из RDBMS (Sybase ASE) в Кассандру с использованием DataStax Enterprise (DSE) 5.0.Импорт данных BLOB из RDBMS (Sybase) в Cassandra

Является ли sqoop еще рекомендуемым способом сделать это в DSE 5.0? В соответствии с примечаниями к выпуску (http://docs.datastax.com/en/latest-dse/datastax_enterprise/RNdse.html):

Hadoop и Sqoop устарели. Вместо этого используйте Spark. (DSP-7848)

Должен ли я использовать Spark SQL с источником данных JDBC для загрузки данных из Sybase, а затем сохранить кадр данных в таблицу Cassandra?

Есть ли лучший способ сделать это? Любая помощь/предложения будут оценены.

Редактировать: Согласно документации DSE (http://docs.datastax.com/en/latest-dse/datastax_enterprise/spark/sparkIntro.html), запись в столбцы blob из искры не поддерживается.

Следующие функции Спарка и API, не поддерживаются:

Записи BLOB-столбцы из Спарка

Чтения столбцов всех типов поддерживаются; однако перед сериализацией вы должны преобразовать коллекции капли в байтовые массивы.

ответ

0

Искры для ETL больших наборов данных предпочтительнее, потому что он выполняет распределенный вред. Данные Oracle могут быть загружены в Spark RDD или кадры данных, а затем просто используйте saveToCassandra (keypace, tablename). На саммите Cassandra 2016 состоялась презентация Using Spark to Load Oracle Data into Cassandra Джима Хэтчера, в которой подробно обсуждается эта тема и приводятся примеры.

Sqoop устарел, но должен по-прежнему работать в DSE 5.0. Если это одноразовая загрузка, и вы уже готовы к использованию Squoop, попробуйте это.

+0

Спасибо. Я использовал искру для ETL/для загрузки данных в HDFS. Но похоже, что в DSE 5.0 не поддерживается запись столбцов blob из искры. Это одноразовая загрузка, поэтому я бы, вероятно, использовал sqoop. – Sanoj

Смежные вопросы