Я пытаюсь импортировать большие данные блоба (около 10 ТБ) из RDBMS (Sybase ASE) в Кассандру с использованием DataStax Enterprise (DSE) 5.0.Импорт данных BLOB из RDBMS (Sybase) в Cassandra
Является ли sqoop еще рекомендуемым способом сделать это в DSE 5.0? В соответствии с примечаниями к выпуску (http://docs.datastax.com/en/latest-dse/datastax_enterprise/RNdse.html):
Hadoop и Sqoop устарели. Вместо этого используйте Spark. (DSP-7848)
Должен ли я использовать Spark SQL с источником данных JDBC для загрузки данных из Sybase, а затем сохранить кадр данных в таблицу Cassandra?
Есть ли лучший способ сделать это? Любая помощь/предложения будут оценены.
Редактировать: Согласно документации DSE (http://docs.datastax.com/en/latest-dse/datastax_enterprise/spark/sparkIntro.html), запись в столбцы blob из искры не поддерживается.
Следующие функции Спарка и API, не поддерживаются:
Записи BLOB-столбцы из Спарка
Чтения столбцов всех типов поддерживаются; однако перед сериализацией вы должны преобразовать коллекции капли в байтовые массивы.
Спасибо. Я использовал искру для ETL/для загрузки данных в HDFS. Но похоже, что в DSE 5.0 не поддерживается запись столбцов blob из искры. Это одноразовая загрузка, поэтому я бы, вероятно, использовал sqoop. – Sanoj