2015-10-28 3 views
2

Я создал семейство столбцов Cassandra, и мне нужно загрузить данные из CSV-файла для этого семейства столбцов. Файл csv имеет объем 15 ГБ.Каков самый быстрый способ загрузить данные в семейство столбцов Cassandra

Я использую команду CQL «COPY FROM», но для загрузки данных требуется много времени. Каков наилучший/самый простой способ загрузки больших объемов данных в Cassandra из файлов csv?

ответ

3

Встроенная копия CQLSH в/из файлов CSV довольно проста и предназначена для наборов данных малого и среднего размера. Вы не указали, какую версию Cassandra вы используете, но было немало улучшений производительности, сделанных в 2.1.5 (CASSANDRA-8225).

Альтернативный инструмент, который имеет хорошие результаты для больших данных, - cassandra-loader. Вы можете попробовать это с подмножеством вашего файла (например, 1000 строк), чтобы подтвердить, что он работает, а затем попробуйте весь файл, чтобы увидеть производительность.

+0

Я использую Cassandra 2.2.3. Спасибо BrianC, я проверю данные загрузки с помощью cassandra-loader и проведу производительность ... –

3

Используйте sstableloader. Выезд this blog post. Вам необходимо проанализировать ваш CSV-файл в sstables с помощью той же схемы C * и загрузить их в C *.

+1

sstableloader - правильный ответ для полной скорости сырой скорости, но может быть излишним для 15-гигабайтного файла. sstableloader использует интерфейс массовой загрузки, поэтому вы заранее генерируете sstables и передаете их в систему как файлы данных, а не как отдельные мутации. Это намного быстрее, но требует, чтобы вы делали sstables заранее. –

Смежные вопросы