0

Я новичок в больших данных и Spark (pyspark). Недавно я только что установил искровой кластер и хотел использовать Cassandra File System (CFS) на своем искровом кластере, чтобы помочь загрузить файлы.Как установить Cassandra в качестве моего распределенного хранилища (файловой системы) для моего искрового кластера

Может ли кто-нибудь сказать мне, как настроить его и кратко представить, как использовать систему CFS? (например, как загружать файлы/откуда)

BTW Я даже не знаю, как использовать HDFS (я загрузил предварительно искроберину, но я не могу найти хаоп в своей системе tho.)

Заранее благодарен!

ответ

1

CFS существует только в DataStax Enterprise и не подходит для большинства приложений с распределенными файлами. Основное внимание уделяется замене HDFS на работу с картами/сокращением и небольшими временными, но распределенными файлами.

Чтобы использовать его, вы просто используете CFS: // uri и убедитесь, что используете приложение dse spark-submit.

+0

Благодарим вас за разъяснение. Я пытаюсь понять, как использовать распределенную файловую систему на моем искровом кластере. Думаю, я задаю несколько глупых вопросов, но ценю вашу помощь. Q1: для доступа к CFS: // мне нужно сначала установить Cassandra? Q2: Если я хочу использовать HDFS, мне нужно снова установить Hadoop? (потому что я загрузил «spark-2.0.2-bin-hadoop2.7.tgz», но после установки, когда я вводил команду «hadoop», она говорит «hadoop: command not found») –

+0

И как я могу проверить uri после CFS : // –

+0

CFS является * только * частью DataStax Enterprise. Поэтому для его использования вам необходимо установить Datastax Enterprise. Затем, когда вы запускаете cassandra в режиме аналитики, вы можете получить к нему доступ через 'dse hadoop'. Hadoop и HDFS должны быть установлены отдельно, они не являются частью Spark. Но Spark связан только с одной версией хауопа. – RussS

Смежные вопросы