Я новичок в больших данных и Spark (pyspark). Недавно я только что установил искровой кластер и хотел использовать Cassandra File System (CFS) на своем искровом кластере, чтобы помочь загрузить файлы.Как установить Cassandra в качестве моего распределенного хранилища (файловой системы) для моего искрового кластера
Может ли кто-нибудь сказать мне, как настроить его и кратко представить, как использовать систему CFS? (например, как загружать файлы/откуда)
BTW Я даже не знаю, как использовать HDFS (я загрузил предварительно искроберину, но я не могу найти хаоп в своей системе tho.)
Заранее благодарен!
Благодарим вас за разъяснение. Я пытаюсь понять, как использовать распределенную файловую систему на моем искровом кластере. Думаю, я задаю несколько глупых вопросов, но ценю вашу помощь. Q1: для доступа к CFS: // мне нужно сначала установить Cassandra? Q2: Если я хочу использовать HDFS, мне нужно снова установить Hadoop? (потому что я загрузил «spark-2.0.2-bin-hadoop2.7.tgz», но после установки, когда я вводил команду «hadoop», она говорит «hadoop: command not found») –
И как я могу проверить uri после CFS : // –
CFS является * только * частью DataStax Enterprise. Поэтому для его использования вам необходимо установить Datastax Enterprise. Затем, когда вы запускаете cassandra в режиме аналитики, вы можете получить к нему доступ через 'dse hadoop'. Hadoop и HDFS должны быть установлены отдельно, они не являются частью Spark. Но Spark связан только с одной версией хауопа. – RussS