В чем преимущество использования CDH (cloudera)?

Почему мы используем CDH (cloudera) вместо использования Apache-Hadoop или Apache-Spark ets. только? В чем его преимущества?В чем преимущество использования CDH (cloudera)?

Если я хочу использовать Apache-Spark для анализа данных, лучше ли использовать CDH или Apache-Spark Framework Solely?

Thanks

источник

2015-01-26 Omid Ebrahimi

Ну, CDH является «распределением Hadoop». Для меня это «простой способ установки Hadoop» и наличие приятного веб-интерфейса для администрирования. Таким образом, вы не можете использовать CDH вместо Hadoop. (Так же, как вы не можете использовать Red Hat вместо Linux.)

Spark также может работать как автономный кластер без Hadoop. Однако тогда вы не сможете использовать информацию о местонахождении ресурсов HDFS и планировании YARN.

Чтобы начать работу с Spark, я бы рекомендовал сначала попробовать автономный кластер, поскольку Hadoop - это довольно зверь, с которого можно начать. Однако, если вам нужна функциональность HDFS с самого начала, то, я думаю, вам придется настроить Hadoop (в любой форме) в любом случае.

источник

2015-01-26 09:05:42 tgpfeiffer

Спасибо за ответ. но для начала работы с Spark, почему вы сначала попробуете автономный кластер? Почему я не использую CDH, у которого есть Спарк? –

Просто отметив, что даже на CDH есть два варианта наличия Spark, автономная версия (где демон Spark только что установлен на каждом узле) и версия YARN (где исполнители запускаются в результате согласования ресурсов). В противном случае, я просто нашел установку CDH очень длинным и частично разочаровывающим процессом, поэтому я не стал бы избегать этого препятствия, когда начинаю работу только с частично связанной технологией. – tgpfeiffer

Это зависит от долгосрочной перспективы. Если вы останетесь с искрами - или будете расти и использовать больше экосистемы. – Janusz

В чем преимущество использования CDH (cloudera)?

ответ

Смежные вопросы