2015-01-26 3 views

ответ

4

Ну, CDH является «распределением Hadoop». Для меня это «простой способ установки Hadoop» и наличие приятного веб-интерфейса для администрирования. Таким образом, вы не можете использовать CDH вместо Hadoop. (Так же, как вы не можете использовать Red Hat вместо Linux.)

Spark также может работать как автономный кластер без Hadoop. Однако тогда вы не сможете использовать информацию о местонахождении ресурсов HDFS и планировании YARN.

Чтобы начать работу с Spark, я бы рекомендовал сначала попробовать автономный кластер, поскольку Hadoop - это довольно зверь, с которого можно начать. Однако, если вам нужна функциональность HDFS с самого начала, то, я думаю, вам придется настроить Hadoop (в любой форме) в любом случае.

+0

Спасибо за ответ. но для начала работы с Spark, почему вы сначала попробуете автономный кластер? Почему я не использую CDH, у которого есть Спарк? –

+2

Просто отметив, что даже на CDH есть два варианта наличия Spark, автономная версия (где демон Spark только что установлен на каждом узле) и версия YARN (где исполнители запускаются в результате согласования ресурсов). В противном случае, я просто нашел установку CDH очень длинным и частично разочаровывающим процессом, поэтому я не стал бы избегать этого препятствия, когда начинаю работу только с частично связанной технологией. – tgpfeiffer

+0

Это зависит от долгосрочной перспективы. Если вы останетесь с искрами - или будете расти и использовать больше экосистемы. – Janusz

Смежные вопросы