2015-07-24 5 views
1

У меня есть 1 тб данных о кустах. Я хочу обработать данные в течение 2 часов ... И кластер hadoop не будет расти, потому что у него нет взаимодействия с пользователем. Сколько оперативной памяти и процессора требуется для каждой машины, если я хочу иметь 3 работающих машиныОценка оборудования для hadoop

ответ

2

Это зависит от сложности вашего процесса. Простой подсчет слов, несомненно, завершится до сложного алгоритма наукоемких данных. Ваш выбор реализации (например, Map-Reduce vs Spark) также повлияет на время выполнения.

Для любой конкретной спецификации оборудования некоторые процессы могут завершиться, в то время как другие могут пропустить крайний срок. Вы не получите полного ответа, не указав более подробную информацию о своей рабочей нагрузке (и даже тогда ответ, вероятно, будет рекомендацией для проведения практических экспериментов с вашим конкретным процессом). Тем не менее, я могу сказать, что при определении размера кластера, есть два ресурса, я, как правило, ссылаются:

http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.1.2/bk_cluster-planning-guide/content/ch_hardware-recommendations.html

http://blog.cloudera.com/blog/2013/08/how-to-select-the-right-hardware-for-your-new-hadoop-cluster/

Cloudera блог, в частности, обсуждались различные требования аппаратного обеспечения в зависимости от того, ваша рабочая нагрузка хранения интенсивный, интенсивный и т. д.

+0

Скажите, я просто хочу прочитать данные –

+1

Читайте где? Если вы не делаете много обработки, это, вероятно, спустится на Disk IO. Если у вас есть 3 машины и 1 ТБ данных, то концептуально каждая машина должна будет читать 1/3 TB каждый. Если у каждой машины есть достаточно всего Диск IO, чтобы прочитать, что в течение 2-х часового срока, вы будете в порядке с простым чтением даже со скромной оперативной памятью и процессором. Однако, если ваши диски не достаточно быстры, вероятно, не имеет значения, насколько хороши ваша оперативная память и процессор. – mattinbits

Смежные вопросы