У меня есть 1 тб данных о кустах. Я хочу обработать данные в течение 2 часов ... И кластер hadoop не будет расти, потому что у него нет взаимодействия с пользователем. Сколько оперативной памяти и процессора требуется для каждой машины, если я хочу иметь 3 работающих машиныОценка оборудования для hadoop
ответ
Это зависит от сложности вашего процесса. Простой подсчет слов, несомненно, завершится до сложного алгоритма наукоемких данных. Ваш выбор реализации (например, Map-Reduce vs Spark) также повлияет на время выполнения.
Для любой конкретной спецификации оборудования некоторые процессы могут завершиться, в то время как другие могут пропустить крайний срок. Вы не получите полного ответа, не указав более подробную информацию о своей рабочей нагрузке (и даже тогда ответ, вероятно, будет рекомендацией для проведения практических экспериментов с вашим конкретным процессом). Тем не менее, я могу сказать, что при определении размера кластера, есть два ресурса, я, как правило, ссылаются:
http://blog.cloudera.com/blog/2013/08/how-to-select-the-right-hardware-for-your-new-hadoop-cluster/
Cloudera блог, в частности, обсуждались различные требования аппаратного обеспечения в зависимости от того, ваша рабочая нагрузка хранения интенсивный, интенсивный и т. д.
- 1. Оценка товарного оборудования для приложения
- 2. рекомендация Оборудования для зоопарка в Hadoop кластере
- 3. объясните мне понятие гетерогенного оборудования в hadoop?
- 4. Оценка производительности масштабирования Hadoop на псевдораспределенных узлах?
- 5. Книга для Android-оборудования
- 6. Дизайн и оценка слияния с сетью для ускорения Hadoop
- 7. Совместимость оборудования для комплекта аксессуаров
- 8. Аннотации данных для поставщиков оборудования
- 9. Интерфейс оборудования для данных gitlabs
- 10. SPI Интерфейс оборудования для z80
- 11. Подготовьте видео для низкопроизводительного оборудования
- 12. Сборка состояния оборудования
- 13. Внедрение оборудования Eddystone
- 14. Что такое идентификатор оборудования?
- 15. улучшит модернизацию оборудования?
- 16. Конфигурация оборудования сервера сервера
- 17. Рассчитать стоимость оборудования для нескольких столбцов
- 18. API-интерфейсы производительности оборудования для Windows
- 19. Java Swing InputEvent модификаторы для различного оборудования
- 20. Получение оборудования для процессора Имя устройства android
- 21. Настройка perf для мониторинга событий оборудования
- 22. Обновление оборудования для Visual Visual Studio
- 23. Уровни протокола OSI для различного сетевого оборудования
- 24. Разработка баз данных для физического оборудования
- 25. Использование Javamail для установки навесного оборудования
- 26. Интерпретация оборудования в verilog для блокировки присвоений
- 27. Генерация пассивных кадров для тестирования оборудования
- 28. Segue из вспомогательного оборудования для редактирования
- 29. Хранение компьютерного оборудования для управления экспериментами
- 30. Поддержка .NET Framework для многоядерного оборудования
Скажите, я просто хочу прочитать данные –
Читайте где? Если вы не делаете много обработки, это, вероятно, спустится на Disk IO. Если у вас есть 3 машины и 1 ТБ данных, то концептуально каждая машина должна будет читать 1/3 TB каждый. Если у каждой машины есть достаточно всего Диск IO, чтобы прочитать, что в течение 2-х часового срока, вы будете в порядке с простым чтением даже со скромной оперативной памятью и процессором. Однако, если ваши диски не достаточно быстры, вероятно, не имеет значения, насколько хороши ваша оперативная память и процессор. – mattinbits