Было бы разумно заменить MR полностью на Spark. Вот те области, где мы по-прежнему использовать MR и нужно ввод, чтобы идти вперед с Apache Спарк опцию-Когда мы должны пойти на Apache Spark
- ETL: проверки данных и преобразования. SQoop и пользовательские MR-программы с использованием MR API.
- Machine Learning: Mahout алгоритмы выработки рекомендаций, в классификации и кластеризации
- NoSQL Интеграция: Взаимодействие с NoSQL баз данных с использованием MR API
- потоковая обработка: Мы используем Apache Шторма для выполнения обработки потока в пакетах.
- Hive Запрос: Мы уже используем Tez двигатель для ускорения Hive запросов и увидеть 10X улучшение производительности по сравнению с двигателем MR