Я новый с искрой и пытаясь понять разницу в производительности в ниже подходах (Спарк на Hadoop)искрового Java многопоточности против запуска отдельных искровых рабочих мест
Сценария: В соответствии с пакетной обработкой У меня есть 50 ульев запросов к run.Some может работать параллельно и несколько последовательных.
- Первый подход
Все запросы могут быть сохранены в таблице улья, и я могу написать драйвер Spark, чтобы прочитать все запросы на один раз и запускать все запросы параллельно (с HiveContext) с использованием Java мульти- резьб
- плюсов: легко поддерживать
- Минусов: все ресурсы могут получить занятые и настройки производительности может быть жесткими для каждого запроса.
- Второй подход
с использованием oozie искровых действий идут каждый запрос индивидуального
- плюсов: оптимизация может быть сделаны на уровне запросов
- минусов: трудно поддерживать.
Не удалось найти документ о первом подходе к тому, как Spark будет обрабатывать запросы внутри первого подхода. С точки зрения эффективности, какой подход лучше?
Единственное на Спарк многопоточности я мог бы нашел это: «в пределах каждого приложения Спарк, несколько„рабочих мест“(Спарк действия) могут выполняться одновременно, если они были представлены разными потоками»
Спасибо заранее
почему -1 ?? Если этот вопрос является двумя основными, можете ли вы дать некоторые указатели, чтобы понять это? – user2895589