2016-12-05 3 views
-4

Я читаю таблицу улей и делать простой sum(field1) для одного из полей на столе, а затем выполняет шоу функцию, делая .show()Спарк Оптимизация

Таблица имеет около 12 миллионов строк, и она принимает 18secs для запуска работа на YARN. Эта же функция занимает меньше 10 секунд на SQL Server.

Мысли о том, как оптимизировать запрос на Spark?

+0

Вы подали искрение в кластер YARN? – 030

ответ

0

на основе информации, содержащейся в вопросе, трудно сказать, можно ли оптимизировать запрос:

  1. Возможно, сервер SQL работает на более сильного аппаратного обеспечения, чем запрос Спарк.
  2. Возможно, в коде есть проблемы. Поскольку код не добавляется к вопросу, невозможно сказать, так ли это.

По Освой себя Apache Spark в течение 24 часов, глава 24. искровой производительность зависит от нескольких факторов:

  1. Сама Спарк приложение, которое работает на системах должны быть протестированные и канарейки запросы должны быть выполнен
  2. Искра код
  3. конфигурации Спарк
  4. Оптимизация перегородки
  5. Диагностика проблем производительности приложений путем проверки пользовательского интерфейса
Смежные вопросы