Я читаю таблицу улей и делать простой sum(field1)
для одного из полей на столе, а затем выполняет шоу функцию, делая .show()
Спарк Оптимизация
Таблица имеет около 12 миллионов строк, и она принимает 18secs для запуска работа на YARN. Эта же функция занимает меньше 10 секунд на SQL Server.
Мысли о том, как оптимизировать запрос на Spark?
Вы подали искрение в кластер YARN? – 030