У меня есть требование для загрузки данных из таблицы Hive с использованием spark-SQL HiveContext
и загрузки в HDFS. По умолчанию DataFrame
из SQL-вывода имеет 2 раздела. Чтобы получить больше параллелизма, мне нужно больше разделов из SQL. В HiveContext нет перегруженного метода, чтобы принять число параметров разделов.Как изменить размер раздела в Spark SQL
Переразделение RDD вызывает перетасовку и приводит к увеличению времени обработки.
val result = sqlContext.sql("select * from bt_st_ent")
Имеет выход лог:
Starting task 0.0 in stage 131.0 (TID 297, aster1.com, partition 0,NODE_LOCAL, 2203 bytes)
Starting task 1.0 in stage 131.0 (TID 298, aster1.com, partition 1,NODE_LOCAL, 2204 bytes)
Я хотел бы знать, есть ли способ увеличить размер разделов на выходе SQL.
Это не сработало в нашем кластере для Spark 2.1.1 с использованием набора данных –
Luckylukee