Я записываю данные (приблизительно 83M записей) из dataframe в postgresql, и это довольно медленно. Занимает 2,7 часа, чтобы завершить запись в db.Spark write to postgres slow
Рассматривая исполнителей, на одном исполнителе работает только одна активная задача. Есть ли способ распараллеливать записи в db, используя все исполнители в Spark?
...
val prop = new Properties()
prop.setProperty("user", DB_USER)
prop.setProperty("password", DB_PASSWORD)
prop.setProperty("driver", "org.postgresql.Driver")
salesReportsDf.write
.mode(SaveMode.Append)
.jdbc(s"jdbc:postgresql://$DB_HOST:$DB_PORT/$DATABASE", REPORTS_TABLE, prop)
Благодаря
Можете ли вы добавить, что часть кода написана в PostGres? –
@ThiagoBaldim просто разместил фрагмент кода для этого, спасибо –