Я использую pySpark для записи паркетного файла. Я хотел бы изменить размер блока hdfs этого файла. Я установить размер блока, как это и он не работает:Как изменить размер блока hdfs в pyspark?
sc._jsc.hadoopConfiguration().set("dfs.block.size", "128m")
ли это быть установлен перед началом работы pySpark? Если да, то как это сделать.
Привет, если какой-либо из ниже ответов решил вашу проблему, пожалуйста, рассмотреть [принятия] (http://meta.stackexchange.com/q/5234/ 179419) лучший ответ или добавление собственного решения. Таким образом, это указывает более широкому сообществу, что вы нашли решение. – mrsrinivas
Я не уверен, что вы можете его изменить, так как файл написан на HDFS. Spark будет выделять задачу на один раздел файла (вид картографа). Вот почему многие люди рекомендуют иметь блок размером 256 м для Spark. –