Я пытаюсь изменить заголовки очень большого CSV-файла.SparkSQL, Spark DataFrame: пакетное переименование заголовков csv
Я использую SparkSQL
Все заголовки имеют some_string
в имени каждого заголовка, как some_string.header_name
Моя конфигурация Спарк conf = SparkConf().setMaster("local[*]").setAppName("readCSV")
Для чтения файла CSV Я использую com.databricks.spark.csv package
logs_df = sqlContext.load(
source = "com.databricks.spark.csv",
header = 'true',
inferSchema ='true',
path = 'my_file.csv'
)
мой код
header = logs_df.first()
schemaString = header.replace('`some_string.`','')
ошибка продукции:
AttributeError
Traceback (most recent call last)
<ipython-input-63-ccfad59fc785> in <module>()
1255 raise AttributeError(item)
1256 except ValueError:
-> 1257 raise AttributeError(item)
1258
1259 def __setattr__(self, key, value):
AttributeError: replace
Я не люблю использовать logs_df.withColumnRenamed()
, потому что у меня есть более 200 столбцов
Очень appricciate для любой идеи, как изменить заголовки быстро и эффективно