Pyspark заменить строки в колонке данных Spark

Я хотел бы выполнить некоторые основные операции на столбце Spark Dataframe, заменив подстроки. Какой самый быстрый способ сделать это?Pyspark заменить строки в колонке данных Spark

В моем текущем случае использования у меня есть список адресов, которые я хочу нормализовать. Например, это dataframe:

id  address 
1  2 foo lane 
2  10 bar lane 
3  24 pants ln

стал бы

id  address 
1  2 foo ln 
2  10 bar ln 
3  24 pants ln

источник

2016-05-04 Luke

Какая у вас версия искры? –

Для Спарк 1.5 или более поздней версии, вы можете использовать functions пакет:

from pyspark.sql.functions import * 
newDf = df.withColumn('address', regexp_replace('address', 'lane', 'ln'))

Краткое объяснение:

Функция withColumn вызывается для добавления (или замены, если имя существует) столбца в фрейм данных.
Функция regexp_replace сгенерирует новый столбец, заменив все подстроки, соответствующие шаблону.

источник

2016-05-04 21:19:54

Pyspark заменить строки в колонке данных Spark

ответ

Смежные вопросы