2016-05-04 3 views
3

Я хотел бы выполнить некоторые основные операции на столбце Spark Dataframe, заменив подстроки. Какой самый быстрый способ сделать это?Pyspark заменить строки в колонке данных Spark

В моем текущем случае использования у меня есть список адресов, которые я хочу нормализовать. Например, это dataframe:

id  address 
1  2 foo lane 
2  10 bar lane 
3  24 pants ln 

стал бы

id  address 
1  2 foo ln 
2  10 bar ln 
3  24 pants ln 
+0

Какая у вас версия искры? –

ответ

18

Для Спарк 1.5 или более поздней версии, вы можете использовать functions пакет:

from pyspark.sql.functions import * 
newDf = df.withColumn('address', regexp_replace('address', 'lane', 'ln')) 

Краткое объяснение:

  • Функция withColumn вызывается для добавления (или замены, если имя существует) столбца в фрейм данных.
  • Функция regexp_replace сгенерирует новый столбец, заменив все подстроки, соответствующие шаблону.
Смежные вопросы