0

У меня есть рамка данных pyspark, у которой есть столбец, содержащий строки. Я хочу разделить эту колонку в словаСплит Содержимое столбца String в элементе данных PySpark

Код:

>>> sentenceData = sqlContext.read.load('file://sample1.csv', format='com.databricks.spark.csv', header='true', inferSchema='true') 
>>> sentenceData.show(truncate=False) 
+---+---------------------------+ 
|key|desc      | 
+---+---------------------------+ 
|1 |Virat is good batsman  | 
|2 |sachin was good   | 
|3 |but modi sucks big big time| 
|4 |I love the formulas  | 
+---+---------------------------+ 


Expected Output 
--------------- 

>>> sentenceData.show(truncate=False) 
+---+-------------------------------------+ 
|key|desc         | 
+---+-------------------------------------+ 
|1 |[Virat,is,good,batsman]    | 
|2 |[sachin,was,good]     | 
|3 |....         | 
|4 |...         | 
+---+-------------------------------------+ 

Как я могу добиться этого?

ответ

3

Использование split функции:

from pyspark.sql.functions import split 

df.withColumn("desc", split("desc", "\s+")) 
Смежные вопросы