Как прочитать файл в pyspark с «] | [» Разделитель

Данные выглядит следующим образом:Как прочитать файл в pyspark с «] | [» Разделитель

Есть по крайней мере 50 столбцов и миллионы строк.

Я пытаюсь использовать приведенный ниже код для чтения:

dff = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").option("inferSchema", "true").option("delimiter", "]|[").load(trainingdata+"part-00000")

это дает мне следующую ошибку:

IllegalArgumentException: u'Delimiter cannot be more than one character: ]|['

источник

2017-01-18 dsl1990

Try с управляющей последовательностью

dff = (sqlContext.read 
       .format("com.databricks.spark.csv") 
       .option("delimiter", "\\]\\|\\[") 
       .load(trainingdata+"part-00000")

источник

2017-01-20 07:48:10

u'Поддерживаемый специальный символ для разделителя: \\] \\ | \\ [' – dsl1990

вам может использовать более одного символа Acter для разделителей в РДУ

вы можете попробовать этот код

from pyspark import SparkConf, SparkContext 
from pyspark.sql import SQLContext 

conf = SparkConf().setMaster("local").setAppName("test") 
sc = SparkContext(conf = conf) 

input = sc.textFile("yourdata.csv").map(lambda x: x.split(']|[')) 

print input.collect()

вы можете превратить RDD в DataFrame (если вы хотите), используя toDF() функцию, и не забудьте указать схему, если вы хотите сделайте это

источник

2017-01-20 15:08:19

Как прочитать файл в pyspark с «] | [» Разделитель

ответ

Смежные вопросы