Пытается разобрать текстовый файл с фиксированной шириной.pyspark разбор текстового файла
моего текстовый файл выглядит следующим образом, и мне нужно идентификатор строки, даты, строка и целое число:
00101292017you1234
00201302017 me5678
Я могу прочитать текстовый файл РД, используя sc.textFile (путь) , Я могу создатьDataFrame с разобранным RDD и схемой. Это разбор между этими двумя шагами.
# df = sqlContext.read.text ("blah.txt") Мне пришлось использовать sqlContext. Тогда это сработало. Я думаю, мне нужно немного узнать о контексте. Но в остальном вы ответили. –
«Искра» означает искровую сессию в версиях> = 2.0. Если вы используете искру 1.6 или ниже, вам нужно использовать 'sqlContext', но с точки зрения доступа к данным ведет себя довольно одинаково – Mariusz