Я новичок в Spark и пытаюсь прочитать файл csv и получить первый и второй столбцы в файле. Дело в том, что файл csv огромен, и мне не интересно разбирать каждую строку в файле csv. Кроме того, запуск функции collect() может привести к сбою процесса, потому что памяти может быть недостаточно для поддержки объема возвращаемых данных. Поэтому мне было интересно, можно ли создать RDD только с подмножеством данных csv. Например, возможно ли создать RDD, содержащий строки от 10 до 1000 из файла csv, и игнорировать другие строки.Как получить подмножество csv-файла как Spark RDD
Прямо сейчас, все у меня есть
csvdata = sc.textFile("hdfs://nn:port/datasets/sample.csv").map(lambda line: line.split(","))
Это в основном создает RDD для всего файла CSV. Возможно ли создать RDD из csvdata, содержащих строки от 10 до 1000?
Большое спасибо за предоставленную помощь.
http://stackoverflow.com/questions/15644859/how-to-read-specific-part-of-large-file-in-python – Ashalynd