Как более эффективно загружать файлы паркета в Spark (pySpark v1.2.0)

Я загружаю файлы с большими размерами паркета, но вам нужно всего несколько столбцов. Мой текущий код выглядит следующим образом:Как более эффективно загружать файлы паркета в Spark (pySpark v1.2.0)

dat = sqc.parquetFile(path) \ 
      .filter(lambda r: len(r.a)>0) \ 
      .map(lambda r: (r.a, r.b, r.c))

Моя ментальная модель того, что происходит в том, что она загружается во всех данных, а затем выбрасывая столбцы я не хочу. Я бы предпочел, чтобы он даже не читал в этих колонках, и из того, что я понимаю о паркете, кажется, возможно.

Итак, есть два вопроса:

Является ли моя ментальная модель не так? Или искровый компилятор достаточно умный, чтобы читать только в столбцах a, b и c в примере выше?
Как я могу заставить sqc.parquetFile() читать данные более эффективно?

источник

2015-04-22 jarfa

Я думаю, что ваши шансы получить только для чтения, необходимые столбцы будет выше, если вы '' map' _перед_ filter' – sds

Вы должны использовать Спарк DataFrame API: https://spark.apache.org/docs/1.3.0/sql-programming-guide.html#dataframe-operations

Что-то вроде

dat.select("a", "b", "c").filter(lambda r: len(r.a)>0)

Или вы можете использовать Спарк SQL:

dat.regiserTempTable("dat") 
sqc.sql("select a, b, c from dat where length(a) > 0")

источник

2015-05-21 07:45:35 kostya

Spark всегда делает что-то ленивым путем, используя собственную функцию scala. Код scala уже скомпилирован, и он делает runtime умным, я имею в виду ленивые решения. С паркета он должен только читать необходимые данные, на которые ссылается код. Конечно, это зависит от структуры конкретного паркетного файла. Дело в том, что он будет использовать столбчатый формат. Я не знаю достаточно о Python, но он должен иметь возможность делать то же самое. Возможно, проверьте, использует ли класс pyspark Row какую-то ленивую магию. Один быстрый способ проверить - выполнить контролируемый эксперимент, написать еще одну операцию rdd, которая ссылается на большее количество полей, но не выдает их. Затем вы можете просто сравнить временную разницу настенных часов между двумя операциями. В зависимости от некоторых релевантных деталей базового файла паркета вы можете не видеть разницу, даже если она делает ленивую загрузку.

источник

2015-05-14 18:40:12 user3931226

Да только выбранные поля из диска.

«открывает все файлы данных, но считывает только часть каждого файла, содержащего значения для этого столбца. Значения столбцов сохраняются последовательно, минимизируя ввод-вывод, необходимый для обработки значений в пределах одного столбца».

Эта документация для импала, я думаю, чтение логика одинакова для искры слишком http://www.cloudera.com/documentation/archive/impala/2-x/2-1-x/topics/impala_parquet.html#parquet_data_files_unique_1

источник

2016-02-15 03:35:27 spats

Как более эффективно загружать файлы паркета в Spark (pySpark v1.2.0)

ответ

Смежные вопросы