Как использовать fileStream для потока паркетных файлов?

Я пытаюсь передать паркетные файлы в Spark, но я не знаю, как использовать метод StreamStreamContext fileStream.Как использовать fileStream для потока паркетных файлов?

Любая помощь приветствуется.

источник

2016-02-16 Rory Byrne

на основе Spark Streaming Documentation:

streamingContext.textFileStream(dataDirectory)

Спарк Streaming будет контролировать DataDirectory каталогов и обрабатывать все файлы, созданные в этом каталоге (файлы, записанные в вложенных каталогов не поддерживается). Обратите внимание, что

Файлы должны иметь одинаковый формат данных. Файлы должны быть созданы в dataDirectory путем атомарного перемещения или переименования в каталог данных. После перемещения файлы нельзя изменять. Поэтому, если файлы постоянно добавляются, новые данные не будут прочитаны. Для простых текстовых файлов существует более простой метод streamingContext.textFileStream (dataDirectory). И файловые потоки не требуют запуска приемника, поэтому не требуют выделения ядер.

источник

2016-02-16 16:27:14

Я хочу передать файлы паркета, а не текстовые файлы. –

fileStream поддерживает много InputFormat. может использовать ParquetInputFormat. Проверьте это: https://github.com/Parquet/parquet-mr/tree/master/parquet-hadoop/src/main/java/parquet/hadoop/example –

Я не понимаю, как его использовать. Мне нужно создать свой собственный класс, например 'Group', а затем мой собственный' ReadSupport' для него, а затем мой собственный «RecordMaterializer» для него и т. Д.? Я не понимаю, как работают три типа 'K',' V', 'F'. См. [Этот вопрос] (http://stackoverflow.com/questions/35413552/how-do-i-read-in-parquet-files-using-ssc-filestream-and-what-the-the-nature) –

Как использовать fileStream для потока паркетных файлов?

ответ

Смежные вопросы