Как использовать инкрементные данные для создания фреймов данных в pyspark

У меня есть несколько таблиц в улье. Эти таблицы добавляют к ним добавленные данные.Как использовать инкрементные данные для создания фреймов данных в pyspark

Теперь я создал data frame в pyspark, используя таблицу в улье сегодня. Я сделал транспонирование на data frame и создал другую таблицу с новым транспонированным data frame в улье.

Скажем, завтра я получаю новые инкрементные данные в таблице улей из 100 новых строк. Теперь я хочу использовать только эти 100 новых строк, создать новый data frame и выполнить транспонирование и добавление к существующей перенесенной таблице улья.

Как достичь этого с помощью pyspark.

источник

2017-02-18 Anonymous

Есть ли способ идентифицировать эти новые 100 строк, которые были добавлены в таблицу улья. Можете ли вы легко создать новый фреймворк на основе только тех 100 строк? –

@GauravDhama Да, базовая идея, как мы можем создать кадр данных, попробует метод –

Семантика в улье сама по себе недостаточно для обеспечения этой функциональности. Данные должны быть идентифицированы с помощью процесса содержимого, файла или метаданных.

Идентифицируемый по содержанию: Данные содержат отметку времени или даты, которая позволяет вам создать запрос к таблице, но отфильтровывать только те строки, которые представляют интерес.

Опознаваемая файлом: Пропустить интерфейс улей и попытаться найти данные на HDFS/POSIX, используя Modify или Change timesteamps на отдельные файлы, например. Загрузите файл непосредственно в качестве нового фреймворка данных.

Опознаваемого процесс метаданных: В архитектуре я построил, я использую Apache Nifi, Кафку и Cloudera Навигатор для обеспечения родословных метаданных о файле и приеме данных. Если ваша архитектура содержит метаданные о проглатываемых данных, вы можете использовать ее для идентификации файлов/записей, которые вам нужны.

источник

2017-02-19 17:44:33 JamCon

Как использовать инкрементные данные для создания фреймов данных в pyspark

ответ

Смежные вопросы