2017-02-18 6 views
0

У меня есть несколько таблиц в улье. Эти таблицы добавляют к ним добавленные данные.Как использовать инкрементные данные для создания фреймов данных в pyspark

Теперь я создал data frame в pyspark, используя таблицу в улье сегодня. Я сделал транспонирование на data frame и создал другую таблицу с новым транспонированным data frame в улье.

Скажем, завтра я получаю новые инкрементные данные в таблице улей из 100 новых строк. Теперь я хочу использовать только эти 100 новых строк, создать новый data frame и выполнить транспонирование и добавление к существующей перенесенной таблице улья.

Как достичь этого с помощью pyspark.

+0

Есть ли способ идентифицировать эти новые 100 строк, которые были добавлены в таблицу улья. Можете ли вы легко создать новый фреймворк на основе только тех 100 строк? –

+0

@GauravDhama Да, базовая идея, как мы можем создать кадр данных, попробует метод –

ответ

0

Семантика в улье сама по себе недостаточно для обеспечения этой функциональности. Данные должны быть идентифицированы с помощью процесса содержимого, файла или метаданных.

Идентифицируемый по содержанию: Данные содержат отметку времени или даты, которая позволяет вам создать запрос к таблице, но отфильтровывать только те строки, которые представляют интерес.

Опознаваемая файлом: Пропустить интерфейс улей и попытаться найти данные на HDFS/POSIX, используя Modify или Change timesteamps на отдельные файлы, например. Загрузите файл непосредственно в качестве нового фреймворка данных.

Опознаваемого процесс метаданных: В архитектуре я построил, я использую Apache Nifi, Кафку и Cloudera Навигатор для обеспечения родословных метаданных о файле и приеме данных. Если ваша архитектура содержит метаданные о проглатываемых данных, вы можете использовать ее для идентификации файлов/записей, которые вам нужны.

Смежные вопросы