У меня есть несколько таблиц в улье. Эти таблицы добавляют к ним добавленные данные.Как использовать инкрементные данные для создания фреймов данных в pyspark
Теперь я создал data frame
в pyspark, используя таблицу в улье сегодня. Я сделал транспонирование на data frame
и создал другую таблицу с новым транспонированным data frame
в улье.
Скажем, завтра я получаю новые инкрементные данные в таблице улей из 100 новых строк. Теперь я хочу использовать только эти 100 новых строк, создать новый data frame
и выполнить транспонирование и добавление к существующей перенесенной таблице улья.
Как достичь этого с помощью pyspark.
Есть ли способ идентифицировать эти новые 100 строк, которые были добавлены в таблицу улья. Можете ли вы легко создать новый фреймворк на основе только тех 100 строк? –
@GauravDhama Да, базовая идея, как мы можем создать кадр данных, попробует метод –