У меня есть список целых чисел и sqlcontext dataframe с количеством строк, равным длине списка. Я хочу добавить список в виде столбца в этот фреймворк, поддерживающий заказ. Я чувствую, что это должно быть очень просто, но я не могу найти элегантное решение.Добавить список в качестве столбца в Dataframe в pyspark
0
A
ответ
1
Вы не можете просто добавить список в качестве столбца dataframe, так как список является локальным объектом, а dataframe - distirbuted. Вы можете попробовать один из THW followin подходов:
- новообращенного dataframe к административно-
collect()
илиtoLocalIterator()
и для каждой строки, добавьте соответствующее значение из списка или - списка Преобразовать в dataframe добавив дополнительный столбец (с ключами от dataframe), а затем присоедините к ним оба
Смежные вопросы
- 1. Добавить сумму столбца в качестве нового столбца в dataframe PySpark
- 2. Как добавить numpy.array в качестве нового столбца в pyspark.SQL DataFrame?
- 3. Добавить PySpark RDD в качестве нового столбца в pyspark.sql.dataframe
- 4. PySpark: Добавить столбец в DataFrame, когда столбец - это список
- 5. PySpark добавить столбец в DataFrame из столбца TimeStampType
- 6. Как получить имя столбца dataframe в pyspark?
- 7. Добавить столбцы на Pyspark Dataframe
- 8. Удалить элемент из столбца данных PySpark DataFrame
- 9. панды str.contains в pyspark dataframe в Pyspark
- 10. Как добавить строки в качестве нового столбца в Pandas Dataframe?
- 11. питона, pyspark: получить сумму столбца pyspark dataframe значение
- 12. Вычислить режим столбца данных PySpark DataFrame?
- 13. PySpark - Split/Фильтр DataFrame по значениям столбца
- 14. Добавление столбца строк в список столбцов в Spark Dataframe
- 15. Как преобразовать ключ и список значений в dataframe в pyspark?
- 16. Обновление столбца dataframe pyspark со сложной функцией
- 17. pyspark piplineRDD подходит для столбца Dataframe
- 18. pyspark dataframe, groupby и вычисляемая дисперсия столбца
- 19. Обновление столбца dataframe pyspark с RDD кортежей
- 20. список в качестве ключа для reduceByKey PySpark в
- 21. Повторяющиеся строки в Pyspark Dataframe
- 22. Разбивка строк в Pyspark DataFrame
- 23. pyspark: рандомизировать строки в dataframe
- 24. Добавления числового столбца pyspark DataFrame на основе строкового значения столбца
- 25. PySpark 1.5 Groupby Sum для нового столбца в Dataframe
- 26. Добавление столбца к PySpark DataFrame в зависимости от того, является ли значение столбца в другом столбце
- 27. PySpark добавить новый столбец в dataframe с новым списком
- 28. Добавление np.array в качестве столбца в pandas.DataFrame
- 29. список набора в качестве значения в столбце панд dataframe
- 30. Как написать индекс dataframe в качестве столбца dataframe
Я закончил делать второе, потому что collect или toLocalIterator переполнили бы память. Беда в том, что мне потребовалось некоторое время, чтобы выяснить, как сделать второй пункт, отчасти поэтому я задал вопрос. Я не спрашивал об этом явно, потому что я надеялся, что есть более элегантный способ. –