2016-10-24 3 views
0

У меня есть список целых чисел и sqlcontext dataframe с количеством строк, равным длине списка. Я хочу добавить список в виде столбца в этот фреймворк, поддерживающий заказ. Я чувствую, что это должно быть очень просто, но я не могу найти элегантное решение.Добавить список в качестве столбца в Dataframe в pyspark

ответ

1

Вы не можете просто добавить список в качестве столбца dataframe, так как список является локальным объектом, а dataframe - distirbuted. Вы можете попробовать один из THW followin подходов:

  • новообращенного dataframe к административно- collect() или toLocalIterator() и для каждой строки, добавьте соответствующее значение из списка или
  • списка Преобразовать в dataframe добавив дополнительный столбец (с ключами от dataframe), а затем присоедините к ним оба
+0

Я закончил делать второе, потому что collect или toLocalIterator переполнили бы память. Беда в том, что мне потребовалось некоторое время, чтобы выяснить, как сделать второй пункт, отчасти поэтому я задал вопрос. Я не спрашивал об этом явно, потому что я надеялся, что есть более элегантный способ. –

Смежные вопросы