У меня есть приложение в SparkSQL, которое возвращает большое количество строк, которые очень трудно поместиться в память, поэтому я не смогу использовать функцию сбора в DataFrame, есть ли с помощью которого я могу получить все эти строки как Iterable, установленный для всех строк в виде списка.Как получить Итератор строк с использованием Dataframe в SparkSQL
Примечание: Я уверен, выполнение этой SparkSQL приложение с использованием пряжи-клиент
Немного поздно, но не могли бы вы подробнее рассказать о нескольких лучших решениях? – irregular
@irregular Это зависит от конкретного приложения, но большую часть времени «mapPartitions», 'foreachPartition' или аналогичный метод более чем достаточно. У вас есть какой-то конкретный случай использования? – zero323
Я также смотрю на набор данных, который слишком велик для памяти. К сожалению, я столкнулся с этой ошибкой https://issues.apache.org/jira/browse/SPARK-10189 при использовании toLocalIterator. Таким образом, я изучал добавление ROW_NUMBER для запроса через db https://paste.pound-python.org/show/sk4bPE5P9QsKhmcYlsK0/. Я не совсем уверен, как настроить разделы, так вот как я иду это atm – irregular