При выполнении задания PySpark на сервере dataproc нравится этаPySpark печати на консоль
gcloud --project <project_name> dataproc jobs submit pyspark --cluster <cluster_name> <python_script>
мои заявления печати не появляется в моем терминале.
Есть ли способ вывода данных на терминал в PySpark при выполнении заданий в облаке?
Редактировать: Я хотел бы распечатать/записать информацию из моей трансформации. Например:
def print_funct(l):
print(l)
return l
rddData.map(lambda l: print_funct(l)).collect()
Если печатать каждую строку данных в РДУ rddData
.
Выполнение некоторых рытье, я нашел это answer for logging, однако, тестирование обеспечивает мне результаты this question, ответ на который утверждает, что эта регистрация не представляется возможным в рамках трансформации
Когда вы говорите заявления печати, вы имеете в виду изнутри программы драйвера python? Или внутри искрообразования? Вся информация, полученная от драйвера, который вы увидите, запуская искру-submit на главной виртуальной машине, будет напечатана gcloud. С другой стороны, вывод из преобразований выполняется на другой виртуальной машине и не печатается. Если можно, добавьте пример. – tix
@tix: Я предполагаю, что мой оператор печати находится внутри искрового преобразования. Я предполагаю, что вывод на печать отправляется каждому vm, но не для того, чтобы справляться и, следовательно, не со мной? – Roman