Мой текущий подход к тестированию Java/Spark Unit Test (подробный here) путем создания экземпляра SparkContext с использованием «локальных» и запущенных модульных тестов с использованием JUnit.Как я могу протестировать программы PySpark?
Код должен быть организован для ввода/вывода в одной функции, а затем для вызова другого с несколькими RDD.
Это прекрасно работает. У меня очень проверенное преобразование данных, написанное на Java + Spark.
Могу ли я сделать то же самое с Python?
Как запустить тесты Spark с помощью Python?
вы можете сделать то же самое с pySpark и использованием UnitTest модуль. Сам тест проекта использует этот модуль: https://github.com/apache/spark/blob/master/python/pyspark/tests.py –