Я искал какое-то время, если есть способ использовать класс Scala
в Pyspark
, и я не нашел никакой документации и руководства по этому вопросу.Как использовать класс Scala внутри Pyspark
Скажем, я создаю простой класс в Scala
, который использует некоторые библиотеки apache-spark
, что-то вроде:
class SimpleClass(sqlContext: SQLContext, df: DataFrame, column: String) {
def exe(): DataFrame = {
import sqlContext.implicits._
df.select(col(column))
}
}
- Есть ли возможный способ использовать этот класс в
Pyspark
? - Это слишком сложно?
- Должен ли я создать файл
.py
? - Есть ли какой-нибудь путеводитель, который показывает, как это сделать?
Кстати, я также смотрел на spark
код, и я чувствовал себя немного потеряли, и я был не в состоянии копировать их функциональность для моей собственной цели.