Прежде чем я смогу использовать модель машинного обучения на моем текущем фрейме данных, я должен применить несколько шагов предварительной обработки. Это включает преобразование нескольких категориальных столбцов в индексные столбцы с StringIndexer
s и кодирование новых столбцов с OneHotEncoder
.Apache Spark как конкатенировать (несколько) индексаторов и кодеров в конвейер
Я хочу, чтобы все методы преобразования в конвейере сохранялись и легко применялись к входящим данным. Но поскольку индексированные столбцы еще не существуют, вызов метода fit()
на кодах не выполняется.
Как создать конвейер, который состоит из всех этих шагов?