Моя цель - построить классификатор multicalss.Spark, ML, StringIndexer: обработка невидимых меток
Я построил конвейер для извлечения функции и включает в себя в качестве первого шага трансформатор StringIndexer для сопоставления каждого имени класса с меткой, эта метка будет использоваться на этапе обучения классификатора.
В трубопроводе установлен учебный комплект.
Испытательный комплект должен быть обработан установленным трубопроводом для извлечения тех же векторов признаков.
Зная, что мои файлы тестовых наборов имеют одинаковую структуру учебного набора. Возможный сценарий здесь заключается в том, чтобы столкнуться с невидимым именем класса в тестовом наборе, в этом случае StringIndexer не сможет найти метку, и будет создано исключение.
Есть ли решение для этого случая? или как мы можем избежать этого?
Не существует способа предоставить тестовые данные без какой-либо метки вообще, чтобы алгоритм предсказал ее с нуля. В моем случае у меня нет меток ни для одного из моих тестовых данных. См.: Https://stackoverflow.com/questions/44127634/providing-test-data-items-with-empty-labels-in-spark-random-forest-classifier В моем случае мне нужно связать случайные метки для предметы? – suat
Ответ от @queise с использованием искры 2.2 теперь лучший ответ – mrjrdnthms