Для того, чтобы построить MultiClass классификатор NaiveBayes, я использую CrossValidator, чтобы выбрать лучшие параметры в моем трубопроводе:СПАРК, ML, Тюнинг, CrossValidator: доступ метрики
val cv = new CrossValidator()
.setEstimator(pipeline)
.setEstimatorParamMaps(paramGrid)
.setEvaluator(new MulticlassClassificationEvaluator)
.setNumFolds(10)
val cvModel = cv.fit(trainingSet)
Трубопровод содержит обычные трансформаторы и оценки в следующем порядке: Tokenizer, StopWordsRemover, HashingTF, IDF и, наконец, NaiveBayes.
Возможно ли получить доступ к метрикам, рассчитанным для лучшей модели?
В идеале я хотел бы получить доступ к метрикам всех моделей, чтобы увидеть, как изменение параметров изменяет качество классификации. Но на данный момент лучшая модель достаточно хороша.
FYI, я использую Спарк 1.6.0
почтовый индекс работает, но я действительно не так как он предполагает внутренние знания о том, как работает CrossValidator. Они могли бы изменить способ создания массива показателей, чтобы он был в другом порядке для следующей версии, и вы закрыты, но не знаете, что использовали, потому что ваш код все еще работает. Я хотел бы иметь параметры для модели, возвращенной с ее метрикой. Я также хотел бы видеть сводную статистику, а не просто среднюю. Насколько полезно среднее значение без стандартного отклонения? – Turbo