Мне любопытно, есть ли что-то похожее на http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedShuffleSplit.html от sklearn для apache-spark в последней версии 2.0.1.Испытание на искровой поезд. Разгон
До сих пор я мог найти только https://spark.apache.org/docs/latest/mllib-statistics.html#stratified-sampling, который, похоже, не очень подходит для разбивки сильно несбалансированного набора данных на образцы поездов/испытаний.
См [Пример: выбор модели с помощью раскола проверки поезда] (HTTPS: // искровым .apache.org/docs/latest/ml-tuning.html # train-validation-split) ** TrainValidati onSplit ** создает единую пару (набор для обучения, тестирования). Он разбивает набор данных на эти две части, используя параметр trainRatio. –
Спасибо. Я не знал об этом. Тем не менее, TrainValidationSplit не кажется случайным и не поддерживает начальные расщепления. Я что-то упустил? –
Вы правы, это билет Jira об этом. [Поддержка сбалансированных ярлыков классов при расщеплении наборов наборы/перекрестные проверки] (https://issues.apache.org/jira/browse/SPARK-8971). Итак, Mllib пока не поддерживает эту функцию. –