Я думал о создании обучающего набора, который настолько разнообразен, насколько это возможно, при сжатии данных до меньшего размера (в зависимости от того, насколько подобны точки данных в наборе данных). Это предотвратит переобучение относительно неважных частей данных. Пояснение:Методы выбора разнообразной подвыборки набора данных из многомерного пространства в машинное обучение?
Описание проблемы: Я тренируюсь по данным гоночных автомобилей, значительная часть дороги относительно прямая. Эта часть данных содержит относительно небольшую дисперсию и относительно неважна. Просто оставайтесь на дороге и ускоряйтесь. На мой взгляд, самые сложные части: угловое ожидание, скорость/угол, в котором вы берете за угол.
Чтобы упростить задачу и увеличить обучение этой части, я хотел бы выбрать только те данные, которые существенно отличаются. Поэтому значительно сократить данные на прямых участках (и одинаковые углы), сохраняя данные по разным типам углов. Данные в основном представляют собой вектор из 50 измерений. Я хочу сохранить количество измерений, только хочу, чтобы плотность точек данных в этом многомерном пространстве была более одинаковой. Я не знаю никакого хорошего способа количественного определения «более равных». Поэтому этот вопрос в основном связан с предварительной обработкой данных.
Существуют ли какие-либо методы, которые уже делают это или существуют другие методы, которые достигают той же цели?