2016-12-01 3 views
1

Я думал о создании обучающего набора, который настолько разнообразен, насколько это возможно, при сжатии данных до меньшего размера (в зависимости от того, насколько подобны точки данных в наборе данных). Это предотвратит переобучение относительно неважных частей данных. Пояснение:Методы выбора разнообразной подвыборки набора данных из многомерного пространства в машинное обучение?

Описание проблемы: Я тренируюсь по данным гоночных автомобилей, значительная часть дороги относительно прямая. Эта часть данных содержит относительно небольшую дисперсию и относительно неважна. Просто оставайтесь на дороге и ускоряйтесь. На мой взгляд, самые сложные части: угловое ожидание, скорость/угол, в котором вы берете за угол.

Чтобы упростить задачу и увеличить обучение этой части, я хотел бы выбрать только те данные, которые существенно отличаются. Поэтому значительно сократить данные на прямых участках (и одинаковые углы), сохраняя данные по разным типам углов. Данные в основном представляют собой вектор из 50 измерений. Я хочу сохранить количество измерений, только хочу, чтобы плотность точек данных в этом многомерном пространстве была более одинаковой. Я не знаю никакого хорошего способа количественного определения «более равных». Поэтому этот вопрос в основном связан с предварительной обработкой данных.

Существуют ли какие-либо методы, которые уже делают это или существуют другие методы, которые достигают той же цели?

ответ

1

Если я правильно понял ваш набор данных, вам нужно сгладить вектор, а затем получить самые значительные отклонения исходного вектора от сглаженного. Savitzky–Golay filter - это обычный способ сглаживания данных через массив (вектор). Если вы решили использовать Python, то реализация scipy.signal.savgol_filter - это ваш путь.

A good answer related to the topic.

Смежные вопросы