2017-02-02 2 views
2

У меня есть задача поиска изображений под рукой. У меня есть набор данных с не большим количеством изображений для каждого класса, поэтому я в конечном итоге увеличил набор данных (3 копии на изображение в классе) с некоторым вдохновением от Keras blog. Я использовал метод train_test_split в sklearn, чтобы разбить набор данных, сгенерированный из расширенного набора данных. Теперь, поскольку это случайный раскол, при тестировании существует вероятность того, что изображение, которое используется для тестирования, проверяется на его собственное расширенное изображение-копия, например, перевернутое и слегка перекошенное изображение, протестированное против его оригинала. В таком случае есть вероятность, что результаты могут быть искажены? Есть ли способ преодолеть эту проблему, кроме того, что просто получаю новые данные исключительно для тестирования.Создание тестового набора в расширенном наборе данных

+2

Вы должны сначала оставить данные 'test', а затем применить дополнение. –

ответ

3

Да, это называется «утечкой», и если преобразования данных не настолько радикальны, что сгенерированные изображения могут быть похожими на реальный набор тестов, то лучше разбить поезда/тестовые множества ПЕРЕД выполнением увеличения и только увеличение в наборе поездов.

Смежные вопросы