2

Я скачал Skin Segmentation Data Set и обнаружил, что он содержит много дубликатов.
Например, this row 0 128 0 2 было обнаружено 199 раз.Являются ли дубликаты полезными в наборах данных?

Пожалуйста, приведите несколько примеров, когда дубликаты хороши и когда зло.

+0

Вы связано с Joe Pisarcik? – stackoverflowuser2010

+0

@ stackoverflowuser2010, nope – MrPisarik

ответ

1

Да, конечно, поскольку, если это случайный образец, который представляет собой базовое распределение в данных, это говорит о том, что это конкретное значение имеет более высокую вероятность. Удаление дубликатов просто сделает набор данных довольно бесполезным.

+0

Но в случае простой классификации с двумя классами (например, Да \ Нет), есть плохие дубликаты имеют смысл? Например, «0 0 255», очевидно, не является цветом кожи. Я думаю, что нет смысла в 200 повторениях этого :) – MrPisarik

+0

Я думаю, что он полагается на тип используемого классификатора – MrPisarik

+0

, что является другой проблемой: действительно ли данные? – latorrefabian

0

Важно.

Например: Если строка 'a' появляется 5 раз в ваших данных, а другая строка, 'b', появляется только один раз, тогда вы захотите классифицировать строку 'a' лучше, чем 'b', потому что когда вы будете вычислять функция стоимости, строка «a» будет больше времени и будет иметь большее влияние на стоимость.

И если ваша тренировка хорошо отображает тестовые данные, тогда существует высокая вероятность того, что строка 'a' появится больше раз, чем строка 'b'.

Смежные вопросы