Являются ли дубликаты полезными в наборах данных?

Я скачал Skin Segmentation Data Set и обнаружил, что он содержит много дубликатов.
Например, this row 0 128 0 2 было обнаружено 199 раз.Являются ли дубликаты полезными в наборах данных?

Пожалуйста, приведите несколько примеров, когда дубликаты хороши и когда зло.

источник

2016-01-21 MrPisarik

Вы связано с Joe Pisarcik? – stackoverflowuser2010

@ stackoverflowuser2010, nope – MrPisarik

Да, конечно, поскольку, если это случайный образец, который представляет собой базовое распределение в данных, это говорит о том, что это конкретное значение имеет более высокую вероятность. Удаление дубликатов просто сделает набор данных довольно бесполезным.

источник

2016-01-22 01:01:25 latorrefabian

Но в случае простой классификации с двумя классами (например, Да \ Нет), есть плохие дубликаты имеют смысл? Например, «0 0 255», очевидно, не является цветом кожи. Я думаю, что нет смысла в 200 повторениях этого :) – MrPisarik

Я думаю, что он полагается на тип используемого классификатора – MrPisarik

, что является другой проблемой: действительно ли данные? – latorrefabian

Важно.

Например: Если строка 'a' появляется 5 раз в ваших данных, а другая строка, 'b', появляется только один раз, тогда вы захотите классифицировать строку 'a' лучше, чем 'b', потому что когда вы будете вычислять функция стоимости, строка «a» будет больше времени и будет иметь большее влияние на стоимость.

И если ваша тренировка хорошо отображает тестовые данные, тогда существует высокая вероятность того, что строка 'a' появится больше раз, чем строка 'b'.

источник

2016-01-24 20:05:13 manbearpig

Являются ли дубликаты полезными в наборах данных?

ответ

Смежные вопросы