2012-05-12 10 views
0

У меня есть набор данных, более 1000 строк и 20 атрибутов (показано в столбцах). Я хочу использовать среднюю центрировку, которая включает в себя удаление среднего значения из каждого значения, чтобы дать среднее значение 0. Удаляем ли я среднее значение атрибута по атрибуту или удаляем среднее из всех атрибутов из каждого?Статистическое среднее центрирование - с использованием общего среднего значения или атрибута

Например, если среднее значение атрибута A равно 500, а среднее значение атрибута B равно 1000. Для всех значений в А я мог бы удалить 500, который дает атрибут среднее 0. Тогда я мог бы сделать то же самое для атрибута B.

ИЛИ

Я мог бы взять 750 от всех значений для обоих атрибутов.

Более статистически верно?

Мой вопрос связан с этим: Если я вычитаю разные значения из разных атрибутов, тогда атрибуты не будут сопоставимы, так как каждая сумма была взята из каждой суммы. Если я вычитаю одно и то же значение из всех, то некоторые столбцы могут быть заполнены только отрицательными цифрами (и таким образом отрицают эффект средней центрировки).

Спасибо,

ответ

3

Обычно вы центрирование каждого атрибута в отдельности.
Если вы центрируете каждый атрибут отдельно, вы предполагаете, что для индивидуума важно, как каждая мера отличается от среднего значения этого атрибута, и вы потеряете абсолютное сравнение атрибутов для этого человека.
Например, если у вас был человек, высота, вес, центрируя их отдельно, вы могли бы спросить «для человека выше среднего, это также вес, превышающий средний вес». Усреднение высоты и веса было бы бессмысленным.
Один из способов подумать об этом - вы создаете среднего человека, который вы теперь можете использовать в качестве ориентира против всех своих наблюдений.
Теперь, если абсолютное значение 2 меры сопоставимо, скажем цена и стоимость продукта, вы больше не сможете сравнивать их, потому что они будут сдвинуты. Если то, о чем вы заботитесь, является мерой, которая использует абсолютные сравнения для отдельного наблюдения, вам нужно будет создать вспомогательную метрику, например, например,% прибыли. В этом случае центрированные значения позволят вам спросить «продукты с более высокими ценами, более выгодными, чем средние».

+0

Спасибо, это фантастическое объяснение, и это действительно помогает. – ThePerson

Смежные вопросы