Предположим, у меня есть набор данных с несколькими столбцами, а один из них - gender
. Насколько я понимаю, knnImputation()
со стандартными параметрами вычисляет метрику, где все переменные обрабатываются одинаково, в то время как я хочу создать какое-то правило, когда, например, наличие того же gender
настоятельно рекомендуется при поиске соседей (например, gender
имеет более сильное влияние на общий вес или только строки с одним и тем же полу выбраны (это можно сделать путем расщепления, а затем повторной сборки наборов для обучения и тестирования, но, возможно, существует более простой способ)).R: предпочтения взвешенного вменения/вменения
Я вижу, что kNNImpute()
имеет параметр impute.fn
для функции вменения, а knnImputation()
имеет meth
для метода. Как создать такое правило, которое будет гибким и простым в редактировании (например, написано как функция чего-то подобного)?
Какой пакет вы используете /, где делает 'knnImputation «Из чего? –
Использование выбора переменных широко обсуждается в литературе (особенно в отношении кластеризации). Но я не знаю многих ** реализованных ** методов расчета, которые его используют. [Tutz and Ramzan 2015] (http://www.sciencedirect.com/science/article/pii/S0167947315001061), например, не имеют реализации своего метода, насколько мне известно. –
@Alex Я использую 'knnImputation()' из '{DMwR}' или 'kNNImpute()' из '{imputation}', но я могу использовать что-нибудь еще, если у него есть метод, который я хочу. Все, что я хочу, это либо манипулировать весом для одной переменной (пол), либо выбирать из линий, имеющих только один и тот же пол. – Slowpoke