Я относительно новичок в области интеллектуального анализа данных и экспериментировал с Weka.Weka: Классификатор и ReplaceMissingValues
У меня есть набор данных, который состоит из почти 8000 записей, относящихся к покупателям и предметам, которые они приобрели. 58% этого набора данных не имеют значений для атрибута «Пол».
Я хочу найти недостающие гендерные значения на основе других данных, которые у меня есть.
Сначала я подумал, что могу сделать это, используя алгоритм классификатора в Weka, используя набор для создания модели. Основываясь на примерах, которые я видел в Интернете, я попробовал это с почти всеми доступными алгоритмами, доступными в Weka, используя набор для обучения, который состоял из 60-80% данных, которые не имели отсутствующих значений. Это дало мне более низкий коэффициент точности, чем я хотел (80-86% в зависимости от используемого алгоритма)
Правильно ли я сделал это? Есть ли способ улучшить эту точность? Я экспериментировал с использованием разных атрибутов, различной предварительной обработки данных и т. Д.
Я также попытался использовать фильтр ReplaceMissingValues в полном наборе данных, чтобы увидеть, как это будет обрабатывать недостающие значения. Однако он просто изменил все недостающие значения на «Женщины», что, очевидно, не может быть. Поэтому мне также интересно узнать, нужно ли мне использовать этот фильтр в моей ситуации или нет.