Мой вопрос больше связан с поиском наилучшего алгоритма для моего набора данных.Какой алгоритм хорош для генетических данных, дублированных?
У меня есть данные, в которых есть три столбца, а именно, индивидуумы, а также оценка болезни и теста (у меня есть 50 тестов, но здесь упоминается только одна характеристика теста). У меня есть 3000 особей и возможные значения для функции болезни - disA, disB и disC, где в качестве тестовой оценки является дискретная переменная. Функция болезни - это мой атрибут класса.
Один человек может иметь до трех различных заболеваний, но только одну оценку теста. Моя цель - классифицировать результаты тестов на основе болезни (оценка результатов связана с какой болезнью) Но здесь проблема в том, что у одного человека есть три заболевания, тогда все тестовые баллы будут повторяться три раза. Например, для индивидуального аа (со всеми DISA, DISB и DISc) тесты оценка равна 12. А затем анализ файл будет выглядеть
individuals, Disease, Test Score
aa,disA,12,...
aa,disB,12,...
aa,disC,12,...
Это приведет к предвзятому анализу. Есть ли алгоритм интеллектуального анализа данных или статистический тест для такого типа данных? Я не могу удалить этих пациентов, потому что они являются самой высокой пропорцией набора данных.
вы можете переместить этот вопрос https: // datascienc e.stackexchange.com/ – kikicarbonell