2015-07-28 2 views
0

Мой вопрос больше связан с поиском наилучшего алгоритма для моего набора данных.Какой алгоритм хорош для генетических данных, дублированных?

У меня есть данные, в которых есть три столбца, а именно, индивидуумы, а также оценка болезни и теста (у меня есть 50 тестов, но здесь упоминается только одна характеристика теста). У меня есть 3000 особей и возможные значения для функции болезни - disA, disB и disC, где в качестве тестовой оценки является дискретная переменная. Функция болезни - это мой атрибут класса.

Один человек может иметь до трех различных заболеваний, но только одну оценку теста. Моя цель - классифицировать результаты тестов на основе болезни (оценка результатов связана с какой болезнью) Но здесь проблема в том, что у одного человека есть три заболевания, тогда все тестовые баллы будут повторяться три раза. Например, для индивидуального аа (со всеми DISA, DISB и DISc) тесты оценка равна 12. А затем анализ файл будет выглядеть

individuals, Disease, Test Score 
aa,disA,12,... 
aa,disB,12,... 
aa,disC,12,... 

Это приведет к предвзятому анализу. Есть ли алгоритм интеллектуального анализа данных или статистический тест для такого типа данных? Я не могу удалить этих пациентов, потому что они являются самой высокой пропорцией набора данных.

+1

вы можете переместить этот вопрос https: // datascienc e.stackexchange.com/ – kikicarbonell

ответ

0

Почему бы не переделать проблему как однократное сопоставление от теста к набору заболеваний? Используя ваш пример, первая строка данных ниже показывает «aa» как имеющие все болезни, в то время как «bb» имеет только болезнь A.

individuals, DiseaseA, DiseaseB, DiseaseC, Test Score 
aa,true,true,true,12 
bb,true,false,false,10 
+0

Я новичок в этой области. Но я немного переживаю за эту переделку. Например, если у меня есть много людей, таких как aa (правда для всех заболеваний), то не будет существенной разницы между факторами болезни A, B и C. – Asif

Смежные вопросы