Какой алгоритм хорош для генетических данных, дублированных?

Мой вопрос больше связан с поиском наилучшего алгоритма для моего набора данных.Какой алгоритм хорош для генетических данных, дублированных?

У меня есть данные, в которых есть три столбца, а именно, индивидуумы, а также оценка болезни и теста (у меня есть 50 тестов, но здесь упоминается только одна характеристика теста). У меня есть 3000 особей и возможные значения для функции болезни - disA, disB и disC, где в качестве тестовой оценки является дискретная переменная. Функция болезни - это мой атрибут класса.

Один человек может иметь до трех различных заболеваний, но только одну оценку теста. Моя цель - классифицировать результаты тестов на основе болезни (оценка результатов связана с какой болезнью) Но здесь проблема в том, что у одного человека есть три заболевания, тогда все тестовые баллы будут повторяться три раза. Например, для индивидуального аа (со всеми DISA, DISB и DISc) тесты оценка равна 12. А затем анализ файл будет выглядеть

individuals, Disease, Test Score 
aa,disA,12,... 
aa,disB,12,... 
aa,disC,12,...

Это приведет к предвзятому анализу. Есть ли алгоритм интеллектуального анализа данных или статистический тест для такого типа данных? Я не могу удалить этих пациентов, потому что они являются самой высокой пропорцией набора данных.

источник

2015-07-28 Asif

вы можете переместить этот вопрос https: // datascienc e.stackexchange.com/ – kikicarbonell

Почему бы не переделать проблему как однократное сопоставление от теста к набору заболеваний? Используя ваш пример, первая строка данных ниже показывает «aa» как имеющие все болезни, в то время как «bb» имеет только болезнь A.

individuals, DiseaseA, DiseaseB, DiseaseC, Test Score 
aa,true,true,true,12 
bb,true,false,false,10

источник

2015-07-28 23:12:20 dan

Я новичок в этой области. Но я немного переживаю за эту переделку. Например, если у меня есть много людей, таких как aa (правда для всех заболеваний), то не будет существенной разницы между факторами болезни A, B и C. – Asif

Я хотел бы использовать следующий формат, разработанный Hadley Уикхемом описано в reshape пакете:

http://had.co.nz/reshape/

http://www.jstatsoft.org/v21/i12

Пример:

individuals, variable, value 
aa,disease,disA 
aa,disease,disB 
aa,disease,disC 
aa,testscore,12

источник

2015-08-14 02:39:52 Vince

Какой алгоритм хорош для генетических данных, дублированных?

ответ

Смежные вопросы