2013-04-06 4 views
1

У меня есть файл .ped, который содержит несколько столбцов, и я хочу извлечь из него информацию. Вот образец моих данных (нет заголовка):обработка данных с использованием r

1 1 1 
1 2 1 
2 3 2 
3 4 1 
3 5 2 
... 

Первый столбец указывает идентификатор семьи, второй идентификатор индивидуальный, третий пол индивидуума.

Я прочитал таблицу как dataframe

ped <- read.table("pedigree.ped", header=FALSE) 

Как я могу вычислить число семей, существуют (одна семья может оказаться более чем один раз, и я хочу, чтобы рассматривать их как один)? У меня есть секс-столбец, где 1 обозначают мужчин и 2 женщин, как я могу получить распределение мужчин и женщин в наборе данных?

Я новичок в R, если вы можете дать код!

Спасибо в продвижении.

+1

отправьте образец своих данных, пожалуйста. –

+0

^^^ это - 'head (ped)' – Nishanth

+0

, пожалуйста, дайте мне индексы –

ответ

2

Поскольку вы новичок в R, я бы предложил сначала изучить Excel. Операции, о которых вы просите, довольно просты и могут быть выполнены в Excel.

Если вы хотите использовать R затем посмотреть в data.frame индексации, Подменю и т.д.

Если вы знакомы с SQL, смотрите, чтобы sqldf package

Количество семей:

numFamilies <- length(unique(ped[,1])) 

Количество самцов & самок:

numMales <- sum(ped[,3] == 1) 
numFemales <- sum(ped[,3] == 2) 
+0

Какая связь между SQL и R? !! –

+1

Многие люди, знакомые с синтаксисом R, знакомы с интерфейсом sql. выбирать, считать, группировать и т. д. Вы можете запросить объект data.frame с помощью пакета sqldf. – Nishanth

+0

@ e4e5f4: не обязательно. – Metrics

2

Попытайтесь использовать это для ознакомления с данными:

For family: 
table(ped[,1]) 

For sex: 
table(ped[,3]) 
Смежные вопросы