действительно понравится!Подсчеты и длины символов для отдельных столбцов в большом информационном кадре
У меня есть dataframe, это 400000 obs на 12 переменных (столбцов) с буквенно-цифровой информацией. Чтобы упростить, скажем, это два столбца в кадре данных. Col1 = A, B, A, C, E, A, B, C Col2 = AAAA, BB, CCCCCC, AAA, BB, CC, AAAA, BB, CCCCCC
Want выход, который создает среднее значение длины всех значений (например, «AAAA» = длина равно 4) в столбце 2 для каждого значения столбца 1. Пример: для значения «a» в col1 выход будет равен 4 (AAAA = 4; CCCCCC = 6, CC = 2, среднее значение = 4).
Хочет выход, который дает мне количество раз конкретное значение в седловине 2 существует в целом набор данных - но хочет это subsetted значений столбца 1.
Спасибо за все ваши Помогите!
@Nina Спасибо за ваш комментарий. После публикации моего предложения я подумал, что использование 'nchar' будет. 'mutate (mydf, num = nchar (Col2))'. Что касается вашего вопроса о статистике, я не уверен, как выглядят ваши фактические данные. Поэтому я боюсь, что не могу ответить. – jazzurro
Спасибо! Первое решение работало хорошо! Удивление, если вы знаете, как я могу добавить некоторые статистические данные с этим средним значением - так что получите среднее значение t-test, стандартное отклонение и т. Д. Для каждого среднего значения. Второе решение хорошо работает! Я пытаюсь сортировать по df, который генерирует код счета, и я продолжаю получать странные вещи. Ex. я сделал > count = count (set, Col1, Col2) > sortedcount = count [order ("Col2")] Это дало мне только Col2 и оформлено в заказе. Это дало мне только одну строку целого df. sortedcount = count [order ("Col2"),] Я знаю, что это должно быть так просто, но просто не может понять, как это сделать! – Nina
@Nina Прошу прощения за этот поздний ответ. У меня не было времени посвятить себя SO в течение нескольких дней. Что касается второй части, вы можете использовать 'arr()' from 'dplyr'. Не могли бы вы попробовать следующее? 'count (mydf, Col1, Col2)%>% ungroup%>% arr (Col2)' – jazzurro