Моя цель - подсчитать количество дубликатов в столбце.
Итак, у меня есть столбец 3516 об. из 1 переменной,
, все даты примерно с 144 дубликатами каждый с 1/4/16 до 7/3/16.
Пример: (я положил 1 дубликат каждого, например, саке)
1/4/16
1/4/16
31/3/16
31/3/16
30/3/16
30/3/16
29/3/16
29/3/16
28/3/16
28/3/16
поэтому я использовал функцию date = count (date)
, где date - дата моего df.
Но как только я его выполню, моя последовательность дат больше не в порядке.
Надеюсь, что кто-то может решить мою проблему.Подсчитайте количество дубликатов для столбца
ответ
Если нам нужно подсчитать общее количество дублей
sum(table(df1$date)-1)
#[1] 5
Предположим, что нам нужно отсчет каждого дня, один из вариантов было бы сгруппировать по «дате» и получить количество строк. Это можно сделать с помощью data.table
.
library(data.table)
setDT(df1)[, .N, date]
Спасибо, это то, что я ищу! –
Если вы хотите, чтобы подсчет количества дубликатов в столбце, вы можете использовать duplicated
sum(duplicated(df$V1))
#[1] 5
Предполагая V1
в качестве имени столбца.
EDIT
В соответствии с обновлением, если вы хотите, чтобы количество каждого данных, вы можете использовать функцию table
, которая даст вам точно, что
table(df$V1)
#1/4/16 28/3/16 29/3/16 30/3/16 31/3/16
# 2 2 2 2 2
Прошу прощения, если я не правильно сформулировал свой вопрос, Мой ожидаемый результат - удалить дубликат и иметь другой столбец, в котором перечислены количество дубликатов, которые были подсчитаны –
@AmosOng Привет! Благодарю. Ответ обновлен. –
Один из способов заключается в создании данных кадр с уникальными значениями ваших исходных данных, которые сохранят порядок, а затем используют left_join
из пакета dplyr
для объединения двух фреймов данных. Обратите внимание, что имя столбца должно быть одинаковым.
Initial_data <- structure(list(V1 = structure(c(1L, 1L, 5L, 5L, 4L, 4L, 3L, 3L,
2L, 2L, 2L), .Label = c("1/4/16", "28/3/16", "29/3/16", "30/3/16",
"31/3/16"), class = "factor")), .Names = "V1", class = "data.frame", row.names = c(NA,
-11L))
df1 <- unique(Initial_data)
count1 <- count(df1)
left_join(df1, count1, by = 'V1')
# V1 freq
#1 1/4/16 2
#2 31/3/16 2
#3 30/3/16 2
#4 29/3/16 2
#5 28/3/16 3
- 1. Подсчитайте количество дубликатов в массиве?
- 2. Подсчитайте количество экземпляров дубликатов R-кода
- 3. Подсчитайте количество ранее найденных дубликатов в pandas
- 4. Подсчитайте количество записей для данного столбца
- 5. Подсчитайте количество повторений для одного столбца
- 6. Подсчитайте количество дубликатов между строками excel
- 7. Подсчитайте количество вхождений одного столбца на другое значение столбца? [Oracle]
- 8. Подсчитайте количество строк для каждого столбца в фрейме данных/таблице
- 9. Отображение дубликатов и количество дубликатов
- 10. Найдите несколько дубликатов, подсчитайте количество дубликатов и индексов уникального, а также первого дубликата текста в python
- 11. Подсчитайте количество значений внешнего ключа
- 12. Подсчитайте количество растрированных фрагментов
- 13. Подсчитайте количество заказов
- 14. Подсчитайте количество смежных ящиков
- 15. Подсчитайте количество собственных дробей
- 16. Подсчитайте количество строк Lua
- 17. Подсчитайте количество запусков Программы
- 18. Подсчитайте количество пользовательских сессий
- 19. подсчитайте количество смежных прямоугольников
- 20. Подсчитайте существующее количество строк
- 21. Подсчитайте количество сеансов
- 22. Подсчитайте количество событий атрибута
- 23. Подсчитайте количество вхождений
- 24. SQL - Подсчитайте количество пропущенных
- 25. Подсчитайте количество ассоциаций
- 26. Подсчитайте количество результатов
- 27. Подсчитайте количество заказанных товаров
- 28. Подсчитайте количество разных строк?
- 29. Подсчитайте количество строкового объекта
- 30. Подсчитайте общее количество абонентов?
Каков ваш ожидаемый выход? –
Я хочу создать еще один столбец и указать номер дубликата рядом с датой. –