Я работаю с набором данных, который имеет 3 миллиона строк и 1200 «групп» - назовем их «Последние имена».Python - группировка (или цикл) на основе значения столбца (или подмножества)
Вот то, что набор данных выглядит следующим образом:
LastName FirstName
Smith Rachael
Smith John
Smith Rachael
Johnson Bob
Johnson Laura
Johnson Laura
Я хочу смотреть на каждую фамилию отдельно, и сделать что-то из первых имен в каждой фамилии. Например, я могу захотеть узнать, какое первое имя является наиболее распространенным в фамилии Смита, а затем добавить это как свой собственный столбец (но на самом деле это намного сложнее, чем это). Мне нужно держать все строки неповрежденными (другими словами, мне нужно держать каждого Смита и каждого Джонсона).
LastName FirstName HighestFreq
Smith Rachael Rachael
Smith John Rachael
Smith Rachael Rachael
Johnson Bob Laura
Johnson Laura Laura
Johnson Laura Laura
Я не знаю, если это лучший способ разделить набор данных на 1200 наборов данных, а затем объединить вместе в конце или сделать какой-то цикл. Я очень новичок в Python и не смог понять, как это сделать правильно. Я вычислил код, который мне нужен, чтобы посмотреть на отдельные строки, а теперь как смотреть только на одну фамилию за раз.
Кроме того, если подмножество является наилучшим способом, мне нужно будет указать наборы в цикле, поскольку я, очевидно, не буду называть 1 200 наборов данных вручную.
Спасибо за чтение.
Я не думаю, что вам нужно создать 1200 наборов данных, но почему бы и нет. Сортировка исходного набора данных по интересующей категории всегда является хорошим началом (что может быть не тривиально, если ваш набор данных будет большим для хранения в памяти). После сортировки вы, скорее всего, удерживаете все свои значения для одной категории в переменных. –