Бюро переписи США имеет three lists генерируется из 1990 переписи:
(Они имеют те же считается, что из другого ответа, что ссылки на deron.meranda.us)
Цитирование по ссылке выше:
Каждый из трех файлов (dist.all.last), (dist. male.first) и (dist female.first) содержит четыре элемента данных. Эти четыре элемента:
A «Имя» Частота в процентах накопленной частоте в процентах Ранга В файл (dist.all.last) одна записи выглядит следующим образом:
MOORE 0.312 5.312 9
В нашей выборке района поиска, MOORE занимает 9-е место по частоте. 5,312% населения выборки покрыто MOORE, а 8 имен чаще встречаются , чем MOORE. Фамилия, MOORE, имеет 0,312 процентов нашей выборки населения.
погуглить вокруг, кажется, эти данные были уточнены в единый список 5163 записей (link 1, link 2), в format:
<namestyle> <first/last indicator> <name>
код
Namestyle:
- MF: используется как мужчина или женщина
- MO: используется в качестве мужчины только
- FO: используется в качестве только для женщин
Первый/Последний показатель:
- LY: Используется в качестве фамилии
- LN: Не используется в качестве последнего имя
Eg:
MF LY AARON
FO LY ABBEY
FO LN ABBIE
FO LY ABBY
UPDATE 1: Немного не по теме от оригинального поста, но это может быть полезным для других, находящих это. Если вы ищете что-то более активное (не только имена людей, но и пол многих существительных и фраз), вы можете посмотреть на корпус, созданный Шейном Бергсмой и Декангом Лином. The data is available as a single gzip file от the CoNLL shared task.
ОБНОВЛЕНИЕ 2: www.census.gov реструктурировал свой сайт, поэтому я обновил ссылки, чтобы отразить новые местоположения файлов.
ОБНОВЛЕНИЕ 3: www.census.gov также имеет survey from 2000 для фамилий, происходящих в 100 или более раз, содержащих в общей сложности 151,671 имен (direct link to zip).
Это прекрасный пример того, как некоторые из наиболее полезных вопросов в StackOverflow закрыты, потому что они не подходят аккуратно в протоколы модерации SO. Спасибо всем за вопрос и экономящие время ответы! – rinogo