Сырого списка имен человека

120

мне нужно иметь длинный список людей имен («Роберт», «Джениффер», «Эндрю», и т.д.)Сырого списка имен человека

Как долго? 100 будет вроде хорошо, но тысячи будут лучше.

Я бы хотел, чтобы он был сырым, а не на веб-странице HTML или что-то в этом роде, поэтому я могу легко импортировать его в свой код.

источник

2009-11-26 Ram Rachum

Это прекрасный пример того, как некоторые из наиболее полезных вопросов в StackOverflow закрыты, потому что они не подходят аккуратно в протоколы модерации SO. Спасибо всем за вопрос и экономящие время ответы! – rinogo

161

http://deron.meranda.us/data/census-dist-female-first.txt (4275 записей)
http://deron.meranda.us/data/census-dist-male-first.txt (1219 записей)
мужские и женские имена в сочетании: http://deron.meranda.us/data/census-derived-all-first.txt

Для форматирования это красиво:

$ curl http://deron.meranda.us/data/census-dist-female-first.txt | \ 
    awk '{print $1}'

источник

2009-11-26 13:21:25 miku

большое вам спасибо! –

Много word lists on this page, включая несколько списков имен.

источник

2009-11-26 13:23:39

104

Бюро переписи США имеет three lists генерируется из 1990 переписи:

dist.all.last [2 Мб; 88799 записей]
dist.female.first [146k; 4275 записей]
dist.male.first [41k; 1219 записей]

(Они имеют те же считается, что из другого ответа, что ссылки на deron.meranda.us)

Цитирование по ссылке выше:

Каждый из трех файлов (dist.all.last), (dist. male.first) и (dist female.first) содержит четыре элемента данных. Эти четыре элемента:

A «Имя» Частота в процентах накопленной частоте в процентах Ранга В файл (dist.all.last) одна записи выглядит следующим образом:
MOORE  0.312  5.312  9 
В нашей выборке района поиска, MOORE занимает 9-е место по частоте. 5,312% населения выборки покрыто MOORE, а 8 имен чаще встречаются , чем MOORE. Фамилия, MOORE, имеет 0,312 процентов нашей выборки населения.

погуглить вокруг, кажется, эти данные были уточнены в единый список 5163 записей (link 1, link 2), в format:

<namestyle> <first/last indicator> <name>

код

Namestyle:

MF: используется как мужчина или женщина
MO: используется в качестве мужчины только
FO: используется в качестве только для женщин

Первый/Последний показатель:

LY: Используется в качестве фамилии
LN: Не используется в качестве последнего имя

Eg:

MF LY AARON 
    FO LY ABBEY 
    FO LN ABBIE 
    FO LY ABBY

UPDATE 1: Немного не по теме от оригинального поста, но это может быть полезным для других, находящих это. Если вы ищете что-то более активное (не только имена людей, но и пол многих существительных и фраз), вы можете посмотреть на корпус, созданный Шейном Бергсмой и Декангом Лином. The data is available as a single gzip file от the CoNLL shared task.

ОБНОВЛЕНИЕ 2: www.census.gov реструктурировал свой сайт, поэтому я обновил ссылки, чтобы отразить новые местоположения файлов.

ОБНОВЛЕНИЕ 3: www.census.gov также имеет survey from 2000 для фамилий, происходящих в 100 или более раз, содержащих в общей сложности 151,671 имен (direct link to zip).

источник

2013-01-30 17:06:19

неработающая ссылка есть ли новый список на 2012 год? – chovy

Упоминается в обновлении с некоторого времени назад, но ссылки были исправлены. –

Отличный ресурс, просто работа по очистке и извлечению этих фамилий ... –

Каталог Vettrasoft Z в качестве части своего набора геоданных содержит таблицу «first_names» , которая имеет название, любую короткую форму или альтернативные варианты написания (например, Angela/Angie, Daniel - Dan - Danny), секс (M/F/B /?; B - оба и? Означает неизвестный). Таблица имеет 12 779 записей и в виде файла находится в формате .unl (| -сепарализованные поля). Наряду с именами, набор данных включает в себя аэропорты (8 200 записей), коды областей, страны, почтовые (aka zip) коды, состояния, часовые пояса и многое другое. Данные поступают как интегрированный пакет вместе с библиотекой o-o, которая имеет подпрограммы, которые обращаются к этим данным. В случае первых имен вы можете написать C++ код следующим образом:

main() 
{ 
    person_o p = "Daniel Boone"; 
    p.store_add(); 
}

который сэкономит Daniel Boone в базу данных (реализованного в настоящее время: MySQL и SQL Server). Объект person будет использовать таблицу DB первого_names для автоматического поиска пола, связанного с «Daniel», и записать его как «M» (а также разбор имени, сохранение «Daniel» в столбце first_name и «Boone» до фамилия столбца). Каталог Z работает аналогичным образом для сохранения и поиска других объектов домена человека, таких как предприятия, сотрудники, адреса электронной почты, номера телефонов и т. Д.

источник

2013-06-11 21:29:56 user1509395

это Prolly слишком поздно для оригинального плаката, но может быть полезно для искателей ... здесь: http://www.ssa.gov/OACT/babynames/limits.html

загружаемое текстовый файл, в котором перечислены все имена, год рождения вплоть до имен, по крайней мере, Было дано 5 детей, поэтому у него есть тонна данных.

источник

2014-04-23 13:34:23

функция поможет вам извлечь алфавитов из буквенно-цифровой строки

Dim input As String = "SMITH 1.006 1.006 1" 
     Dim output As String = New String((From c As Char In input Select c Where   Char.IsLetter(c)).ToArray()) 
     MsgBox(output)

выход будет: SMITH

Благодаря: https://stackoverflow.com/users/1842065/bj%C3%B8rn-roger-kringsj%C3%A5

источник

2014-07-12 10:57:48

Checkout моих имен наборов данных, которые я сделал для исследования NLP. Все имена были извлечены из общедоступных источников. http://mbejda.github.io Все они - формат CSV.

(Отказ от ответственности: я их сделал).

источник

2015-11-03 15:56:00 mbejda

Это было очень полезно. – AHungerArtist

Ничего себе, очень впечатляюще, список профессий будет очень полезен в следующем проекте: https://gist.github.com/mbejda/f08bd3348afad3f06ac1 – Dorian

Невероятно! спасибо – bashis

Сырого списка имен человека

ответ

Смежные вопросы