2009-11-26 3 views
120

мне нужно иметь длинный список людей имен («Роберт», «Джениффер», «Эндрю», и т.д.)Сырого списка имен человека

Как долго? 100 будет вроде хорошо, но тысячи будут лучше.

Я бы хотел, чтобы он был сырым, а не на веб-странице HTML или что-то в этом роде, поэтому я могу легко импортировать его в свой код.

+1

Это прекрасный пример того, как некоторые из наиболее полезных вопросов в StackOverflow закрыты, потому что они не подходят аккуратно в протоколы модерации SO. Спасибо всем за вопрос и экономящие время ответы! – rinogo

ответ

161

Для форматирования это красиво:

$ curl http://deron.meranda.us/data/census-dist-female-first.txt | \ 
    awk '{print $1}' 
+2

большое вам спасибо! –

104

Бюро переписи США имеет three lists генерируется из 1990 переписи:

(Они имеют те же считается, что из другого ответа, что ссылки на deron.meranda.us)

Цитирование по ссылке выше:

Каждый из трех файлов (dist.all.last), (dist. male.first) и (dist female.first) содержит четыре элемента данных. Эти четыре элемента:

A «Имя» Частота в процентах накопленной частоте в процентах Ранга В файл (dist.all.last) одна записи выглядит следующим образом:

MOORE  0.312  5.312  9 

В нашей выборке района поиска, MOORE занимает 9-е место по частоте. 5,312% населения выборки покрыто MOORE, а 8 имен чаще встречаются , чем MOORE. Фамилия, MOORE, имеет 0,312 процентов нашей выборки населения.

погуглить вокруг, кажется, эти данные были уточнены в единый список 5163 записей (link 1, link 2), в format:

<namestyle> <first/last indicator> <name> 
код

Namestyle:

  • MF: используется как мужчина или женщина
  • MO: используется в качестве мужчины только
  • FO: используется в качестве только для женщин

Первый/Последний показатель:

  • LY: Используется в качестве фамилии
  • LN: Не используется в качестве последнего имя

Eg:

MF LY AARON 
    FO LY ABBEY 
    FO LN ABBIE 
    FO LY ABBY 

UPDATE 1: Немного не по теме от оригинального поста, но это может быть полезным для других, находящих это. Если вы ищете что-то более активное (не только имена людей, но и пол многих существительных и фраз), вы можете посмотреть на корпус, созданный Шейном Бергсмой и Декангом Лином. The data is available as a single gzip file от the CoNLL shared task.

ОБНОВЛЕНИЕ 2: www.census.gov реструктурировал свой сайт, поэтому я обновил ссылки, чтобы отразить новые местоположения файлов.

ОБНОВЛЕНИЕ 3: www.census.gov также имеет survey from 2000 для фамилий, происходящих в 100 или более раз, содержащих в общей сложности 151,671 имен (direct link to zip).

+2

неработающая ссылка есть ли новый список на 2012 год? – chovy

+1

Упоминается в обновлении с некоторого времени назад, но ссылки были исправлены. –

+0

Отличный ресурс, просто работа по очистке и извлечению этих фамилий ... –

0

Каталог Vettrasoft Z в качестве части своего набора геоданных содержит таблицу «first_names» , которая имеет название, любую короткую форму или альтернативные варианты написания (например, Angela/Angie, Daniel - Dan - Danny), секс (M/F/B /?; B - оба и? Означает неизвестный). Таблица имеет 12 779 записей и в виде файла находится в формате .unl (| -сепарализованные поля). Наряду с именами, набор данных включает в себя аэропорты (8 200 записей), коды областей, страны, почтовые (aka zip) коды, состояния, часовые пояса и многое другое. Данные поступают как интегрированный пакет вместе с библиотекой o-o, которая имеет подпрограммы, которые обращаются к этим данным. В случае первых имен вы можете написать C++ код следующим образом:

main() 
{ 
    person_o p = "Daniel Boone"; 
    p.store_add(); 
} 

который сэкономит Daniel Boone в базу данных (реализованного в настоящее время: MySQL и SQL Server). Объект person будет использовать таблицу DB первого_names для автоматического поиска пола, связанного с «Daniel», и записать его как «M» (а также разбор имени, сохранение «Daniel» в столбце first_name и «Boone» до фамилия столбца). Каталог Z работает аналогичным образом для сохранения и поиска других объектов домена человека, таких как предприятия, сотрудники, адреса электронной почты, номера телефонов и т. Д.

16

это Prolly слишком поздно для оригинального плаката, но может быть полезно для искателей ... здесь: http://www.ssa.gov/OACT/babynames/limits.html

загружаемое текстовый файл, в котором перечислены все имена, год рождения вплоть до имен, по крайней мере, Было дано 5 детей, поэтому у него есть тонна данных.

1

функция поможет вам извлечь алфавитов из буквенно-цифровой строки

Dim input As String = "SMITH 1.006 1.006 1" 
     Dim output As String = New String((From c As Char In input Select c Where   Char.IsLetter(c)).ToArray()) 
     MsgBox(output) 

выход будет: SMITH

Благодаря: https://stackoverflow.com/users/1842065/bj%C3%B8rn-roger-kringsj%C3%A5

17

Checkout моих имен наборов данных, которые я сделал для исследования NLP. Все имена были извлечены из общедоступных источников. http://mbejda.github.io Все они - формат CSV.

(Отказ от ответственности: я их сделал).

+0

Это было очень полезно. – AHungerArtist

+0

Ничего себе, очень впечатляюще, список профессий будет очень полезен в следующем проекте: https://gist.github.com/mbejda/f08bd3348afad3f06ac1 – Dorian

+1

Невероятно! спасибо – bashis

Смежные вопросы