2012-05-22 2 views
0

Итак, я делаю интерактивный магнит «холодильник», и я пытался выяснить действительный набор данных для слов, которые нужно перетащить.Набор данных для общих слов для построения базовых предложений

Я использую этот набор данных .. но это не так уж велико

http://en.wikipedia.org/wiki/Most_common_words_in_English

и идеи, где найти более правильный набор слов

+0

[google знает более общие английские слова] (https://www.google.com/webhp?sourceid=chrome-instant&ie=UTF-8&ion=1#hl=ru&sclient=psy-ab&q=common%20english%20word% 20list & OQ = & водно = & AQI = & аклы = & gs_l = & = 1 PBX & Fp = 3ea52b9c0e6750ee & ион = 1 & БАВ = on.2, or.r_gc.r_pw.r_cp.r_qf., cf.osb & BIW = +1538 & БиГ = 761). – Xeoncross

ответ

2

Одним из способов вы можете сделать это само это загрузить текст текста, а затем запустить скрипт, который подсчитывает количество каждых отображаемых слов. Затем выберите некоторое значение N и разделите все кол-во на N (округление). Для каждого слова сделайте магнит для каждого разделенного счета. Вы должны выбрать N, исходя из того, сколько магнитов вы хотите в конце.

Это имеет то преимущество, что распределение магнитов соответствует распределению слов. Например, если «the» появляется в 1000 раз, «человек» 320 раз, «ходит» 150 раз и «проскакивает» 2 раза, и вы выбираете N, чтобы быть 100, тогда вы получите 10 " магниты, 3 «человека», 1 «прогулки» и 0 «пропуски».

Возможно, вы также захотите взять логарифм счетчиков, чтобы попытаться уменьшить косы. Поскольку распределения слов составляют Zipfian, вы можете в конечном итоге получить тысячи «магнитов» для каждой «прогулки»).

Наконец, приятная вещь об этом подходе заключается в том, что вы можете запустить его в определенном домене, чтобы создать магнит слова для этого домена. Например, если вы хотите, чтобы словарные магниты звучали как новостные сюжеты, запустите их на корпусе новостей. Если вы хотите, чтобы словарные магниты звучали как сказки, тогда запустите их на корпусе сказок.

Если вы действительно хотите получить фантазию, вы можете использовать что-то вроде TF-IDF, чтобы выбрать слова, которые являются наиболее типичными для этого домена, а затем смешивать их с обычными функциональными словами.