2013-12-23 5 views
4

Я использую WordNet, доступ через NLTK Python для сравнения synsets слов из социальных сетей. Многие из этих слов не входят в версию WordNet, к которой подключается NLTK.Добавить слова в локальную копию WordNet

Когда я говорю I слова Я имею в виду термины, относящиеся к домену, а не аббревиатуры или смайлики.

Я составил список этих слов и хотел бы объединить этот список с WordNet.

В поисках попыток предпринимать попытки поиска методов автоматического обновления WordNet.

шаги я представляю себе являются:

  1. Клонирование WordNet дб
  2. Написать расширение модуля WordNet, который выглядит для локальной копии
  3. Update, что локальная копия.

Насколько разумно это звучит?

+0

Какие «функции» вам нужны из wordnet? вам нужны только гипернимки или гипонимы или идентификаторы? – alvas

+0

Я хочу рассчитать сходство пути, и поэтому мне нужны гипернимки и гипонимы. – mac389

+1

Просмотр http://nltk.googlecode.com/svn-/trunk/doc/api/nltk.corpus.reader.wordnet-pysrc.html#WordNetCorpusReader. Сначала узнайте, где сохранен ваш каталог nltk_data, 'nltk.corpus.wordnet.root'. Затем перейдите в каталог и посмотрите, как выглядят структуры файлов, и добавьте новые синтезаторы в структуру. Это выглядит довольно сложно: = ( – alvas

ответ

1

Я еще не изменил WordNet, но у меня были хорошие впечатления от работы с Multilingual Central Repository, и я считаю, что вы должны быть способны делать то, что хотите.

Он содержит файлы данных для WordNet 3.0 на нескольких языках, включая английский, которые были связаны друг с другом через так называемые Inter-Lingual Indexes (ILI). Файлы данных могут быть загружены в таблицы базы данных MySQL или PostgreSQL, и с этого момента было бы относительно легко не просто запросить его с помощью команд SQL, но и вставить новые элементы, поддерживая соответствие между таблицами. Вы также можете экспортировать измененную базу данных, например. в CSV-файлы, если использование SQL недостаточно для ваших целей.

Смежные вопросы