2013-07-01 2 views
2

Прямо сейчас я пытаюсь сравнить слова из двух разных файлов, одного английского, одного китайского. Я должен определить, связано ли какое-либо из английских слов с китайскими словами, являются ли они равными или являются гипернимным другим. Я могу использовать synsets для английского, но что я могу сделать о китайских словах?NLTK synset с другими языками

ответ

1

Похоже, есть китайский (cmn) WordNet, доступный в университете на Тайване: http://casta-net.jp/~kuribayashi/multi/. Если этот WordNet имеет тот же формат, что и английский WordNet, то вы, вероятно, можете использовать WordNetCorpusReader (http://nltk.googlecode.com/svn/trunk/doc/api/nltk.corpus.reader.wordnet-pysrc.html#WordNetCorpusReader) в NLTK для импорта данных Mandarin. Я не знаю, как вы выполняете выравнивания или переводы между двумя наборами данных, но, предполагая, что вы можете сопоставить английский язык с китайским, это должно помочь вам понять, как соотношение между двумя английскими словами сравнивается с отношением между двумя словами мандарина. Обратите внимание, что если ваши данные используют упрощенный скрипт, вам также может потребоваться преобразовать в традиционный скрипт перед использованием этого cmn WordNet.

+0

; P 'Open Multilingual WordNet' - отличный ресурс для неанглийского wordnet, и если ANYONE рад кодировать API NLTK, свяжитесь с Francis Bond @ http://www3.ntu.edu.sg/home/fcbond/или Steven Bird http://ww2.cs.mu.oz.au/~sb/ or both =) – alvas

+0

Вот почему я привязан к полному списку, а не только к WordNet OP. Я должен добавить что-то, чтобы упомянуть, как онтологии, разработанные для разных языков, обычно не идентичны межлингвистически, хотя я считаю, что для определения гипотез и гипер-нима иерархическая структура может быть достаточно близка во многих случаях. – dmh

+0

возможно иметь независимые от языка доменные онтологии, но я не думаю, что hypo/hypernym hierachies являются близкими друг к другу. См. Http://goo.gl/LkN3h – alvas

Смежные вопросы