Термины основаны на общем смысле слов «лемма» и «синоним».
A lemma является версией слова wordnet в словаре: слово в канонической форме с одним значением. Например, если вы хотите найти «банки» в словаре, каноническая форма будет «банком», и будут существовать отдельные леммы для существительных, означающих «финансовое учреждение» и «сторона реки», отдельное для глагол «в банк» и т. д.
Термин synset означает «набор синонимов». Набор синонимов представляет собой набор слов со схожим значением, например. судно, лодка, каноэ, байдарки все могут быть синонимами для boat. В nltk a synset
представляет собой набор лемм со связанным значением. Берет пример (результаты wn.synsets("cake")
и wn.lemmas("cake")
), мы можем написать:
>>> synsets[0]
Synset('cake.n.01')
>>> synsets[0].lemmas()
[Lemma('cake.n.01.cake'), Lemma('cake.n.01.bar')]
Это Лемма, составляющие первый synset данный для «пироги».
Wordnet предоставляет множество методов, которые позволяют вам исследовать отношения, такие как гиперним/hyponyms, домены использования и многое другое. Для получения дополнительной информации вы должны посмотреть прямо в документации Wordnet; nltk просто предоставляет интерфейс для него. Вот Wordnet glossary.