2009-11-08 2 views
6

Например,Имеет ли WordNet «уровни»? (НЛП)

Куриное мясо .
Burrito - food.

WordNet позволяет вам выполнять «is-a» ... функцию hiearchy.

Однако, как я узнаю, когда нужно прекратить путешествие по дереву? Я хочу УРОВЕНЬ.
Это согласовано.

Например, если представленный кучей слов, я хочу, чтобы wordNet классифицировал их все, но на определенном уровне, поэтому он не заходит слишком далеко. Категоризация «буррито» как «вещь» слишком широка, но «мексиканская закутанная еда» слишком специфична. Я хочу подняться вверх или вниз ... до правильного УРОВНЯ.

ответ

12

WordNet - это лексикон, а не онтология, поэтому «уровни» на самом деле не применяются.

Существует SUMO, который является верхней онтологией, которая относится к WordNet, если вы хотите, чтобы направленная решетка вместо сети.

Для некоторых доменов онтология среднего уровня SUMO, вероятно, находится там, где вы хотите посмотреть, но я не уверен, что она имеет «мексиканскую закутанную пищу», поскольку большинство ее тем являются научными или инженерными.

иерархии WordNet является

beef burrito < burrito < dish/2 < victuals < food < substance < entity. 

Entity является понятие верхнего уровня, так что если вы перестанете один-ниже вещества вы получите буррито Isa пищу. Вы можете рассчитать уровень, основанный на этом, но он не обязательно будет таким же последовательным, как SUMO, или создаст собственный набор полезных концепций среднего уровня для завершения. В WordNet нет «мексиканской упакованной пищи».

+0

Большая часть SUMO - это наука или техника? Он не содержит ежедневные слова, такие как еда, люди, автомобили, рабочие места и т. Д.? – TIMEX

+0

SUMO - это верхняя онтология. Онтологии среднего уровня (где вы найдете понятия между «вещью» и «говяжьим буррито»), перечисленные на странице, не включают в себя продукты питания, но отражают виды организаций, которые финансируют проект. Для людей существует онтология среднего уровня. Существует также один для отраслей промышленности (и, следовательно, для рабочих мест), включая поставщиков продуктов питания, но не упоминается о буррито, если вы его усваиваете. –

+0

Спасибо, Пит. f – TIMEX

2

Чтобы получить уровни, вам необходимо предопределить содержание каждого уровня. Онтология часто определяет их как непосредственных детей IS_A определенной концепции, но если это отсутствует, вам нужно разработать метод этого самостоятельно.

Следующий шаг - придать приоритет каждой концепции, если вы хотите представить только одну категорию для каждого слова. Приоритет может быть выполнен несколькими способами, например, как отношение IS_A отношений между категорией и словом, или вручную выбранные приоритеты для каждой категории. Для каждого слова вы можете выбрать категорию с наивысшим приоритетом. Например, вы можете хотеть, чтобы мясо было «пищей», а не химическим веществом.

Вы также можете выбрать несколько слов, которые изменят приоритет, если они находятся на пути. Например, если вы хотите, чтобы некоторые химические вещества, которые также являются пищей, объявлялись как химические вещества, а другие все равно должны быть пищей.

5

[Пожалуйста ссылочка Пита Киркхемы, он первый пришел со ссылкой на SUMO, который вполне может ответить на вопрос, заданный Алекс, Ор]

(я просто служить дополнение информации здесь, я началось в поле комментариев, но вскоре закончилось пространство и макеты возможностей ...)

Alex: Большая часть SUMO - это наука или техника? Он не содержит ежедневные слова, такие как еда, люди, автомобили, рабочие места и т. Д.?
Pete K: SUMO - это верхняя онтология. Онтологии среднего уровня (где вы найдете понятия между «вещью» и «говяжьим буррито»), перечисленные на странице, не включают в себя продукты питания, но отражают виды организаций, которые финансируют проект. Для людей существует онтология среднего уровня. Существует также один для отраслей промышленности (и, следовательно, для рабочих мест), включая поставщиков продуктов питания, но не упоминается о буррито, если вы grep его.

Мои два цента
100% от WordNet (3,0, т.е. последним, а также более ранние версии) является сопоставляются сумо, и что может быть просто то, что Алекс нужно. Онтологии среднего уровня, связанные с SUMO (или, скорее, с MILO), эффективно работают в определенных областях и в настоящее время не включают Foodstuff, но поскольку WordNet делает (включая все - многие, многие из этих повседневных вещей), вы делаете не нужно использовать какую-либо формальную онтологию "под" SUMO ", но вместо этого использовать сопоставление WordNet Сумо (возможно, помимо WordNet, которое, опять же, не является онтологией, но с ее неформальной и свободной иерархией) также может помочь.

некоторые трудности могут возникнуть, однако, из двух области (а затем некоторые ;-)):

  • «уровень» сумо онтология не может быть уровень нужно иметь в виду для вашего конкретного применения. К примеру в то время как «буррито» приносит «Food», на верхнем уровне в SUMO «Chicken» приносит хорошо «Chicken», который только через длинную цепочку находит «Animal» (в частности: куриное > Poultry-> птица,> Warm_Blooded_Vertebrae-> Vertebrae-> Animal).
  • Покрытие и метаданные Wordnet впечатляют, но в отношении концепций среднего уровня может быть немного непоследовательным. Например, «наш» гиперним «Burrito» соответствует «Блюдо», которое предоставляет ему около 140 блюд для еды, в которые входят дженерики, такие как «Суп» или «Кастрюля», а также «Куриный Маренго» (но, не говоря о «Chicken Cacciatore»)

Моя точка, в результате чего эти вопросы, не критиковать WordNet или SUMO и связанных онтологий, а для иллюстрации просто некоторые из проблем, связанных с построением онтологии, особенно на среднем уровне.

Независимо от некоторых возможных недостатков и lackings раствора на основе SUMO и WordNet, прагматическое использование этих структур вполне может «приспосабливать счет» (85% времени) hypernym дерево

+0

Благодарим за разъяснения.Если бы моя цель состояла в том, чтобы отсканировать документ и посмотреть, какую пищу, работу, хобби, интересы у этого человека ... как бы вы посоветовали мне это сделать? Было бы лучше всего найти словарный список «еды» и словарный список «хобби» и «спорт»? Какой самый практичный способ сделать это? – TIMEX

+0

@Alex: Поскольку вы нацеливаете относительно немного доменов, я бы подумал о разработке ваших собственных лексиконов. Вы можете «заправлять» их, извлекая их из карты SUMO Wordnet или аналогичных источников. Возможно, вам также понадобится создать список названных объектов (таких как художники, спортсмены, города, конкретные места и т. Д.). Хотя создание таких списков не является недорогим, вы обнаружите, что результирующий уменьшенный домен допускает много логики/эвристики sloppier для аналогичной (или, как правило, более высокой) точности и отзыва в разделе. – mjv

0

Wordnet заканчивается с одиночный корень для слова «сущность». Если вы используете библиотеку C Word Word, вы можете получить рекурсивную структуру для предков synset, используя traceptrs_ds, и вы можете получить все дерево синтаксиса рекурсивно после nextss и ptrlst указателей, пока не нажмете указатели null.

Смежные вопросы