2017-02-14 2 views
5

Я пытаюсь понять форматы файлов WordNet, а основными документами являются WNDB и WNINPUT. Как я понял в WNDB, есть файлы, называемые index.something и data.something, где это something может быть noun, adv, vrb, adj.Что такое файлы лексикографа WordNet? Понимание того, как работает WordNet

Так что, если я хочу знать кое-что о слове dog как noun, я смотрел в index.noun, поиск слова dog, что дает мне строку:

dog n 7 5 @ ~ #m #p %p 7 1 02086723 10133978 10042764 09905672 07692347 03907626 02712903 

Согласно WNDB documment, эта линия представляет эти данные:

lemma pos synset_cnt p_cnt [ptr_symbol...] sense_cnt tagsense_cnt synset_offset [synset_offset...] 

Где lemma слово, pos является идентификатором, который говорит, что это существительное, synset_cnt рассказывает нам, сколько синсетов это слово включено, p_cnt сообщает нам, сколько указателей на эти синтезаты у нас есть, [ptr_symbol] - это массив указателей, sense_cnt и tagsense_cnt Я не понял и хотел бы получить объяснение, а synset_offset - это один или больше synsets следует искать в data.noun файл

Ok, так что я знаю, эти указатели указывают на то, а вот их описание, как написано в WNINPUT:

@ Hypernym 
~ Hyponym 
#m Member holonym 
#p Part holonym 
%p Part meronym 

Я не знаю, как найти a Hypernym для этого существительного, но давайте продолжим:

Другие важные данные являются synset_offset s, которые являются:

02086723 10133978 10042764 09905672 07692347 03907626 02712903 

Давайте посмотрим на первый, 02086723 в data.noun:

02086723 05 n 03 dog 0 domestic_dog 0 Canis_familiaris 0 023 @ 02085998 n 0000 @ 01320032 n 0000 #m 02086515 n 0000 #m 08011383 n 0000 ~ 01325095 n 0000 ~ 02087384 n 0000 ~ 02087513 n 0000 ~ 02087924 n 0000 ~ 02088026 n 0000 ~ 02089774 n 0000 ~ 02106058 n 0000 ~ 02112993 n 0000 ~ 02113458 n 0000 ~ 02113610 n 0000 ~ 02113781 n 0000 ~ 02113929 n 0000 ~ 02114152 n 0000 ~ 02114278 n 0000 ~ 02115149 n 0000 ~ 02115478 n 0000 ~ 02115987 n 0000 ~ 02116630 n 0000 %p 02161498 n 0000 | a member of the genus Canis (probably descended from the common wolf) that has been domesticated by man since prehistoric times; occurs in many breeds; "the dog barked all night" 

Как вы можете видеть, мы нашли строка, начинающаяся с 02086723.Содержимое этой линии описаны в WNDB как:

synset_offset lex_filenum ss_type w_cnt word lex_id [word lex_id...] p_cnt [ptr...] [frames...] | gloss 

synset_offset мы уже знаем,

lex_filenum говорит, в каком из файла лексикографов наше слово (это та часть, что я не понимаю большинство),

ss_type является n, который говорит нам, что это существительное,

w_cnt: две цифры шестнадцатеричное целое число, указывающее количество слов в synset, который в данном случае является 03, что означает, что мы имеем 3 слова в этом synset: dog 0 domestic_dog 0 Canis_familiaris 0, каждый из которых следует число называется:

lex_id: одна цифра шестнадцатеричное целое, что, когда добавляется на лемму, однозначно определяет смысл в лексикограф файл

p_cnt: counts the number of pointers, which in our case is `023`, so we have 23 pointers, wow 

После p_cnt, затем приходит указатели, каждый из которых в формате:

pointer_symbol synset_offset pos source/target 

Где pointer_symbol о символах, как те, которые я показал (@, ~, ...),

synset_offset: это смещение байта целевой synset в файле данных, соответствующий pos

source/target: поле различает лексические и семантические указатели. Это поле с четырьмя байтами, содержащее два двухзначных шестнадцатеричных числа. Первые две цифры указывают номер слова в текущем (исходном) синхронисте, последние две цифры указывают номер слова в целевом синхронизируемом сигнале. Значение 0000 означает, что pointer_symbol представляет собой семантическую связь между текущей (исходной) синхронизацией и целевой синхронизацией, указанной synset_offset.

Итак, давайте рассмотрим первый указатель:

@ 02085998 n 0000 

Это указатель с символом @, указывая на это Hypernym, и указывает на synset wiuth смещения 02085998 типа n (существительное), и source/target является 0000

Когда я искать в data.noun, я получаю

02085998 05 n 02 canine 0 canid 0 011 @ 02077948 n 0000 #m 02085690 n 0000 + 02688440 a 0101 ~ 02086324 n 0000 ~ 02086723 n 0000 ~ 02116752 n 0000 ~ 02117748 n 0000 ~ 02117987 n 0000 ~ 02119787 n 0000 ~ 02120985 n 0000 %p 02442560 n 0000 | any of various fissiped mammals with nonretractile claws and typically long muzzles 

, который является Hypernym от dog. Так вот как вы находите отношения между синтезами. Я предполагаю, что символы указателя в строке для собаки были только для того, чтобы сообщить, какие типы отношений я мог бы найти для слова «собака»? Разве это не избыточно? Поскольку эти символы указателя уже находятся в каждом из synset_offsets, как мы видели. Когда мы смотрим на каждый synset_offset в data.noun, мы можем видеть эти символы указателя, поэтому зачем они нужны в файле index.noun?

Также см., Что я вообще не использовал файл лексикографов. Я знаю, что в data.noun, в частности в поле lex_filenum, я могу узнать, где находится структура данных для dog, но Что это за структура для?Как вы можете видеть, я мог бы найти hypernym, и многие другие отношения, просто посмотрев на index и data файлов, я не использовал какой-либо из так называемых лексикограф файлов

+0

Очень хороший вопрос! – alvas

+1

@alvas спасибо, я пытался сделать его информативным, чтобы люди могли его найти и понять, как работает wordnet, мне было трудно, не было никаких документов, кроме официальной документации, слишком сложной. Я пишу что-то, чтобы разобрать wordnet на другие языки, следите за обновлениями :) –

+0

О, не воссоздавайте колесо, если это не нужно или не весело. Посмотрите на реализации, уже доступные в 'nltk' (https://github.com/nltk/nltk/blob/develop/nltk/corpus/reader/wordnet.py) или http://projects.csail.mit.edu/jwi/ – alvas

ответ

0

Да, документация Wordnet довольно трудно читать ...

Вы ищете эту страницу: https://wordnet.princeton.edu/wordnet/man/lexnames.5WN.html

во время synsets развития Wordnet организованы в сорок пять лексикограф файлов на основе синтаксической категории и логические группы

Эти группировки представляют собой своего рода параллельные кластеры (плоские группировки) для гипергипонимов иерархической онтологии.

Короче:

Из документов:

File Format [из лексикограф файлов в WordNet-3.0/dict/]

Каждая строка в lexnames содержит 3 вкладки разделенных полей и завершается символом новой строки. Первое поле - это двухзначный десятичный целочисленный номер файла. (Первый файл в списке пронумерован 00.) Второе поле - это имя файла лексикографа, которое представлено этим числом, а третье поле - целое число, которое указывает синтаксическую категорию синхронизаций, содержащихся в файле. Это просто ярлык для программ и скриптов, поскольку синтаксическая категория также является частью имени файла лексикографа.

В объяснении непрофессионала (меня):

Это просто стандарт, как вы должны присвоить значения для 2-го столбца в файлах, например, data.nouns, data.verbs, и т. Д.

Традиционно создатели/сопровождающие Wordnet должны называть свои файлы соответствующим образом, но иногда проще просто соединить все существительные и использовать индекс, обозначающий категорию synset.

Рекомендации по категориям следующим образом:

File Number Name Contents 
00 adj.all all adjective clusters 
01 adj.pert relational adjectives (pertainyms) 
02 adv.all all adverbs 
03 noun.Tops unique beginner for nouns 
04 noun.act nouns denoting acts or actions 
05 noun.animal nouns denoting animals 
06 noun.artifact nouns denoting man-made objects 
07 noun.attribute nouns denoting attributes of people and objects 
08 noun.body nouns denoting body parts 
09 noun.cognition nouns denoting cognitive processes and contents 
10 noun.communication nouns denoting communicative processes and contents 
11 noun.event nouns denoting natural events 
12 noun.feeling nouns denoting feelings and emotions 
13 noun.food nouns denoting foods and drinks 
14 noun.group nouns denoting groupings of people or objects 
15 noun.location nouns denoting spatial position 
16 noun.motive nouns denoting goals 
17 noun.object nouns denoting natural objects (not man-made) 
18 noun.person nouns denoting people 
19 noun.phenomenon nouns denoting natural phenomena 
20 noun.plant nouns denoting plants 
21 noun.possession nouns denoting possession and transfer of possession 
22 noun.process nouns denoting natural processes 
23 noun.quantity nouns denoting quantities and units of measure 
24 noun.relation nouns denoting relations between people or things or ideas 
25 noun.shape nouns denoting two and three dimensional shapes 
26 noun.state nouns denoting stable states of affairs 
27 noun.substance nouns denoting substances 
28 noun.time nouns denoting time and temporal relations 
29 verb.body verbs of grooming, dressing and bodily care 
30 verb.change verbs of size, temperature change, intensifying, etc. 
31 verb.cognition verbs of thinking, judging, analyzing, doubting 
32 verb.communication verbs of telling, asking, ordering, singing 
33 verb.competition verbs of fighting, athletic activities 
34 verb.consumption verbs of eating and drinking 
35 verb.contact verbs of touching, hitting, tying, digging 
36 verb.creation verbs of sewing, baking, painting, performing 
37 verb.emotion verbs of feeling 
38 verb.motion verbs of walking, flying, swimming 
39 verb.perception verbs of seeing, hearing, feeling 
40 verb.possession verbs of buying, selling, owning 
41 verb.social verbs of political and social activities and events 
42 verb.stative verbs of being, having, spatial relations 
43 verb.weather verbs of raining, snowing, thawing, thundering 
44 adj.ppl participial adjectives 

Так, например, в WordNet-3.0/dict/data.noun, мы видим строки:

00034213 03 n 01 phenomenon 0 008 @ 00029677 n 0000 ~ 11408559 n 0000 ~ 11408733 n 0000 ~ 11408914 n 0000 ~ 11410625 n 0000 ~ 11418138 n 0000 ~ 11418460 n 0000 ~ 11529295 n 0000 | any state or process known through the senses rather than by intuition or reasoning 
00034479 04 n 01 thing 0 001 @ 00037396 n 0000 | an action; "how could you do such a thing?" 

Посмотрите на 2-м столбце, для phenomenon значение является 03, который указывает на noun.Tops.

Для thing оно имеет значение 04, которое относится к noun.act.


IMHO, в зависимости от использования, эти присвоения могут быть непригодными. Они в основном используются при создании wordnet и как мы можем легко сгладить онтологические иерархии в простые плоские кластеры.

+0

Спасибо. Да, но что важно посмотреть в этих файлах? Например, я знаю, что для поиска гиперним, эти файлы не нужны. В таком случае мне нужно будет посмотреть на них? –

+0

Эти группировки представляют собой своего рода параллельные кластеры (плоские групповые записи) для гипергипонимов иерархической онтологии. Это может быть или не быть полезным. Представьте себе, что это дополнительные знания на вершине гипергипоничной онтологии. – alvas

+0

Эти группировки используются для создания wordnet, пользователи wordnet не должны беспокоиться об этом, если они находят эту группировку бесполезной. – alvas

1

В этой информации полезно отношение, которое существует между ними и (иногда), тип информации. Все используют Wordnet! Некоторые даже связывают его с нотами RDF. Но ... Я использовал Wordnet несколько лет назад, так как я хотел построить гиперссылку слов, их суперкласс (ы) и подкласс (ы), плюс несколько других типов отношений, которые отсутствуют в WN, у меня было чтобы удалить Wordnet и его жаргон. Мне нужна была «менее упрощенная» организация «реального мира». Я придумал свой собственный, со смесью Викисловаря, множество регулярных выражений, некоторые YAGO, несколько других онтологий, которые позволяют мне создавать иерархии и другие отношения, некоторые ML. Я также рассмотрел классификацию Роджера Шенка, тезаурус Рогета и различные попытки идентифицировать и классифицировать (типологии) концепции, такие как Wierzbicka's и другие. Если вам нужно что-то серьезное, дий.

Смежные вопросы