2016-09-04 2 views
4

Дано NLP дерево разбора, какКак разбить дерево разбора NLP на предложения (независимые и подчиненные)?

(ROOT (S (NP (PRP You)) (VP (MD could) (VP (VB say) (SBAR (IN that) (S (NP (PRP they)) (ADVP (RB regularly)) (VP (VB catch) (NP (NP (DT a) (NN shower)) (, ,) (SBAR (WHNP (WDT which)) (S (VP (VBZ adds) (PP (TO to) (NP (NP (PRP$ their) (NN exhilaration)) (CC and) (NP (FW joie) (FW de) (FW vivre))))))))))))) (. .))) 

Исходного предложение «Можно сказать, что они регулярно ловят душ, который добавляет к их взволнованности и жизнерадостности.»

Как можно было бы выделить предложения и обратить их обратно? Мы бы разделив на S и СБАР (сохранить тип пункта, например, подчиненную)

- (S (NP (PRP You)) (VP (MD could) (VP (VB say) 
- (SBAR (IN that) (S (NP (PRP they)) (ADVP (RB regularly)) (VP (VB catch) (NP (NP (DT a) (NN shower)) 
- (, ,) (SBAR (WHNP (WDT which)) (S (VP (VBZ adds) (PP (TO to) 
    (NP (NP (PRP$ their) (NN exhilaration)) (CC and) (NP (FW joie) (FW 
    de) (FW vivre))))))))))))) (. .))) 

прибыть в

- You could say 
- that they regularly catch a shower 
- , which adds to their exhilaration and joie de vivre. 

Расщепление на S и SBAR кажется очень легким. Проблема, похоже, устраняет все теги POS и фрагменты из фрагментов.

ответ

4

Вы можете использовать Tree.subtrees(). Для получения дополнительной информации проверьте NLTK Tree Class.

Код:

from nltk import Tree 

parse_str = "(ROOT (S (NP (PRP You)) (VP (MD could) (VP (VB say) (SBAR (IN that) (S (NP (PRP they)) (ADVP (RB regularly)) (VP (VB catch) (NP (NP (DT a) (NN shower)) (, ,) (SBAR (WHNP (WDT which)) (S (VP (VBZ adds) (PP (TO to) (NP (NP (PRP$ their) (NN exhilaration)) (CC and) (NP (FW joie) (FW de) (FW vivre))))))))))))) (. .)))" 
#parse_str = "(ROOT (S (SBAR (IN Though) (S (NP (PRP he)) (VP (VBD was) (ADJP (RB very) (JJ rich))))) (, ,) (NP (PRP he)) (VP (VBD was) (ADVP (RB still)) (ADJP (RB very) (JJ unhappy))) (. .)))" 

t = Tree.fromstring(parse_str) 
#print t 

subtexts = [] 
for subtree in t.subtrees(): 
    if subtree.label()=="S" or subtree.label()=="SBAR": 
     #print subtree.leaves() 
     subtexts.append(' '.join(subtree.leaves())) 
#print subtexts 

presubtexts = subtexts[:]  # ADDED IN EDIT for leftover check 

for i in reversed(range(len(subtexts)-1)): 
    subtexts[i] = subtexts[i][0:subtexts[i].index(subtexts[i+1])] 

for text in subtexts: 
    print text 

# ADDED IN EDIT - Not sure for generalized cases 
leftover = presubtexts[0][presubtexts[0].index(presubtexts[1])+len(presubtexts[1]):] 
print leftover 

Выход:

You could say 
that 
they regularly catch a shower , 
which 
adds to their exhilaration and joie de vivre 
. 
+0

Wow! Удивительно! @RAVI, ты довольно Гуру НЛП! Где я могу связаться с вами? :) – giorgio79

+0

Я заметил, что этот алгоритм терпит неудачу на некоторых синтаксических разборах, подобных этому (ROOT (S (SBAR (IN While)) (S (NP (PRP he)) (VP (VBD был) (ADJP (RB очень) (JJ rich)))()) (,,) (NP (PRP he)) (VP (VBD был) (ADVP (RB все еще)) (ADJP (RB очень) (JJ недоволен))) (...))) ' – giorgio79

+0

Обновленный ответ. – RAVI