Я работаю над программой тегов Python NLTK. Мой входной файл - это текст хинди, содержащий несколько строк. В вопросе выделения текста и использования pos_tag вывод, который я получаю, имеет только тег NN. , но с английским предложением в качестве ввода он делает правильную маркировку. Просьба помочь. версия - Python 3.4.1, с NLTK 3,0 документацияUnicode Tagging in Python NLTK
Пожалуйста, помогите! вот что я пробовал.
word_to_be_tagged = u "ताजो स्वास आनी चकचकीत दांत तुमचें व्यक्तीमत्व परजळायतात."
from nltk.corpus import indian
train_data = indian.tagged_sents('hindi.pos')[:300]
test_data = indian.tagged_sents('hindi.pos')[301:]
print(word_to_be_tagged)
print (train_data)
и выход я получаю отличается.
ताजो स्वास आनी चकचकीत दांत तुमचें व्यक्तीमत्व परजळायतात.
[[('पूर्ण', 'JJ'), ('प्रतिबंध', 'NN'), ('हटाओ', 'VFM'), (':', 'SYM'), ('इराक', 'NNP')], [('संयुक्त', 'NNC'), ('राष्ट्र', 'NN'), ('।', 'SYM')], ...]
Мой код - для ввода в виде одного предложения 'импорт NLTK s = NLTK .pos_tag (nltk.word_tokenize ("ताजो स्वास आनी चकचकीत दांत तुमचें व्यक्तीमत्व परजळायतात.")) print (s) ' Выход - >>> [('ताजो', 'NN'), ('स्वास', 'NN'), ('आनी', 'NN'), ('चकचकीत', 'NN'), ('दांत', 'NN'), ('तुमचें', 'NN'), ('व्यक्तीमत्व', 'NN'), ('परजळायतात', 'NN'), ('.', '.')]] – ASHAY