2013-04-27 3 views
-3

У меня есть кортеж, содержащий сообщения в блоге, который выглядит примерно так:Синтаксический текст в кортеже

[('category1', 'blablablabla'), ('Category2', 'bla bla bla'), ('category1', 'blabla')]. 

Теперь мне нужно, чтобы получить наиболее частые слова в каждой категории от этого, однако я не могу токенизировать слова без потери категорий. Стандартные способы tokenize fail на кортеже, я использовал парсер из nltk и .split(), но оба они не работают для кортежа. Может ли кто-нибудь помочь?

ответ

3

Предполагая, что у вас есть функция, которая возвращает tokenize лексемы, когда дана строка:

for cat, text in tuples: 
    tokenized = tokenize(text) 
    # now do whatever you want with the category and the tokenized text 
Смежные вопросы