Синтаксический текст в кортеже

-3

У меня есть кортеж, содержащий сообщения в блоге, который выглядит примерно так:Синтаксический текст в кортеже

[('category1', 'blablablabla'), ('Category2', 'bla bla bla'), ('category1', 'blabla')].

Теперь мне нужно, чтобы получить наиболее частые слова в каждой категории от этого, однако я не могу токенизировать слова без потери категорий. Стандартные способы tokenize fail на кортеже, я использовал парсер из nltk и .split(), но оба они не работают для кортежа. Может ли кто-нибудь помочь?

источник

2013-04-27 Shifu

Предполагая, что у вас есть функция, которая возвращает tokenize лексемы, когда дана строка:

for cat, text in tuples: 
    tokenized = tokenize(text) 
    # now do whatever you want with the category and the tokenized text

источник

2013-04-27 14:38:25

Синтаксический текст в кортеже

ответ

Смежные вопросы