У меня есть кортеж, содержащий сообщения в блоге, который выглядит примерно так:Синтаксический текст в кортеже
[('category1', 'blablablabla'), ('Category2', 'bla bla bla'), ('category1', 'blabla')].
Теперь мне нужно, чтобы получить наиболее частые слова в каждой категории от этого, однако я не могу токенизировать слова без потери категорий. Стандартные способы tokenize fail на кортеже, я использовал парсер из nltk и .split(), но оба они не работают для кортежа. Может ли кто-нибудь помочь?