Хотелось бы в числе прочего scikit узнать список, у кого есть списки. Я иду на путь, где у меня есть учебные тексты, я читал их, а затем я получаю что-то вроде этого:Как я могу векторизовать следующий список списков с помощью scikit?
corpus = [["this is spam, 'SPAM'"],["this is ham, 'HAM'"],["this is nothing, 'NOTHING'"]]
from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer(analyzer='word')
vect_representation= vect.fit_transform(corpus)
print vect_representation.toarray()
И я получаю следующее:
return lambda x: strip_accents(x.lower())
AttributeError: 'list' object has no attribute 'lower'
Также проблема с этим являются метки в конце каждого документа, как мне обращаться с ними, чтобы сделать правильную классификацию ?.
Просто прочитал ваш пост потому что у меня была аналогичная проблема. Моя ошибка: corpus не должен быть списком списка, это должен быть список строк, например: corpus = ["this is spam", "this ham", ...] – user3813234