Я использую NLTK для удаления стоп-слов из элемента списка. Вот мой фрагмент кодаУдаление стоп-слов с использованием NLTK в python
dict1 = {}
for ctr,row in enumerate(cur.fetchall()):
list1 = [row[0],row[1],row[2],row[3],row[4]]
dict1[row[0]] = list1
print ctr+1,"\n",dict1[row[0]][2]
list2 = [w for w in dict1[row[0]][3] if not w in stopwords.words('english')]
print list2
проблема, это не только удаление стоп-слов, но и его удаление символов из других слов, например из слова «ориентация» «i» и больше стоп-слов будут удалены, и в дальнейшем они будут хранить символы вместо слов в списке2. т. Е. ['O', 'r', 'e', 'n', 'n', '', 'f', '', '3', '', 'r', 'e', 'r ',' e ',' ',' p ',' n ',' \ n ',' \ n ',' \ n ',' O ',' r ',' e ',' n ',' n ',' ',' f ',' ',' n ',' ',' r ',' e ',' r ',' e ',' ',' r ',' p ',' l '. ...................... , в то время как я хочу сохранить его как ['Ориентация', '.............. ......
попытаться tokenize ваши слова сначала – galaxyan
Что такое cur в вашем коде? Не могли бы вы отправить больше кода контекста, пожалуйста? –