У меня есть файл содержит строки Unicode, я подсчет слов и сортировки его с помощью Counter
ObjectНеприятность с ответным объектом
Это моего код
import collections
import codecs
from collections import Counter
with io.open('1.txt', 'r', encoding='utf8') as infh:
words =infh.read()
Counter(words)
print Counter(words).most_common(10000)
Это мой 1.txt файл
വാര്ത്തകള് വാര്ത്തകള് വാര്ത്തകള് വാര്ത്തകള് വാര്ത്തകള് വാര്ത്തകള് വാര്ത്തകള് വാര്ത്തകള്
это дает мне количество символов вместо слова подсчитывает как это
[(u'\u0d4d', 63), (u'\u0d24', 42), (u'\u200d', 42), (u'\n', 26), (u' ', 21), (u'\u0d30', 21), (u'\u0d33', 21), (u'\u0d35', 21), (u'\u0d15', 21), (u'\u0d3e', 21)]
Что случилось с моим кодом?
'слово = infh.read() раздельный()' –