Я пытаюсь подсчитать отдельные слова в столбце моего фрейма данных. Похоже на это. На самом деле тексты - это твиты.Подсчитать отдельные слова в кадре данных Pandas
text
this is some text that I want to count
That's all I wan't
It is unicode text
Так что я нашел из других StackOverflow вопросов, которые я мог бы использовать следующее:
Count most frequent 100 words from sentences in Dataframe Pandas
Count distinct words from a Pandas Data Frame
Мой ДФ называется результат, и это мой код:
from collections import Counter
result2 = Counter(" ".join(result['text'].values.tolist()).split(" ")).items()
result2
Получаю ошибка крыла:
TypeError Traceback (most recent call last)
<ipython-input-6-2f018a9f912d> in <module>()
1 from collections import Counter
----> 2 result2 = Counter(" ".join(result['text'].values.tolist()).split(" ")).items()
3 result2
TypeError: sequence item 25831: expected str instance, float found
DTYPE текста является объектом, который, насколько я понимаю правильно для юникода текстовых данных.
Очевидно, что в вашем DataFrame есть значения float, что вы хотите с ними делать? Вы тоже хотите их посчитать? –
Поскольку эти тексты должны быть все твиты, я тоже хочу их пересчитать. Если этот столбец также содержит значения float, значит ли это, что я собирал твиты, которые являются просто цифрами? (заставляет меня любопытно, какие из них плавают) – Lam
да это возможно. –