У меня есть вектор предложений, скажет:подсчета Словосочетание частота
x = c("I like donut", "I like pizza", "I like donut and pizza")
Я хочу считать сочетание двух слов. Идеальный выход представляет собой данные кадра с 3 колонками (слово1, word2 и частоты), и было бы нечто вроде этого:
I like 3
I donut 2
I pizza 2
like donut 2
like pizza 2
donut pizza 1
donut and 1
pizza and 1
В первых записях вывода, freq = 3
потому "I"
и "like"
происходит вместе 3 раза: x[1]
, x[2]
и x[3]
.
Любой советует оценен :)
ли вы использовать Google или панель поиска, прежде чем отправлять на этот вопрос? Попробуйте [this] (http://stackoverflow.com/questions/11403196/r-count-times-word-appears-in-element-of-list) или [это] (http://stackoverflow.com/questions/ 18864612/частота появления-из-двух-парных комбинаций-in-text-data-in-r) или [любой из них] (http://stackoverflow.com/search?q=R+word+combinations). –
Как насчет 'I I' и' like like' и т. Д.? Предположительно, вы хотите только те комбинации * разных * слов? 'gtools :: permutations' может быть вам полезен –
@OliverKeyes: да, конечно. – nurandi