Я очень новичок в R и недавно начал работать над проектом текстовой аналитики. Я пытаюсь сделать слово вслух словами, которые составляют мою историю. пакеты, которые я смонтированные:Как удалить ненужные данные из текстовой аналитики
tm
SnowballC
wordcloud
Данные, что обратных связей и содержит много ненужных слов для генерации билетов, которые не являются частью английского языка. Есть ли способ удалить мусорные слова и работать только на тех, которые являются правильными английскими? Я попытался составить список слов, которые нужно удалить, но их слишком много, чтобы их можно было добавить в список.
Пожалуйста, помогите ... Спасибо
'tm' делает это. Если вы добавите воспроизводимый пример, вам будет проще помочь вам – Sotos
Удаление неанглийских слов довольно просто. Загрузите любой из массивных словарей (например, коричневый или reuters) и преобразуйте их в dataframe и сделайте '! (Df1 $ word% in% dictionary $ word)' subset ... предоставление воспроизводимого примера поможет нам дать вам точный код для ваших данных ... – Gaurav
Hi Gaurav, My wordcloud показывает частоту в порядке убывания as: jqxwb, gghtf, neelam, jhwqex, lkjbne, taslima, вышивка, согласие, datatime ... Единственные подходящие слова для меня - вышивка и дать согласие. хочу устранить остальные ... надеюсь, что этот пример помогает лучше понять проблему! – eclairs