2014-01-02 7 views
0

Я использую пакет TwitteR (в частности, функцию searchTwitter) для экспорта в формате csv всех твитов, содержащих определенный хэштег.R пакет Twitter для анализа текста твитов

Я хотел бы проанализировать их текст и узнать, сколько из них содержит определенный список слов, который я только что сохранил в файле с именем importantwords.txt.

Как создать функцию, которая может вернуть мне оценку того, сколько твитов содержат слова, которые я написал в моем файле importantwords.txt?

ответ

0

псевдокод:

> for (every word in importantwords.txt): 
>  int i = 0; 
>  for (every line in tweets.csv): 
>   if (line contains(word)): 
>    i = i+1 
>  print(word: i) 

Это вдоль линий, что вы хотели?

0

Я думаю, что лучше всего использовать пакет tm.

http://cran.r-project.org/web/packages/tm/index.html

Этот парень использует его для создания облака слово с информацией. Просматривая его код, вероятно, поможет и вам.

http://davetang.org/muse/2013/04/06/using-the-r_twitter-package/

Если ваши важные слова просто, чтобы избежать «» «а» и тому подобное, что это будет работать нормально. Если его для чего-то, в частности, вам нужно будет перебрать корпус, указав список слов.

Надеюсь, это поможет Nathan

Смежные вопросы