2012-12-04 2 views
4

Я делаю проект по анализу настроений twitter, но есть некоторые вещи, над которыми я обдумываю.Техника анализа настроений в Twitter

Поскольку твиты чрезвычайно короткие (менее 140 символов), лучшая технология анализа текста. Например. Работает ли работа так же, как и в «коротких» статьях?

Что относительно n-граммов? Является ли краткость твита лучшими или худшими для них?

Будет ли k-ближайший быть более точным, чем часть тегов речи?

Будет ли мой пользовательский набор данных щебетать неактуальным/коррумпированным с течением времени? Поскольку твиттер и информация об этом меняются так быстро, что также вызывает серьезную озабоченность у меня.

Большое спасибо за ваше время.

PS: Вы имеете в виду какие-либо хорошие данные о настроениях twitter? Было бы здорово, если бы он регулярно обновлялся.

+2

[sentiment140.com имеет технический отчет] (http://help.sentiment140.com/), который описывает свой подход. Кажется, это произошло из того же задания. Вот пример: [анализ настроений твитов с «stackoverflow»] (http://www.sentiment140.com/search?hl = en & query = stackoverflow) – jfs

ответ

5

Я сделал несколько классных работ, анализируя твиты знаменитостей и сравнивая их сходства.

Самое большое, что вы определили, это длина твита. При 140 символах сокращено много слов или необычная «txt-речь». Поэтому даже хорошо известный стволовый, такой как Porter, даст некоторые нечетные результаты. Лучше всего сохранить почти все и только нормализовать после слов подсчета, векторов и т. Д.

Для экстраполяции слов, n-граммы и следующие ссылки являются важным фактором для вывода качества. Я мог только терпеть потребности в пространстве и времени в 4 грамма, но даже создание простых 2 грамм дало значительное улучшение.

Если вы заметили, что я сказал ранее «почти все». В моем случае следование только популярным твитам знаменитости, я столкнулся с проблемой, что многие из их твитов были ссылками или криками аутов на их события, спонсоров и т. Д. Поэтому большая часть была удалением больших дубликатов спама.

Для методов получения точных чувств или любых мер, которые вы ищете, я бы сначала попробовал наивные байесовые методы. Он прост и относительно точен для базовой линии. K-средства будут делать достаточно хорошо, но помните, что в нем не учитываются отклонения и сопутствующие отклонения, но, тем не менее, это еще одна базовая задача.

Надеюсь, что дает некоторое представление.

2

Недавно я сделал анализ фильма на основе твиттера, чтобы узнать, что люди читают о фильме, о погоде, которым они нравятся или нет. Эта ссылка http://www.laurentluce.com/posts/twitter-sentiment-analysis-using-python-and-nltk/ мне очень помогла. Кроме того, мне приходилось собирать список ярлыков, которые обычно используются при чириканье, которое охватывает чувства.

Плюс, твиты человека сохраняются только до 3000 (или 3.5k не уверены?), И ваш собственный поток Timeline также имеет схожие ограничения. Таким образом, вы можете получать твиты по вашему выбору или теме, используя http://topsy.com, и получать старые твиты определенной темы оттуда для анализа. Вы также можете регулярно сохранять твиты о своей потребности в будущих ссылках, потому что твиттер не собирается экономить на вас.

:)

+0

Вы можете использовать ScraperWiki для ежедневного сохранения каналов Twitter, как в примере [this] (https://scraperwiki.com/scrapers/basic_twitter_scraper/). –

Смежные вопросы