2012-03-01 3 views
1

я нужен подход или алгоритм для предварительного расчета пользователи интерес, основанной на его твитов ..предварительно вычислить пользователей интересуют

пользователя подключает свой счет с его Твиттером и после извлечения его твит для в первый раз мне придется заранее рассчитать свои вкусы и интересы ..

, как этот пользователь продолжает использовать свою систему я должен буду сделать эти прогнозы более точными ..

есть алгоритм или математическая модель что поможет в этом требовании?

просьба представить - существующие научные связи или с открытым исходным кодом или примеры, которые помогут мне начать ..

ответ

2

Вы можете использовать Machine-Learning для выполнения этой задачи.

Один из возможных алгоритмов машинного обучения является мешком слов с к-ближайшими соседями:

Создать training set [пользователей, которые вы знаете, что их интерес представляют], а также использовать Bag Of Words [предпочтительно с n-grams], чтобы «узнать» учебный комплект.

Когда приходит новый пользователь, у вас есть слова/n-граммы, извлеченные как функции - и найдите k nearest neighbors, чтобы определить, в чем интересы.

Чтобы получить улучшение с течением времени - вы можете получить дополнительную явную обратную связь - пользователи могут щелкнуть по соглашению/несогласиям относительно того, что сказал алгоритм. Вы можете впоследствии использовать эту информацию, чтобы расширить размер своего набора тренировок, что, вероятно, приведет к более точным решениям.

Это стандартный алгоритм для изучения «особенностей» между наборами предложений/слов, поэтому вы должны хотя бы использовать его в качестве ориентира.

Существует также проект с открытым исходным кодом, который может вам помочь: Apache Mahout.

+0

+1 Может ли вы предложить мне какую-нибудь библиотеку в python, я знаю о nltk – vireshas

Смежные вопросы