Использование word2vec для расчета сходства между пользователями

Недавно я узнал об этом инструменте под названием word2vec. Для моей текущей работы мне нужно узнать пользователей, которые похожи на данного пользователя. У одного пользователя есть связанные с ним сущности, такие как возраст, квалификация, принадлежности/организации, известные языки и список тегов сертификатов. Если мы рассмотрим каждую из этих сущностей/столбцов как случайный кусок слов для пользователя, можем ли мы вычислить векторное значение для этого пользователя и использовать эти значения, чтобы вывести сходство между пользователями? Будет ли вектор обучения вики помочь нам получить значимые результаты? Любой другой способ сделать это?Использование word2vec для расчета сходства между пользователями

источник

2015-05-07 labyrinth

Что вам нужно, это простой неконтролируемый (или полуконтролируемый) алгоритм кластеризации. word2vec с заранее подготовленными векторами может быть не очень полезен, потому что институты и т. д. вряд ли будут в нем.

Кроме того, кажется, что число «аспектов» у пользователя мало, поэтому вы можете просто иметь алгоритм кластеризации векторных представлений, где каждый размер вашего векторного пространства является одним из этих аспектов (возраст, квалификация, организация , и т.д.).

Модель непрерывного пространства, такая как word2vec, может быть полезна, если вы хотите, чтобы сходство пользователей отражало сходство этих аспектов (в отличие от точного равенства).

Если, например, вы хотите, чтобы квалификация «эксперт по Python» измерялась как нечто близкое к «эксперту по сценариям», затем переходите к word2vec. Но если вы ищете точные соответствия между конечным предопределенным числом аспектов, перейдите к простому алгоритму кластеризации.

P.S. Подробнее Q & A на эту тему должен быть на Cross Validated.

источник

2015-05-07 16:34:25

Использование word2vec для расчета сходства между пользователями

ответ

Смежные вопросы