Недавно я узнал об этом инструменте под названием word2vec. Для моей текущей работы мне нужно узнать пользователей, которые похожи на данного пользователя. У одного пользователя есть связанные с ним сущности, такие как возраст, квалификация, принадлежности/организации, известные языки и список тегов сертификатов. Если мы рассмотрим каждую из этих сущностей/столбцов как случайный кусок слов для пользователя, можем ли мы вычислить векторное значение для этого пользователя и использовать эти значения, чтобы вывести сходство между пользователями? Будет ли вектор обучения вики помочь нам получить значимые результаты? Любой другой способ сделать это?Использование word2vec для расчета сходства между пользователями
ответ
Что вам нужно, это простой неконтролируемый (или полуконтролируемый) алгоритм кластеризации. word2vec с заранее подготовленными векторами может быть не очень полезен, потому что институты и т. д. вряд ли будут в нем.
Кроме того, кажется, что число «аспектов» у пользователя мало, поэтому вы можете просто иметь алгоритм кластеризации векторных представлений, где каждый размер вашего векторного пространства является одним из этих аспектов (возраст, квалификация, организация , и т.д.).
Модель непрерывного пространства, такая как word2vec, может быть полезна, если вы хотите, чтобы сходство пользователей отражало сходство этих аспектов (в отличие от точного равенства).
Если, например, вы хотите, чтобы квалификация «эксперт по Python» измерялась как нечто близкое к «эксперту по сценариям», затем переходите к word2vec. Но если вы ищете точные соответствия между конечным предопределенным числом аспектов, перейдите к простому алгоритму кластеризации.
P.S. Подробнее Q & A на эту тему должен быть на Cross Validated.
- 1. Использование word2vec для вычисления сходства предложений
- 2. Использование NearestNeighbors и word2vec для определения сходства предложений
- 3. Python: поиск сходства между пользователями в кластере
- 4. Интерпретация отрицательного сходства Word2Vec с gensim
- 5. Методы расчета сходства текстовой строки?
- 6. Как векторы вывода word2vec используются для вычисления сходства?
- 7. Отображение сходства корреляции pearson между двумя пользователями в Apache Mahout
- 8. Самый быстрый способ расчета сходства/расстояния OpenGL?
- 9. сходства между мешками слов
- 10. Использование Word2Vec для моделирования тем
- 11. Gensim Word2vec: Semantic сходство
- 12. Спарка MLLib в Word2Vec косинус сходства больше, чем 1
- 13. Использование HBase для извлечения данных для расчета сходства текста с помощью Mahout
- 14. Finding Сходства между адресами
- 15. Совместное использование временных файлов между пользователями
- 16. Совместное использование git между разными пользователями
- 17. Совместное использование контента Drupal между пользователями
- 18. Поиск сходства между двумя профилями пользователя
- 19. Использование акселерометра для расчета скоростей
- 20. Использование переключателей для изменения расчета
- 21. Использование сервиса игры google для обмена данными между пользователями?
- 22. Использование API Карт Google для расчета расстояния между двумя адресами
- 23. Word2Vec: Number of Dimensions
- 24. Использование коэффициента Jaccard для измерения сходства строк
- 25. Мера сходства между двумя изображениями
- 26. Поиск сходства между двумя документами
- 27. Поделитесь пользователями по умолчанию между пользователями
- 28. Измерение сходства между двумя векторами
- 29. Использование времени клиента для расчета часового пояса
- 30. Сходства между WPF и Silverlight