Каков правильный алгоритм машинного обучения для этой задачи?

Мы знаем, что сущности имеют разные проявления, например, «Барак Обама» может быть представлен как «Обама», «Президент» и «Барак Хусейн Обама».
Есть ли какой-нибудь алгоритм, который может определить, относятся ли эти три к одному и тому же сущности «Барак Обама»?Каков правильный алгоритм машинного обучения для этой задачи?

Спасибо!

EDIT 1:
я предоставлю более подробную информацию о моем случае. То, что я хочу сделать, - это подключить разные имена имен в Twitter.

Если я пришлю твит, содержащий «Барак Обаму», через некоторое время я отправлю еще один твит, содержащий «Президент», но без «Барака Обамы», тогда моя система должна быть в состоянии объединить две твиты вместе, потому что когда я говорю о «Бараке Обаме» и «Президенте» в двух твитах, я, очевидно, имею в виду одно и то же лицо.

источник

2013-11-28 ChandlerQ

Я думаю, что определение семантической эквивалентности здесь является легкой частью. Все становится интересным, когда речь идет о распознавании в разных средах (естественный язык, аудио, изображения, видео). Можете ли вы предоставить более подробное описание контекста? –

@JensPiegsa Спасибо за ваш ответ, плз см. Мой EDIT 1. – ChandlerQ

@JensPiegsa Мне нужно распознать сущности только в тексте на естественном языке, не могли бы вы представить некоторые сведения о том, как судить, эквивалентны ли два эквивалента? – ChandlerQ

Latent semantic analysis - это один из способов, который вы можете попробовать.

В качестве альтернативы может работать непараметрическое расширение тематической модели, например, выделение скрытого распределения Дирихле.

источник

2013-11-28 10:42:53 Mike

Пожалуйста, те, кто снизил объяснение своих рассуждений? Я не вижу причин, почему методы, которые я предлагал, плохи и были бы благодарны за возможность понять. – Mike

В заметке [LDA] (http://en.wikipedia.org/wiki/Latent_Dirichlet_allocation). – sdasdadas

Трудность вашей проблемы полностью содержится в предложении «очевидно, означает одно и то же лицо», и вы столкнулись с хорошо известным (и очень сложным) Задача кадра. Если вы превратите это в вероятности, вы увидите, что proba, что президент связан с obama, сильно зависит от контекста.

Я бы предложил посмотреть на Скрытые Марковские цепи (как Google делает), чтобы уловить контекстуальный характер проблемы.

источник

2013-11-28 10:43:10

Каков правильный алгоритм машинного обучения для этой задачи?

ответ

Смежные вопросы