Хорошо, так что это мой лучший снимок.
Первоначальные предположения
Во-первых, мы предполагаем, что у вас есть статьи, которые уже содержат упоминания людей, и эти упоминания являются либо а) упоминает о конкретном человеке, которого вы ищете или б) упоминания о других людях, имеющих одно и то же имя.
Я думаю, что для устранения разногласий каждое упоминание (как и в случае с Entity Linking) является излишним, поскольку вы также предполагаете, что в статьях есть либо о человеке, либо нет. Поэтому мы скажем, что любые статьи, содержащие хотя бы одно упоминание о человеке, - это статья о человеке.
Общее решение: Текст классификации
Вы должны разработать алгоритм классификации, которая извлекает функции из статьи и подает эти функции в модели, полученной посредством контролируемого обучения. Модель выведет один из двух ответов, например True или False. Это требует тренировочного набора. Для целей оценки (зная, что ваше решение работает), вам также понадобится набор тестов.
Таким образом, первый шаг будет заключаться в том, чтобы пометить эти тренировочные и тестовые наборы с использованием одного из двух тегов каждый раз («Истина» и «Ложь» или что-то еще). Вы должны назначать эти теги вручную, изучая сами статьи.
Какие возможности использовать
@eldams упоминает, используя контекстные подсказки. В моем (попытке) решения статья - это контекст, поэтому в основном вы должны спросить себя, что может дать, что статья касается человека в частности. На этом этапе вы можете самостоятельно выбрать функции или позволить более сложной модели находить определенные функции в более общей категории объектов.
Два примера, предполагая, что мы ищем статьи о Джастине Трюдо, новоизбранном премьер-министре Канады, в отличие от любого другого, которого также называют Джастином Трюдо.
A) Выбор функции себя
С немного исследований, вы узнаете, что Джастин Трюдо ведет Либеральная партия Канады, поэтому некоторые хорошие возможности было бы проверить изделие содержит ли или нет эти строки :
Либеральная партия Канады, Parti либеральные дю Канада, LPC, PLC, либералами, Libéraux, Жан Кретьен, Пол Мартин, и т.д.
С Трюдо политик, ищет это может быть хорошей идеей:
политика, политика, право, реформы, парламент, палата общин и т.д.
Вы могли бы хотеть, чтобы собрать информацию о его личную жизнь, близких сотрудников, имя жены и детей и т. д. и добавьте их также.
B) Позволить алгоритм обучения сделать работу
Другим вариантом будет тренировать модель энграмм, используя все п-граммы имеются в обучающем наборе (например, использовать все юниграммы и биграммы) , Это приводит к более сложной модели, чем может быть более надежной, а также более тяжелой для обучения и использования.
Программные ресурсы
Все, что вы хотите делать, если вам необходимо обучить классификатор, вы должны использовать scikit-learn. Его самым популярным выбором будет его классификатор SVM. Naive Bayes - это более классический подход к классификации документов.
Вы посмотрели на это: http://www.nltk.org/book/ch07.html#named-entity-recognition – reynoldsnlp
@bebop, Это не решит мою проблему, поскольку я не пытаюсь идентифицировать все текстовые упоминания названных объектов. Я хочу определить вероятность того, что человек «Х», упомянутый в данной статье, является тем же человеком, которого я ищу. –
Я могу придумать решение, включающее контролируемое обучение, то есть классификацию между «Это парень» и «Это не тот парень». Сколько у вас статей с именем человека? Они все об этом человеке, или некоторые статьи о других людях с тем же именем? – HugoMailhot