2016-12-15 5 views
0

Я обрабатываю текстовые документы и идентифицирующие объекты, такие как имена колледжей/университетов, представленные в документе. Иногда эти имена записываются в разных форматах, но они относятся к одному имени колледжа/университета.
Пример:
Джавахарлала Неру технологический университет Хайдарабад
J.N.T.U Хайдарабад
JNTU Хайдарабад
JNTU-H
Джавахарлала Неру технологический университет (JNTU) ХайдарабадNER: Связать выделенную сущность с понятием реального реального мира

Все вышеперечисленные имена относятся к тем же именем колледжа.

Как мы можем связать все эти имена с одним именем колледжа/университета?
(Я ищу какой-то веб-сервис или что-то вроде поиска в Google, потому что, если я ищу любое из этих имен, он возвращает ту же ссылку на колледж.)

ответ

0

Эта задача называется «Связывание объектов». Некоторые системы посвящены этому, в большинстве случаев, используя Википедию (в частности, перенаправления, которые дают возможные упоминания для сущностей), например Babelfy или DBpedia Spotlight.

Эти службы полагаются на данные для ссылки, ссылающиеся на уникальные идентификаторы: если у них есть возможные упоминания для ваших сущностей, вероятно, они должны работать в большинстве случаев (но для тех, кто неоднозначен). Но во многих случаях их лексика недостаточно, и вы, вероятно, столкнетесь с неизвестными сущностями или упоминаниями. В этом случае вам нужно будет создать свою собственную систему, используя существующую структуру и предоставить ей соответствующую базу данных объектов и их упоминания. Акронимы могут автоматически генерироваться из их полных имен.

Смежные вопросы