Это очень общая проблема, и вам придется использовать несколько подходов для получения респектабельных результатов. На самом деле то, о чем вы говорите, является конечной целью НЛП. Я предлагаю вам разбить проблему на части и разослать каждую часть по одному.
Первый кусок головоломки должен понимать, если два предложения говорят о тех же/подобных сущностях. Это можно сделать, идентифицируя предметы, объекты, глаголы, ссылки на места, инструментальные ссылки, дательные ссылки и т. Д. В разных предложениях. Эти ссылки затем можно сравнить друг с другом. Один из способов, который приходит мне на ум, - взглянуть на расстояние по слову. Вам придется строить свой словарный запас в течение определенного периода времени.
Вторая часть головоломки должна затем обратиться к идее предложения. Вы должны использовать подход машинного обучения здесь, наряду с лингвистикой.
Как я уже сказал, это ОЧЕНЬ общая проблема и поэтому довольно сложно решить за один раз. Если бы я был вами, я бы рассмотрел проблему следующим образом:
Шаг 1. Начните с ограничения моего решения на один домен. Это поможет мне построить лучшую онтологию/лексику, лучше обучить мои модели.
Шаг 2: Устраните сущности близости и попытаться понять, какие предложения говорят о подобных предметов или указывают на аналогичные объекты и т.д. Этот шаг является более лингвистическая проблема
Шаг 3: С помощью машинного обучения попробуйте найти предложения, которые имеют сходный дух и тональность.
Шаг 4: Перейдите к следующему домену и повторите шаги.
Надеюсь, это поможет.
Все еще не уверены в проблеме.Правильно ли, если я предполагаю, что вы ищете, чтобы найти сходства или связи между сущностями? Или даже фразы должны быть приравнены? – rishi
@ rishi Извините за отсутствие ясности. Я пытаюсь найти связь между двумя фразами, которая не обязательно является сходством или физической связностью на основе точных совпадающих терминов. Скорее, идея состоит в том, чтобы найти связь между фразами, как человек может: на основе внешней информации и вывода ... –