2017-02-22 4 views
2

Существуют ли алгоритмы или методы, в которых можно было бы оценивать общие тенденции/темы между текстовыми элементами?NLP: Способ эффективного сравнения и идентификации трендов между текстом

Для примера скажем, что есть четыре точки данных (текстовые записи):

  • «я нашел школу очень напряженной сегодня»
  • «Тест по физике было довольно легко.»
  • «Мой физический тест вообще не был сложным»
  • «Все ушли рано, потому что физический тест был прямолинейным, и мы закончили его рано».

Основываясь на этих четырех записях, первый является выбросом и не имеет отношения к остальным, но другие три упоминают, как «физический тест» был легким (в общем, другие три выражают положительное настроение вокруг «физический тест»).

Существуют ли методы для извлечения общей темы между связанными предложениями? Эти предложения полностью открыты и не ограничиваются просто выражением настроений относительно объекта - они могут говорить о чем угодно.

Я понимаю, что это довольно широкий вопрос, но я подумал, что попрошу его так посмотреть, знают ли люди о существующих решениях или способах решения этой проблемы в прошлом.

ответ

6

Одним из возможных решений может быть генерация предложения предложения (Sent2Vec), а затем сравнение этих представлений.

Существует множество подходов к созданию предложения предложения английского предложения. Один из популярных подходов - skip-though vectors. Просто преобразуйте предложение в вектор, а затем используйте косинус-сходство для сравнения предложений.

Вы также можете использовать эти вложения предложений для обучения нейронной сети для выполнения своей целевой задачи.

+0

Это выглядит интересно - спасибо! Похоже, что процесс Sent2Vec помог выполнить первую часть моей задачи, но я также ищу способ определить, какие конкретно существуют отношения между предложениями (то есть они оба ссылаются на «физический тест» с прилагательным " easy ") – abagshaw

+0

@abagshaw, тогда вам нужно разбор пара слов и извлечение существительных фраз, затем генерировать фразу вложения и сравнивать их все возможные пары. вы должны получить некоторую интуицию, чтобы идентифицировать отношения между ключевыми словами! –

+0

Вот что я думал ... но я не уверен, что это будет способно масштабировать до сравнения десятков/сотен тысяч предложений. – abagshaw

Смежные вопросы