2016-08-24 3 views
0

Заранее за вашу помощь. Вкратце, меня попросили помочь моей организации в процессе аккредитации, который повторяется каждые 5 лет. Документ, который нам нужно собрать, составляет примерно 50 страниц (150 или около того вопросов, всего), поэтому мы хотели бы использовать как можно больше контента, который мы создали в нашем последнем раунде.Сетевая модель схожести документа

Задача: Порядок и формулировка вопросов, измененных в этом последнем раунде, но не полностью (например, «Опишите приверженность вашей организации разнообразию» и «Какие существуют политики для обеспечения организационного разнообразия? «). Таким образом, нам нужен способ узнать, какие вопросы из старой круглой карты на новый раунд, или, по крайней мере, в основном (они не должны быть идеальным совпадением, просто похожи).

Моей идеей было создание двухсторонней сети со старыми вопросами и новыми вопросами в качестве вершинных множеств сети. Края будут взвешены с некоторой степенью перекрытия слов в их вопросах или ответах.

Кто-нибудь знает, как начать решать эту проблему?

Еще раз спасибо, любая помощь, которую вы предлагаете, скорее всего, сэкономит время.

PS - Я полностью открыт для альтернативных решений. В случае, если это помогает, ниже показано, как я изначально думал о моделировании проблемы.

an example solution

ответ

0

Немного наброски, но общие шаги для быстрого решения: 1. Преобразование слова в формате больше подходят для машинной обработки с помощью инструмента, как http://www.nltk.org/api/nltk.stem.html 2. Выполните следующее действия здесь, чтобы вычислить сходство tf-idf: Similarity between two text documents 3. Используйте np.argsort(), чтобы извлечь наиболее похожие элементы.

1

Первая мысль на мой взгляд: за 50 страниц работы вы можете сэкономить больше времени, просто сделав это с человеком.

Но если у вас есть хороший научный сотрудник в вашей команде, вы можете попробовать gensim. Самая последняя технология сравнения двух разных фраз - это встраивание слов. Вы можете думать об этом как о преобразовании слов в высокоразмерные векторы (от 200 до 1000 измерений) путем обучения миллионам документов.

Например, если ваша строка является «взаимодействием с человеческим компьютером», вы будете искать что-то подобное.

[(2, 0.99844527), # The EPS user interface management system 
(0, 0.99809301), # Human machine interface for lab abc computer applications 
(3, 0.9865886), # System and human system engineering testing of EPS 
(1, 0.93748635), # A survey of user opinion of computer system response time 
(4, 0.90755945), # Relation of user perceived response time to error measurement 
(8, 0.050041795), # Graph minors A survey 
(7, -0.098794639), # Graph minors IV Widths of trees and well quasi ordering 
(6, -0.1063926), # The intersection graph of paths in trees 
(5, -0.12416792)] # The generation of random binary unordered trees 

от: https://radimrehurek.com/gensim/tut3.html

Смежные вопросы