Заранее за вашу помощь. Вкратце, меня попросили помочь моей организации в процессе аккредитации, который повторяется каждые 5 лет. Документ, который нам нужно собрать, составляет примерно 50 страниц (150 или около того вопросов, всего), поэтому мы хотели бы использовать как можно больше контента, который мы создали в нашем последнем раунде.Сетевая модель схожести документа
Задача: Порядок и формулировка вопросов, измененных в этом последнем раунде, но не полностью (например, «Опишите приверженность вашей организации разнообразию» и «Какие существуют политики для обеспечения организационного разнообразия? «). Таким образом, нам нужен способ узнать, какие вопросы из старой круглой карты на новый раунд, или, по крайней мере, в основном (они не должны быть идеальным совпадением, просто похожи).
Моей идеей было создание двухсторонней сети со старыми вопросами и новыми вопросами в качестве вершинных множеств сети. Края будут взвешены с некоторой степенью перекрытия слов в их вопросах или ответах.
Кто-нибудь знает, как начать решать эту проблему?
Еще раз спасибо, любая помощь, которую вы предлагаете, скорее всего, сэкономит время.
PS - Я полностью открыт для альтернативных решений. В случае, если это помогает, ниже показано, как я изначально думал о моделировании проблемы.