Пусть D
это текстовый документ, ирелевантности документа нескольких ключевых слов
K = < k1, ..., kN >
представляет собой набор терминов, содержащихся в документе. Например:
D = "What a wonderful day, isn't it?"
K = <"wonderful","day">
Моя цель состоит в том, чтобы увидеть, если документ D
говорит о всех слов в K
в целом. Например:
D = "The Ebola in Africa is spreading at high speed"
K = <"Ebola","Africa">
является случай, в котором D
тесно связана с K
, в то время как:
D = "NEWS 1: Ebola is a dangerous disease that is causing thousands of deaths. Many governments are taking precautions to prevent its spread. NEWS 2: population in Africa is increasing."
K = <"Ebola","Africa">
является случай, в котором D
не связано с K
, так как «Эбола» и «Африка »упоминаются в разных точках документа, в отдельных предложениях и не связаны.
Как я могу синтезировать эту концепцию «родства» от D
до K
? Есть ли какая-то техника в состоянии искусства, которая может быть использована?
Спасибо.