В общем, чтобы получить «близость» между несколько документами с использованием терминов или терминов, используя нескольких документов, вы можете использовать Скрытое семантическое пространство --- Посмотрите Латентный семантический анализ here.
Однако, учитывая, что у вас есть только 1 документ, вы не можете этого сделать, потому что у вас нет ссылки. Это похоже на попытку найти, сколько стандартных отклонений от среднего значения интереса расположено, но у вас есть только один номер. Один из способов решения этой проблемы - получить новые данные, поэтому, если темы вашего документа не слишком неясны, вы можете попытаться очистить эту информацию от Интернета.
Если это не то, что вы ищете, возможно, вам захочется более подробно объяснить проблему с вашим желаемым результатом, а не с помощью метода, который, по вашему мнению, может быть применим здесь.
Cheers
Если у вас есть только один документ, tf-idf, в общем, не поможет. Единственный способ найти важные термины - понять дискурс в документе. И это непросто сделать (если вы не хотите внедрить множество современных методов исследования). –
Где вы храните документы? В SQL Server 2012 теперь есть семантический индекс, который может анализировать разные типы документов. – bhs