2014-01-31 4 views
0

У меня есть требование ранжирования ключевых слов в документе. У меня только 1 документ, поэтому я не знаю, сколько TF-IDF поможет. Я хотел бы ранжировать ключевые слова на основе их близости и релевантности для документа, Я хотел бы знать, могу ли я использовать для этого термин вектор-вектора, и если да, то как?Рейтинг ключевых слов в документе

Благодаря

+0

Если у вас есть только один документ, tf-idf, в общем, не поможет. Единственный способ найти важные термины - понять дискурс в документе. И это непросто сделать (если вы не хотите внедрить множество современных методов исследования). –

+0

Где вы храните документы? В SQL Server 2012 теперь есть семантический индекс, который может анализировать разные типы документов. – bhs

ответ

0

В общем, чтобы получить «близость» между несколько документами с использованием терминов или терминов, используя нескольких документов, вы можете использовать Скрытое семантическое пространство --- Посмотрите Латентный семантический анализ here.

Однако, учитывая, что у вас есть только 1 документ, вы не можете этого сделать, потому что у вас нет ссылки. Это похоже на попытку найти, сколько стандартных отклонений от среднего значения интереса расположено, но у вас есть только один номер. Один из способов решения этой проблемы - получить новые данные, поэтому, если темы вашего документа не слишком неясны, вы можете попытаться очистить эту информацию от Интернета.

Если это не то, что вы ищете, возможно, вам захочется более подробно объяснить проблему с вашим желаемым результатом, а не с помощью метода, который, по вашему мнению, может быть применим здесь.

Cheers

Смежные вопросы