2013-03-13 3 views
2

Учитывая набор текстов (может быть, книг, статей, документов и т. Д.), Как вы найдете соответствующие ключевые слова для каждого текста? здравый смысл подсказывает:Алгоритм поиска ключевых слов для текста

  • расщепленных слов
  • исключить общие слова (также называемые стоп-слова, как "а, к, ибо в")
  • количества слов частоты
  • дать оценка по каждому слову, с формулой, которая учитывает частоту каждого слова в документе и в других документах, количество слов документа и общее количество слов всех документов

Вопрос в том, что это хорошая формула для этого?

ответ

5

Я разработал один.

Для каждого слова вычислить это соотношение:

(frequency of word in this text) * (total number of words in all texts) 
----------------------------------------------------------------------- 
    (number of words in this text) * (frequency of word in all texts) 

Ключевые слова являются те слова, отношение которых в самом высоком 20% (для этого doucument).

Ankerl также предлагает свою формулу:

tanh(curVal/curWords*200) - 5*tanh((allVal-curVal)/(allWords-curWords)*200) 

Где:

  • curVal: Как часто слово забить присутствует в чтобы быть проанализирован текст
  • curWords: Всего количество слов в анализируемом тексте
  • allVal: Как часто слово для оценки присутствует в индексированном наборе данных
  • allWords: Общее количество слов индексируемого набора данных

Оба алгоритма работает довольно хорошо, и результаты часто совпадают. Знаете ли вы, как это сделать лучше?

+0

У вас есть доступ к информации о макете (названия, перерывы, размер шрифта и стили ...)? –

Смежные вопросы