Вы представляете термины, которые появляются в документах, как вес в векторе, где каждая позиция индекса является «весом» термина. Например, если мы примем документ «мир привет», и мы связали позицию 0 с важностью «привет» и позиции 1 с важностью мира, и мы измеряем важность как количество раз, когда термин появляется, документ рассматривается как d = (1, 1).
В то же время документ, указывающий только «привет», будет (1, 0).
Это представление может быть основано в любой мере на важность терминов в документах, являющихся терминами частоты (как предложено @Pedrom) самым простым вариантом. Наиболее распространенным, но достаточно простым методом является применение TF-IDF, который сочетает в себе то, насколько распространен термин в документе и насколько он редко встречается в коллекции.
Я надеюсь, что это помогает,
Просто быстрый вопрос. Когда вы имеете в виду, что большинство примеров основаны на числах, вы ссылаетесь на то, что элементы (документы в вашем случае) представлены в виде вектора, такого как (1, 0.77, 0.4, ...), правильно? – miguelmalvarez