Я вычислил TF своего набора данных, и в настоящее время я пытаюсь вычислить IDF для него. Я смущен тому, какой номер использовать для расчета.Расчет IDF (Inverse Document Frequency)
id uid
1 a
1 b
1 c
1 d
2 a
2 b
2 c
2 e
3 b
3 c
3 e
3 f
(3 items)
Occurrence
a = 2
b = 3
c = 3
d = 1
e = 2
f = 1
Что дает что-то вроде этого ниже:
Формула
IDF(t,D)=log(Total Number documents/Number of Document matching term);
Например, используя (А, В), значение 2: как я должен идти о его расчета?
Всего элементов = 3
Число совпадений в документе = должен ли я использовать значение A или B? (2 или 3)
(A,B) * log(total/matching)
= 2 * log (3/2 or 3) ?