2015-10-24 2 views
0

Я вычислил TF своего набора данных, и в настоящее время я пытаюсь вычислить IDF для него. Я смущен тому, какой номер использовать для расчета.Расчет IDF (Inverse Document Frequency)

id  uid 
1   a 
1   b 
1   c 
1   d 
2   a 
2   b 
2   c 
2   e 
3   b 
3   c 
3   e 
3   f 
(3 items) 

Occurrence 
a = 2 
b = 3 
c = 3 
d = 1 
e = 2 
f = 1 

Что дает что-то вроде этого ниже:

Формула

IDF(t,D)=log(Total Number documents/Number of Document matching term); 

Например, используя (А, В), значение 2: как я должен идти о его расчета?
Всего элементов = 3
Число совпадений в документе = должен ли я использовать значение A или B? (2 или 3)

(A,B) * log(total/matching) 
= 2 * log (3/2 or 3) ? 

ответ

0

Я не уверен, что вы имели в виду под (A, B).

Но я предполагаю, что из вашего набора данных: первый столбец - это идентификатор документа, а второй столбец - термин.

Если мое предположение верно, то: Идентификатор документа 1 является "ABCD" Идентификатор документа 2 является "ABCE" Идентификатор документа 3 является "BCEF"

Ваша формула для IDF (т, D) является журнал (количество документов/документов, содержащих этот термин). Таким образом, мы можем вычислить IDF для каждого термина, как следующее:

IDF ('а', D) = log (3/2) МФД ('B', D) = log (3/3) и так далее ...

Это моя ссылка: https://en.wikipedia.org/wiki/Tf%E2%80%93idf