У меня есть вопрос о TfidfVectorizer от sklearn, когда он выполняет частоту слова в каждом документе.sklearn's TfidfVectorizer частота слова?
образец кода я увидел это:
>>> from sklearn.feature_extraction.text import TfidfVectorizer
>>> corpus = [
>>> 'The dog ate a sandwich and I ate a sandwich',
>>> 'The wizard transfigured a sandwich'
>>> ]
>>> vectorizer = TfidfVectorizer(stop_words='english')
>>> print vectorizer.fit_transform(corpus).todense()
[[ 0.75458397 0.37729199 0.53689271 0. 0. ]
[ 0. 0. 0.44943642 0.6316672 0.6316672 ]]
мой вопрос: как интерпретировать числа в матрице? Я понимаю, что значение 0 означает, что слово i.e. wizard появляется 0 раз в первом документе, поэтому оно равно 0, но как интерпретировать номер 0.75458397? Является ли частота, в которой слово «ел» появилось в первом документе? Или частота слова «ела», которое происходит во всем корпусе?