Im новый с scikit и SciPy и я попытался следующие:Что такое матрица scipy.sparse в формате CSR?
# -- coding: utf-8 --
from sklearn.feature_extraction import FeatureHasher
data = [[('this', 'is'), ('is', 'a'), ('a', 'text')],
[('and', 'one'), ('one', 'more')],]
fh = FeatureHasher(input_type='string')
X = fh.transform(((' '.join(x) for x in sample) for sample in data))
print X
Проблема заключается в том, что я не понимаю, выход:
(0, 18882) 1.0
(0, 908056) 1.0
(0, 1003453) 1.0
(1, 433727) 1.0
(1, 575892) -1.0
Может кто-нибудь объяснить мне, что делает этот выход средства ?. Я прочитал метод documentation метода FeatureHasher(), но не понял его.
Проверьте эту ссылку [ML-Hashing] (http://stats.stackexchange.com/questions/73325/understanding-feature-hashing) – badc0re