2015-09-13 2 views
2

Я использую BigramAssocMeasures.chi_sq от NLTK, чтобы узнать информационный контент, предоставленный словами в разных классах. Однако я не могу понять, как предоставить данные этой функции.Может кто-нибудь объяснить синтаксис BigramAssocMeasures.chi_sq?

Определение в NLTK говорит «» «результаты биграмм с использованием критерия хи-квадрат, то есть PHI-кв, умноженной на количество биграмм, как в Мэннинг и Schütze 5.3.3. „“» возвращение n_xx * ЦБС. phi_sq (n_ii, (n_ix, n_xi), n_xx)

Что представляет собой n_ii, (n_ix, n_xi), n_xx?

ответ

2

я нашел следующие источники для объяснения:

Первый источник объясняет предмет и его применение для анализа настроений, а также код питона. Второй источник предоставляет больше образцов кода. Третьи содержат соусы объяснение, которое вы хотели:

аргументов представляют собой маргинал таблицы сопряженности, подсчета вхождений определенных событий в корпусе. Буква i в суффиксе относится к появлению слова w, о котором идет речь, , в то время как x указывает на появление любого слова. Так, например ::

n_ii counts (w1, w2), i.e. the bigram being scored 
n_ix counts (w1, *) 
n_xi counts (*, w2) 
n_xx counts (*, *), i.e. any bigram 

Это может быть показано по отношению к таблице сопряженности ::

 w1 ~w1 
    ------ ------ 
w2 | n_ii | n_oi | = n_xi 
    ------ ------ 
~w2 | n_io | n_oo | 
    ------ ------ 
    = n_ix  TOTAL = n_xx 

Я надеюсь, что это исследование помогло.

Смежные вопросы