Например: у меня есть 100 книг по 1000 слов каждый. Они принадлежат к разным классам (комедия, драма, ...). Каждый класс состоит из 15 разных книг. Когда я делаю tfidf на своих данных, я получаю значение для каждого слова в книге в контексте всех книг. Я вижу, что книги, принадлежащие одному классу, имеют одинаковые значения tfidf для каждой переменной.Важное значение в классификации
Скажем, драма и комедия довольно похожи. Как я могу сказать, какие слова имеют значение между этими двумя классами? Какие слова я должен изменить в книге, принадлежащей комедии, так что теперь книга принадлежит драме?
Я могу проверить один за другим; но у меня 2000 книг, по 17500 слов каждая; 950 классов. Это займет десятилетие :)
Спасибо, отличная бумага! – enn
У меня есть еще один вопрос, пожалуйста. Итак, если у меня уже есть значение tfidf для каждой функции, могу ли я просто взять два класса (комедия и драма) и сделать хи-квадрат или случайный лес только на этом? Tfidf уже дает мне общее значение функции для каждого элемента. – enn