2016-10-21 2 views
0

Итак, я обозначил твиты как переработанные или не переработанные, и я должен использовать логистическую регрессию, чтобы построить модель, чтобы предсказать, будет ли изменен твит или нет.Как использовать несколько функций для текста в текстовой классификации?

Проблема, с которой я столкнулся, - это я не знаю, как использовать несколько признаков с логистической регрессией. Функции, которые мне нужно использовать, - tf-idf, lda, был ли изменен твит, сколько твитов времени от определенного пользователя было переутомлено в прошлом.

Как я могу использовать 4 функции в двоичной классификации? Любая помощь будет принята с благодарностью.

+1

Какой инструмент вы используете для этой задачи (scikit-learn, тензорный поток ...)? Процедура использования двух функций такая же, как и с использованием 4 функций, нет никакой разницы. –

+0

scikit узнать. Как мы будем это делать? любой справочный учебник? –

+0

Можете ли вы поделиться небольшим примером своего набора данных? Таким образом, я могу помочь лучше –

ответ

0

Heres просто пример, используя параметры clasiffier по умолчанию, идея заключается в том, что та же самая процедура используется, если у вас есть два, или если у вас есть больше возможностей:

dataset = np.ndarray(shape=(num_rows,3),dtype=np.float32) ; 
retweeted_output = np.ndarray(shape=(num_rows,1),dtype=np.float32) 
#perform some actions to fill your data structures 
model = LogisticRegression(); 
model.fit(dataset,retweeted_output); 
+0

Это замечательно. Большое спасибо. –

Смежные вопросы