Автоматизация процесса идентификации слухов

Currenlty, что мы делаем, проверьте обсуждение пользователей на основе некоторых ключевых слов в социальных сетях. Согласно обнаружению ключевых слов, мы определяем, что это может случиться.Автоматизация процесса идентификации слухов

подхода к автоматизации процесса:

слова на основе: проверочный разговор для ключевых слов на основе 1-2 грамма. Если присутствует ключевое слово, обозначающее его как предполагаемый разговор
Основанный на классификаторе подход: Обучение классификатора с некоторыми предварительно отмеченными подозрительными цепочками. Который когда-либо классифицировался с вероятностью> 50%, отмеченный как подозреваемый.

Для второго подхода я думаю о наивном классификаторе заливов и идентифицирую результат с точностью, напоминанием, значением меры F, используя scikit learn.

Есть ли лучший подход к этому? Или какая-то модель, которая может быть сочетанием обоих подходов?

источник

2015-08-26 cyclic

Нет причин, чтобы оба подхода были взаимоисключающими. Если вы все равно будете определять ключевые слова, вы можете легко извлечь функцию для машинного обучения. И если вы занимаетесь машинным обучением, вы можете также включить функции, которые захватывают то, что вы знаете о ключевых словах, которые вы идентифицировали.

Есть ли причина, по которой вы выбрали модель Naive Bayes? Вы можете попробовать несколько моделей для сравнения их производительности. Ваше утверждение о «идентификации результата с точностью, напоминанием, F-мерой» заставляет вас понять, что вы не понимаете, как вы делаете прогнозы с помощью модели машинного обучения. Эти три показателя являются результатом сравнения предсказаний модели с метками «золотой стандарт» в ряде текстов. Я бы рекомендовал прочитать введение в машинное обучение. Если вы уже решили, что хотите использовать scikit-learn, то, возможно, вы могли бы проработать их учебник here. Другая библиотека python, на которую стоит обратить внимание, это nltk, в которой есть бесплатная компаньонка here.

Если python не ваш предпочтительный язык, то есть много других вариантов. Например, weka - хорошо известный инструмент, написанный в java. Он имеет очень удобный графический интерфейс для основных функций, но его также нетрудно использовать из командной строки.

Удачи вам!

источник

2015-08-26 08:16:09 reynoldsnlp

@ bepop: спасибо за ваш ответ. В любом случае, я уверен в том, что я изучаю scikit, а также nltk. причина, лежащая в основе наивных заливов, я читаю, что она хорошо работает с текстовыми данными. Наверное, я могу сравнить с различными моделями, такими как svm, наивные байки, макс энтропия. Как я понимаю после вашего ответа, я могу использовать точность, вспомнить, F-меру, чтобы сравнить результаты между разными моделями? – cyclic

У меня есть две альтернативы, nltk или scikit learn. Можете ли вы дать свой подход к этому сценарию? – cyclic

@cyclic Да, если у вас есть золотой стандартный корпус, то вы можете обучать и тестировать модели на этом корпусе (как правило, используя 10-кратное перекрестное подтверждение) и результаты этих тестов (включая точность, напоминание и т. д.), могут использоваться для сравнения моделей, предполагая, что их данные обучения и данные тестирования идентичны. 'nltk' и' scikit-learn' - отличные библиотеки. Я бы рекомендовал посмотреть, какие модели доступны в каждом. Просто зависит от того, что вы хотите сделать. – reynoldsnlp

Автоматизация процесса идентификации слухов

ответ

Смежные вопросы