Currenlty, что мы делаем, проверьте обсуждение пользователей на основе некоторых ключевых слов в социальных сетях. Согласно обнаружению ключевых слов, мы определяем, что это может случиться.Автоматизация процесса идентификации слухов
подхода к автоматизации процесса:
- слова на основе: проверочный разговор для ключевых слов на основе 1-2 грамма. Если присутствует ключевое слово, обозначающее его как предполагаемый разговор
- Основанный на классификаторе подход: Обучение классификатора с некоторыми предварительно отмеченными подозрительными цепочками. Который когда-либо классифицировался с вероятностью> 50%, отмеченный как подозреваемый.
Для второго подхода я думаю о наивном классификаторе заливов и идентифицирую результат с точностью, напоминанием, значением меры F, используя scikit learn.
Есть ли лучший подход к этому? Или какая-то модель, которая может быть сочетанием обоих подходов?
@ bepop: спасибо за ваш ответ. В любом случае, я уверен в том, что я изучаю scikit, а также nltk. причина, лежащая в основе наивных заливов, я читаю, что она хорошо работает с текстовыми данными. Наверное, я могу сравнить с различными моделями, такими как svm, наивные байки, макс энтропия. Как я понимаю после вашего ответа, я могу использовать точность, вспомнить, F-меру, чтобы сравнить результаты между разными моделями? – cyclic
У меня есть две альтернативы, nltk или scikit learn. Можете ли вы дать свой подход к этому сценарию? – cyclic
@cyclic Да, если у вас есть золотой стандартный корпус, то вы можете обучать и тестировать модели на этом корпусе (как правило, используя 10-кратное перекрестное подтверждение) и результаты этих тестов (включая точность, напоминание и т. д.), могут использоваться для сравнения моделей, предполагая, что их данные обучения и данные тестирования идентичны. 'nltk' и' scikit-learn' - отличные библиотеки. Я бы рекомендовал посмотреть, какие модели доступны в каждом. Просто зависит от того, что вы хотите сделать. – reynoldsnlp