На прошлой неделе я разработал простой читатель новостей с jQuery, разбор JSONP и вставку сгенерированного списка в поток веб-страницы. Сегодня утром меня задали этот вопрос: «Есть ли какой-то интеллектуальный алгоритм, который способен« понять », если новость плохая, хорошая или нейтральная?» Мой ответ ... «Ну ... у меня нет идеи». ... Вот почему я задаю этот вопрос: есть ли способ реализовать такую вещь? Единственное, что я могу сказать, это проверить, содержит ли название такие слова, как «убитый, бомба, убийца, наводнение, землетрясение, цунами, ...» и т. Д. ... Любая другая идея? Знаете ли вы, что аналогичные решения уже реализованы? Спасибо за вашу помощь!Варианты реализации, чтобы определить, являются ли новости хорошими новостями или плохими новостями
Варианты реализации, чтобы определить, являются ли новости хорошими новостями или плохими новостями
ответ
Вам нужен алгоритм классификации. Существует много разных вариантов, например. см. here. Известный и простой для реализации, начинающийся с Naive Bayes.
В книге «Наивный Байес» вы смотрите на частоту слов, появляющихся в новостях, которые вы уже признали плохими, а также на частотах тех слов, которые появляются в новостях, которые вы уже оценили как хорошие. Это дает вам оценку условных вероятностей P (слово | good) и P (слово | bad), то есть вероятность увидеть слово, данное хорошие новости, и вероятность увидеть слово с плохими новостями.
Когда вы видите новую новость, вы определяете, какие слова есть и нет в новостном элементе, и используйте теорему Байеса, чтобы дать вам P (хорошие слова) и P (плохие слова), по существу, путем умножения вместе вероятности, которые вы вычисляли выше слов, появляющихся или не появляющихся в вашей новостной статье, вместе с тем, как часто вы ожидаете хорошие или плохие новости. Если P (хорошие слова)> P (плохие слова), то это хорошие новости. (Я помещал некоторые математические данные в question. Я написал какое-то время назад, если вам интересно, но есть гораздо лучшие источники в Интернете и в книгах.)
Naive Bayes - это хорошо известная техника, а также используется для фильтрации спама. Это также интересно, из-за того, что не касается. В частности, он не учитывает порядок или контекст или слова. Так что «На этой неделе не было никаких ураганов», может быть хорошей новостью, несмотря на то, что она содержит работу «Ураган». Я бы предположил, что такие соображения, вероятно, более важны при анализе новостных статей, чем твиты, например. В любом случае это интересная область, и уже проделана большая работа.
Спасибо TooTone, это действительно интересно и полезно, прежде всего, как вы говорите в конце, когда судите новости, которые, вероятно, содержат такие слова, как «ураган», «цунами» или подобное. Я тщательно читаю, спасибо! –
алгоритмы серии для обработки это называются supervised learning, которые относятся к machine learning.
Спасибо! Я посмотрю на это! –
Хотя это правильно, контролируемое обучение - очень широкое поле. Например. вы можете рассматривать линейную регрессию как контролируемый метод обучения. По крайней мере, вы, возможно, захотите сузить поле до алгоритмов классификации. – TooTone
Здесь это делается для twitter, это называется анализом чувств.
Спасибо! Я посмотрю на это! –
Прохладный, надеюсь, что я ответил на ваш вопрос, так как он был довольно широким (что я понимаю почему) –
Я не уверен, что анализ настроений - это то, о чем просит OP, SA - отличная классификация эмоций, неявных в тексте. Однако обычно новости пишутся в нейтральном настроении. – Pedrom
- 1. Являются ли черты хорошими или плохими?
- 2. Являются ли индексы хорошими или плохими для большой базы данных?
- 3. Являются ли аргументы 'ref' в WCF плохими или хорошими?
- 4. Являются ли вложенные структуры на C# хорошими или плохими
- 5. Поделиться новостями между сайтами
- 6. Деятельность с новостями
- 7. Получить только категории с новостями
- 8. Kafka - как следить за новостями
- 9. Typo3 RealUrl новость ссылка с новостями ID
- 10. Дизайн базы данных: FK, которые являются NULL - хорошими или плохими?
- 11. SAP Fiori Launchpad - всплывающее окно с системными новостями
- 12. Являются ли указатели плохими?
- 13. ManyToMany отношение между новостями и пользователями
- 14. Разница между новостями() и возвратом каретки ("\ r")
- 15. Как отображать сообщения с категорией с новостями
- 16. Как реализовать страницу комментариев с новостями, аналогичную Facebook или Instagram
- 17. Как поделиться своими новостями в Facebook на Windows Phone 8
- 18. Являются ли инициализаторы экземпляров плохими?
- 19. Являются ли функциональные псевдонимы плохими?
- 20. Являются ли генераторы кода плохими?
- 21. Являются ли утверждения всегда плохими?
- 22. Что делает статические функции инициализации хорошими, плохими или другими?
- 23. RSS с международными новостями и координатами GEO (GEORSS)
- 24. Регулярные выражения для выделения между хорошими словами и плохими
- 25. Являются ли взаимозаменяемые атомные ссылки плохими идеями?
- 26. TextArea с новостями - вставка SQL (запуск новых строк)
- 27. Являются ли плоские файловые базы хорошими?
- 28. Являются ли круговые зависимости плохими проектами?
- 29. Являются ли хрупкие модульные тесты всегда плохими?
- 30. делиться новостями на моем веб-сайте на моей стене facebook
Это называется [Анализ настроений] (http://en.wikipedia.org/wiki/Sentiment_analysis). В этой теме должно быть много научных публикаций. – Sirko
«Убийца погиб, жертва выжила» – athabaska
Взгляните сюда: [http://www.uclassify.com/browse/uClassify/Sentiment](http://www.uclassify.com/browse/uClassify/Sentiment). –