У меня есть список новостей из различных финансовых веб-сайтов, таких как Bloomberg, MarketWatch, CNN и т. Д. Я хочу классифицировать статьи на основе их финансовой значимости, чтобы узнать, не вызвано ли какое-либо финансовое затруднение или какой-либо кризис вовлечены или нет.Обучение машинам за финансовые новости
Я разработал программу на Python, используя NLTK, которая дает оценку каждой статье на основе ее финансовой значимости.
В настоящее время я использую список/лексикон слова как:
- рынка
- финансовых
- потерю
- кредит и т.д.
и проверить, как много слов из этого списка присутствуют в новостной статье и сохраняют оценку для каждого, а затем добавляют все баллы слов, чтобы получить общий балл.
Точно так же у меня есть список/лексикон финансовых фраз:
- не удастся договориться с кредиторами
- файл для банкротства
- файл для главы 11 и т.д.
Счетов этого список и приведенный выше список добавляются, а затем общая оценка присваивается статье, которая является показателем ее значимости.
Я хочу включить машинное обучение в этот процесс и хочу взять уже классифицированные статьи новостей из этого выше подхода в качестве набора для обучения.
Помогите найти лучший алгоритм для достижения этого.
Этот вопрос лучше задать здесь: [stats.stackexchange.com] (HTTP: // статистика. stackexchange.com) – NorthCat