2014-08-27 2 views
1

У меня есть список новостей из различных финансовых веб-сайтов, таких как Bloomberg, MarketWatch, CNN и т. Д. Я хочу классифицировать статьи на основе их финансовой значимости, чтобы узнать, не вызвано ли какое-либо финансовое затруднение или какой-либо кризис вовлечены или нет.Обучение машинам за финансовые новости

Я разработал программу на Python, используя NLTK, которая дает оценку каждой статье на основе ее финансовой значимости.

В настоящее время я использую список/лексикон слова как:

  • рынка
  • финансовых
  • потерю
  • кредит и т.д.

и проверить, как много слов из этого списка присутствуют в новостной статье и сохраняют оценку для каждого, а затем добавляют все баллы слов, чтобы получить общий балл.

Точно так же у меня есть список/лексикон финансовых фраз:

  • не удастся договориться с кредиторами
  • файл для банкротства
  • файл для главы 11 и т.д.

Счетов этого список и приведенный выше список добавляются, а затем общая оценка присваивается статье, которая является показателем ее значимости.

Я хочу включить машинное обучение в этот процесс и хочу взять уже классифицированные статьи новостей из этого выше подхода в качестве набора для обучения.

Помогите найти лучший алгоритм для достижения этого.

+0

Этот вопрос лучше задать здесь: [stats.stackexchange.com] (HTTP: // статистика. stackexchange.com) – NorthCat

ответ

2

Это проблема классификации машинного обучения и логистическая регрессия будет делать трюк:

Logistic Regression Wikipedia

Смежные вопросы