2013-05-04 4 views
0

У меня есть задача, которая, вероятно, связана с анализом данных или даже с нейронными сетями.Определить коэффициенты для некоторой функции

У нас есть источник данных наших партнеров, портал вакансий. Значения источника являются массивы различных атрибутов, относящихся к конкретному сотруднику:

  • Его \ ее пол,
  • Возраст,
  • Многолетний опыт,
  • Портфолио (количество проектов выполненных) ,
  • профессии и специализации (веб-дизайн, веб-программирование, управление и т.д.),
  • многие другие (около 20-30 полностью)

У каждого сотрудника есть своя зарплата (почасовая оплата). Таким образом, математически, мы имеем некоторую функцию

F (attr1, attr2, attr3, ...) = A * attr1 + B * attr2 + C * attr3 + ...

с неизвестными коэффициент. Но мы знаем результат функции для указанных аргументов (скажем, мы знаем, что программист-программист с 20-летним опытом и 10 работ в портфеле имеет скорость 40 долларов США в час).

Таким образом, мы должны как-то найти эти коэффициенты (A, B, C ...), чтобы мы могли прогнозировать зарплату любого сотрудника. Это самая важная цель.

Другая цель - найти, какие аргументы наиболее важны - другими словами, какие из них вызывают существенные изменения в результате функции. Поэтому в конце мы должны иметь что-то вроде этого: «Важнейшими атрибутами являются годы опыта, затем портфолио, а затем возраст и т. Д.».

Возможно, ситуация, когда разные профессии сильно отличаются друг от друга - например, мы просто не можем сравнивать веб-дизайнеров с менеджерами. В этом случае мы должны разделить их по группам и рассчитать эти оценки для каждой группы отдельно. Но в итоге нам нужно найти «общие» аргументы, которые будут распространены для каждой группы.

Я думаю о нейронных сетях, потому что это то, с чем они могут иметь дело. Но я совершенно новичок в них и понятия не имею, что делать.

Я бы очень признателен за любую помощь - какие инструменты использовать, какие алгоритмы, или даже образцы псевдо-кода и т.д.

большое спасибо.

+0

Поисковые запросы: линейная регрессия, наименьшие квадраты и нормальные уравнения. – DrC

+0

Хорошо спасибо DrC! Я попробую погулять. – Spaceman

ответ

0

Это Самый простой пример (линейной) регрессии. Вы используете линейную функцию для моделирования ваших данных и должны оценивать параметры.

Обратите внимание, что это на самом деле часть классической математической статистики; а не интеллектуального анализа данных, но намного старше.

Существуют различные методы. Учитывая, что, вероятно, будут выбросы, я бы предложил использовать RANSAC.

Что касается важности, разве это не сводится к «самому большому, A B или C»?

Смежные вопросы