2010-09-18 2 views
4

У меня есть база данных со многими резюме, включая структурированные данные по полу, возрасту, адресу, количеству лет обучения и многим другим параметрам каждого человека.Выполнение прогнозов из резюме

Для примерно 10% образца у меня также есть дополнительные данные о определенном действии, которое они совершили в определенный момент времени. Например, Джейн взяла ипотечный кредит в июле 1998 года или что Джон начал подготовку пилотов в январе 2007 года и получил лицензию в декабре 2007 года.

Мне нужен алгоритм, который даст для каждого из действий вероятность того, что это произойдет для каждого человека в будущем. Например, вероятность того, что Билл возьмет ипотечный кредит, составит 2% в 2011 году, 3,5% в 2012 году и т. Д.

Как я должен подходить к этому? Регрессивный анализ? SVM? Нейронная сеть? Что-то другое?

Возможно ли даже какой-то стандартный инструмент/библиотека, который я могу использовать только с очевидными настройками?

+6

Не пытайтесь делать это самостоятельно. Нанимайте кого-то с достойной статистической подготовкой. – 2010-09-18 21:25:05

+2

Это называется алгоритмом Crystal Ball. –

+0

Я полагаю, что это также во многом зависит от того, сколько записей у вас есть (и насколько они представлены), что вы действительно можете вывести полезные предсказания вообще. – Archimedix

ответ

1

Вероятность того, что X случится, учитывая, что Y произошла, прямо из байесовского вывода, я думаю.

+0

Как я понял, вопрос не существует. Существует только вопрос о вероятности того, что Х случится. – Marek

+0

Это не обязательно байесовский, и нечасто. Но, да, в это входит стохастическая модель. :) – Iterator

1

Лу прав, это случай для «байесовского вывода».

Лучшим инструментом/библиотекой для решения этого является язык статистического программирования R (r-project.org).

Посмотрите на байесовской Inference библиотек в R: http://cran.r-project.org/web/views/Bayesian.html

Сколько людей находятся в «10% выборки»? Если это менее 100 человек или около того, я опасаюсь, что результаты анализа не могут быть значительными. Если это 1000 или более человек, результаты будут довольно хорошими (эмпирическое правило).

Я бы кулаком экспортировал данные в R (r-project) и сделал некоторые очистки данных. Затем найдите человека, знакомого с R и расширенной статистикой, он сможет решить это очень быстро. Или попробуйте себя, но R занимает некоторое время в начале.

+0

Согласен: нанять кого-то. Даже если вы не используете байесовские методы и вместо этого используете остальные инструментальные средства вывода для R (например, машинное обучение), лучше всего знать, что вы делаете. Хрустального шара нет. – Iterator

1

Что касается выбора инструмента/библиотеки, я предлагаю вам попробовать Weka. Это инструмент с открытым исходным кодом для экспериментов с data mining и машинное обучение. Weka имеет несколько инструментов для чтения, обработки и фильтрации ваших данных, а также инструментов прогнозирования и классификации.

Однако вы должны иметь прочную основу в вышеупомянутых областях, чтобы стремиться к полезному результату.

Смежные вопросы