У меня есть база данных, состоящая из целой группы записей (около 600 000), где некоторые записи имеют определенные поля. Моя цель - найти способ предсказать, каковы недостающие значения данных (чтобы я мог их заполнить) на основе существующих данных.Прогнозирование отсутствующих значений данных в базе данных
Один из вариантов, который я рассматриваю, - это кластеризация - то есть представляющая записи, которые являются полными, как точки в некотором пространстве, ища кластеры точек, а затем, когда задана запись с отсутствующими значениями данных, попытайтесь выяснить, есть ли любые кластеры, которые могут принадлежать этому, согласуются с существующими значениями данных. Однако это может быть невозможно, потому что некоторые поля данных находятся в номинальном масштабе (например, цвет) и поэтому не могут быть приведены в порядок.
Еще одна идея, которую я получил, - создать некую вероятностную модель, которая будет предсказывать данные, обучать их существующим данным и затем использовать их для экстраполяции.
Какие алгоритмы доступны для выполнения вышеизложенного, и есть ли свободно доступное программное обеспечение, которое реализует эти алгоритмы (кстати, это программное обеспечение будет в C#).
Огромная проблема. Очень зависит от множества вещей, которые мы не можем предсказать. Самый простой экземпляр: есть ли какие-либо смещения выбора, в которых у записей отсутствуют поля? Откуда вы знаете? Что вы можете с этим поделать? Доступны ли прокси-индикаторы? И так далее ... – dmckee
Соглашаясь с вышеуказанным комментарием. Могут быть некоторые общие алгоритмы, которые вы могли бы использовать, но вам придется настраивать каждый из них в своем домене. – job