Каковы методы и методы измерения качества данных?

Если у меня есть большой набор данных, описывающих физические «вещи», как я могу измерить, насколько хорошо эти данные соответствуют «вещам», которые он должен представлять?Каковы методы и методы измерения качества данных?

Примером может быть, если у меня есть ящик с 12 виджетами, и я знаю, что каждый виджет весит 1 фунт, должно быть какое-то качество данных «проверка», чтобы убедиться, что дело весит 13 фунтов.

Другой пример: если у меня есть лампа и изображение, представляющее эту лампу, она должна выглядеть как лампа. Возможно, размеры изображения должны иметь одинаковое соотношение размеров лампы.

За исключением изображений, мои данные составляют 99% текста (включая высоту, ширину, цвет ...).

Я изучал ИИ в школе, но сделал очень мало за пределами этого.

Являются ли стандартными методами ИИ способы передвижения? Если да, то как мне сопоставить проблему с алгоритмом? Некоторые языки легче, чем другие? У них есть лучшие библиотеки?

спасибо.

источник

2009-05-14 MStodd

Это трудный ответ. Например, что определяет лампу? Я мог бы изобразить Google изображения каких-то сумасшедших ламп. Или даже взгляните на определение лампы (http://dictionary.reference.com/dic?q=lamp). Нет никаких физических требований к тому, что должно выглядеть лампа. Это суть проблемы ИИ.

Что касается данных, вы можете настроить модульное тестирование в проекте, чтобы 12 widget() весил менее 13 фунтов в widetBox(). Независимо от того, вам нужно иметь данные, чтобы иметь возможность проверять подобные вещи.

Надеюсь, я смог ответить на ваш вопрос несколько. Его немного вагонетка, и мои ответы широкие, но, надеюсь, он по крайней мере отправит вас в хорошем направлении.

источник

2009-05-14 20:13:29 cyberconte

Ваш вопрос несколько разомкнут, но похоже, что вы хотите, это то, что известно как «classifier» в поле machine learning.

В целом, классификатор берет часть ввода и «классифицирует» ее, т. Е. Определяет категорию для объекта. Многие классификаторы предоставляют вероятность с этим определением, а некоторые могут даже возвращать сразу несколько категорий с вероятностями.

Некоторые примеры классификаторов: bayes nets, нейронные сети, списки решений и decision trees. Сети Bayes часто используются для классификации спама. Письма классифицируются как «спам» или «не спам» с вероятностью.

За что вы хотите классифицировать свои объекты как «высокое качество» или «не высокое качество».

Первое, что вам понадобится, это куча учебных данных. То есть, набор объектов, где вы уже знаете правильную классификацию. Один из способов получить это может состоять в том, чтобы получить кучу объектов и классифицировать их вручную. Если слишком много объектов для одного человека, чтобы классифицировать, вы могли бы их до Mechanical Turk.

Как только у вас есть данные для обучения, вы затем создадите свой классификатор. Вам нужно будет выяснить, какие атрибуты важны для вашей классификации. Вероятно, вам нужно будет провести некоторое экспериментирование, чтобы увидеть, что хорошо работает. Затем вы получите свой классификатор из своих данных обучения.

Один из подходов, который часто используется для тестирования, состоит в том, чтобы разделить ваши данные обучения на два набора. Обучите свой классификатор с помощью одного из подмножеств, а затем посмотрите, насколько хорошо он классифицирует другое (обычно меньшее) подмножество.

источник

2009-05-14 21:04:09

AI - один путь, естественный интеллект - другой.

Ваш вызов идеально подходит для механических турок Amazon. Разделите ваше пространство данных на чрезвычайно мелкие проверяемые атомы и назначьте их как HIT на Mechanical Turk. Сделайте несколько совпадений, чтобы дать себе ощущение согласованности ответов HIT.

Был магазин с лотом компонентов чертежей САПР, которые необходимо было сгруппировать по подобию. Они разбили его и отделили от Mechanical Turk на очень приятные результаты. Я мог часами работать в Google, но не нашел эту ссылку еще раз.

См. here для соответствующего сообщения на форуме.

источник

2009-05-14 21:09:54 JosefAssad

Каковы методы и методы измерения качества данных?

ответ

Смежные вопросы