0

Скажите в домене классификации документов, если у меня есть набор данных из 1000 экземпляров, но экземпляры (документы) скорее представляют собой небольшой контент; и у меня есть другой набор данных, например 200 экземпляров, но каждый отдельный экземпляр с более насыщенным контентом. Если ИДФ не будет меня беспокоить, будет ли количество случаев действительно иметь значение при обучении? Учитываются ли алгоритмы классификации?Число экземпляров или содержимое экземпляров, более важных (машинное обучение)?

Спасибо. sam

+0

Непонятный вопрос. Возьмите это во внимание? Что именно вы спрашиваете? О каком алгоритме вы думаете? (каждый ведет себя по-разному) и каковы ваши функции из текста? – amit

+0

Извините, если вам это не ясно. Под этим я имею в виду, что классические алгоритмы, такие как SVM, kNN, NaiveBayes учитывают количество экземпляров в данных учебных данных? В проблеме классификации текста функции будут представлять собой слова или N-граммы. – KillBill

+0

ОК, что я могу понять - но я не могу понять, что вы имеете в виду о размере каждого документа в вопросе. Также есть более одного способа взять слова или N-граммы как функции. – amit

ответ

1

Вы можете представить это как общую проблему с машинным обучением. Самая простая проблема, которая может помочь вам понять, как размер данных учебных материалов зависит от кривой.

Неопределенность и предвзятость классификатора или модели, оснащенной ими, являются функциями размера выборки. Небольшой размер выборки - хорошо известная проблема, которую мы часто стараемся избегать, собирая больше учебных образцов. Это связано с тем, что оценка неопределенности нелинейных классификаторов оценивается линейным приближением модели. И эта оценка является точной, только если в качестве основного условия доступно большое количество выборок.

Соотношение выбросов также является важным фактором, который следует учитывать при принятии решения о размере выборки для обучения. Если больший размер выборки означает большую долю выбросов, то следует ограничить размер выборки.

Размер документа на самом деле является косвенным индикатором размера пространства объектов. Если, например, из каждого документа у вас есть только 10 функций, вы пытаетесь разделить/классифицировать документы в 10-мерном пространстве. Если у вас есть 100 функций в каждом документе, то то же самое происходит в 100-мерном пространстве. Я думаю, вам легко увидеть, что чертежные линии, которые разделяют документы в более высоком измерении, проще.

Для размера документа и размера выборки эмпирическое правило подходит как можно выше, но на практике это невозможно. И, например, если вы оцениваете функцию неопределенности классификатора, вы обнаружите порог, размер выборки которого больше, чем это приводит к практически отсутствию уменьшения неопределенности и смещения. Эмпирически вы также можете найти этот порог для некоторых проблем методом Монте-Карло.

Большинство инженеров не утруждают себя оценкой неопределенности, что часто приводит к субоптимальному поведению методов, которые они реализуют. Это хорошо для проблем с игрушками, но в реальных проблемах, учитывая неопределенность оценок и вычислений, жизненно важно для большинства систем. Надеюсь, что в какой-то степени ответит на ваши вопросы.

Смежные вопросы