2016-04-15 1 views
0

Я использую Weka IBk для текста classificaiton. Каждый документ в основном является коротким предложением. Учебный набор содержит 15 000 документов. Во время тестирования я вижу, что k = 1 дает лучшую точность? Как это можно объяснить?Почему k = 1 в KNN дает лучшую точность?

ответ

1

Если вы запрашиваете своего учащегося с тем же набором данных, с которым вы обучались с k = 1, то выходные значения должны быть идеальными, если у вас есть данные с теми же параметрами, которые имеют разные значения результата. Проведите некоторое чтение по переобучению, так как оно относится к ученикам KNN.

В случае, когда вы запрашиваете тот же набор данных, с которым вы обучались, запрос будет вводиться для каждого учащегося с некоторыми заданными значениями параметров. Поскольку эта точка существует у ученика из набора данных, с которым вы обучались, ученик будет соответствовать той точке обучения, которая будет ближе всего к значениям параметров, и поэтому выводит любое значение Y для этой точки обучения, которое в этом случае совпадает с точкой, которую вы спросил.

+0

Спасибо за ваш ответ. Я обращаюсь к моему ученику с данными испытаний, а не с учебным набором данных. – Chechi

0

Возможности:

  1. Подготовка данных с помощью тестов данных являются одни и те же данные
  2. тесты данных имеют высокое сходство с подготовки данных
  3. Границы между классами очень ясно

Оптимальное значение для K зависит от данных. В общем случае значение k может уменьшить влияние шума на классификацию, но делает границы между каждой классификацией более размытыми.

Смежные вопросы