2014-03-16 2 views
-1

У меня есть dataset из 5331 положительных и 5331 отрицательных отзывов. Я хочу отметить интенсивность каждого обзора. Интенсивность может быть либо «0», либо «1». Это их техника, которую я могу вручную отметить 1000 отзывов и обучить классификатор. Если классификатор работает очень хорошо (скажем, 90% s-fold validation), то я могу заполнить оставшийся обзор, используя выход классификатора? Будет ли обоснованное предположение заполнять 1/10 данных вручную и прогнозировать оставшиеся?аннотированный набор данных, путем обучения классификатора?

Я новичок в изучении машин.

ответ

0

Фраза, которую вы ищете, это анализ настроений и является известной проблемой в обществе машинного обучения. Это одна из самых простых задач классификации НЛП, поэтому с большой вероятностью вы можете достичь более 90% точности. В общем, оценки 10-CV - вполне разумное приближение поведения реального классификатора, предполагая достаточно большой набор данных. Существуют и другие (часто считающиеся лучшими) методы, такие как те, которые основаны на загрузке - google для Err^0.632 для примера.

+0

Благодарим за отзыв. Я знал о сентиментальном анализе и интеллектуальном анализе. Мои вопросы здесь были более связаны с маркировкой значений обучения соответствующими метками. Я хочу использовать вышеуказанный набор данных для обучения и использования изученной модели на каком-то другом наборе данных. Тренировочный комплект имеет 10 тыс. Отзывов и их маркировка вручную была немного утомительной задачей. Я проверю «Err^0.632» –

Смежные вопросы