2016-09-12 2 views
0

Наша цель обучения машинам - поиск потенциальных рисков (будет стоить больше денег) и возможности (сэкономить деньги) из документа Project Requirements.Как создать данные обучения для классификации текста по 4 категориям

Моя идея - классифицировать предложения из данных в одну из следующих категорий: риск, возможность и отсутствие (без риска, без возможности, по умолчанию).

Я буду использовать многокомпонентный классификатор Байеса для этого с tf-dif.

Теперь мне нужны данные для моего набора для обучения и набора тестов. То, как я это сделаю, - это ярлык каждого предложения из документов требований с 1 из 3 категорий. Это хороший подход?

Или я должен указывать только предложения, которые, очевидно, представляют собой риск/возможность/нерелевантность?

Кроме того, является ли непривлекательная категория хорошей идеей?

ответ

1

Я считаю, что подход из трех классов является хорошим. Это похоже на анализ настроений, где обычно у вас есть положительные, отрицательные и нейтральные документы (или предложения). Нейтральная включает в себя подавляющее большинство экземпляров, поэтому ваша проблема классификации будет неуравновешенной. Это не обязательно проблема, но для сложных проблем, подобных этой, наивный классификатор заливов может просто классифицировать все в нейтральном/нерелевантном ковше, поскольку приоритет для нейтрали будет довольно высоким.

  • Ваша выборка (маркировка) должна быть представителем реальности. Не пытайтесь создать набор данных из 1000 рисков, 1000 возможностей, 1000 нерелевантных. Вместо этого возьмите образец, отвечающий требованиям 10000, и назначьте соответствующий ярлык каждому, даже если это означает, что у него есть гораздо больше «нерелевантности», чем «риск».
  • Модели классификации текста требуют много случаев, поскольку пространство поиска обширно. Интересно, считаете ли вы, что для получения надежных результатов (скажем, более 90%) вам может потребоваться вручную указать тысячи экземпляров.
  • , и даже если у вас есть тысячи учебных экземпляров, ваша проблема выглядит особенно сложной, если нет явных ключевых слов, чтобы вызвать «риск» или «возможность», которые я не понимаю. Спросите себя: это будет легко для человека судить? Если бы вы попросили трех судей классифицировать ваши требования, все ли они придумали один и тот же ответ? Если нет, то это может быть 10 тысяч тысяч учебных документов, которые вам понадобятся, и точность классификации может все еще быть разочаровывающей.
+0

Большое спасибо, это мне помогло. Я понимаю, что мне придется пройти через многие документы и наметить каждое предложение. Первоначально я думал, что мне нужно столько же учебных образцов для каждой категории, но, как вы говорите, это не так. Затем я просто просмотрю каждый документ и назову каждое предложение 1 из 3-х категорий, в итоге у меня будет намного больше образцов, не соответствующих действительности. Avout 70-процентная точность не будет плохой. Как вы думаете, это возможно с примерно 5000 предложений с надписью? – user3656099

+0

Я чувствую, что я бы нашел сложным определение рисков и возможностей из требований последовательным образом, не говоря уже о текстовом классификаторе. Тем не менее, возможно, ваше дело отличается от моего опыта, и, возможно, возможности и риски в вашей ситуации - это просто короткий набор технологий с соответствующими ключевыми словами (например: машинное обучение, NLP = возможности, соответствие SOC 2 = риск). Опять же, чтобы узнать из 5000 примеров, задача должна быть очень простой для человека. –

+0

Спасибо. Задача не очень проста для человека, однако есть ключевые слова, такие как «ответственные», которые встречаются много раз при назначении риска. Как сообщить программе, что, если такие слова встречаются, конкретная метка гораздо более вероятна? – user3656099

Смежные вопросы