Наша цель обучения машинам - поиск потенциальных рисков (будет стоить больше денег) и возможности (сэкономить деньги) из документа Project Requirements.Как создать данные обучения для классификации текста по 4 категориям
Моя идея - классифицировать предложения из данных в одну из следующих категорий: риск, возможность и отсутствие (без риска, без возможности, по умолчанию).
Я буду использовать многокомпонентный классификатор Байеса для этого с tf-dif.
Теперь мне нужны данные для моего набора для обучения и набора тестов. То, как я это сделаю, - это ярлык каждого предложения из документов требований с 1 из 3 категорий. Это хороший подход?
Или я должен указывать только предложения, которые, очевидно, представляют собой риск/возможность/нерелевантность?
Кроме того, является ли непривлекательная категория хорошей идеей?
Большое спасибо, это мне помогло. Я понимаю, что мне придется пройти через многие документы и наметить каждое предложение. Первоначально я думал, что мне нужно столько же учебных образцов для каждой категории, но, как вы говорите, это не так. Затем я просто просмотрю каждый документ и назову каждое предложение 1 из 3-х категорий, в итоге у меня будет намного больше образцов, не соответствующих действительности. Avout 70-процентная точность не будет плохой. Как вы думаете, это возможно с примерно 5000 предложений с надписью? – user3656099
Я чувствую, что я бы нашел сложным определение рисков и возможностей из требований последовательным образом, не говоря уже о текстовом классификаторе. Тем не менее, возможно, ваше дело отличается от моего опыта, и, возможно, возможности и риски в вашей ситуации - это просто короткий набор технологий с соответствующими ключевыми словами (например: машинное обучение, NLP = возможности, соответствие SOC 2 = риск). Опять же, чтобы узнать из 5000 примеров, задача должна быть очень простой для человека. –
Спасибо. Задача не очень проста для человека, однако есть ключевые слова, такие как «ответственные», которые встречаются много раз при назначении риска. Как сообщить программе, что, если такие слова встречаются, конкретная метка гораздо более вероятна? – user3656099