0

Я работаю над проектом, который предполагает использование последовательной модели машинного обучения, которую я использую для извлечения данных из неструктурированных текстовых данных. данные обширны.Как повысить эффективность контролируемого алгоритма машинного обучения

Итак, я планирую создать учебный набор с огромным количеством данных и случайным образом выбрать некоторые тестовые данные, чтобы проверить эффективность модели. Мой вопрос заключается в том, увеличивается ли количество данных, присутствующих в учебный набор повысит эффективность модели машинного обучения? Если нет, то как я могу улучшить модель?

Также, если я тестирую модель с образцовыми данными, объем которых выходит за рамки обучения (т.е. данные, которые отличаются от набора для обучения), то как я могу заставить модель справиться с ней и создать правильный результат ?

И если я часто проверяю данные, научился ли он на самом деле (или просто сгенерировал бы результат на основе существующего набора данных обучения)?

ответ

0

Что вы обычно делаете, так это использовать обширный набор данных, а затем разбить этот набор данных случайным образом.

Например, если у вас есть 100 000 рядов данных для обучения вашей модели, вы можете дать случайные 80% этих данных для обучения модели и использовать оставшиеся 20 000 строк для ее проверки. Это общепринятая модель машинного обучения.

В этом подходе вы можете теперь работать с вашей моделью, чтобы улучшить результаты, которые вы получаете.

Вы не хотите создавать ложные тестовые данные в своей модели.