Я работаю над проектом, который предполагает использование последовательной модели машинного обучения, которую я использую для извлечения данных из неструктурированных текстовых данных. данные обширны.Как повысить эффективность контролируемого алгоритма машинного обучения
Итак, я планирую создать учебный набор с огромным количеством данных и случайным образом выбрать некоторые тестовые данные, чтобы проверить эффективность модели. Мой вопрос заключается в том, увеличивается ли количество данных, присутствующих в учебный набор повысит эффективность модели машинного обучения? Если нет, то как я могу улучшить модель?
Также, если я тестирую модель с образцовыми данными, объем которых выходит за рамки обучения (т.е. данные, которые отличаются от набора для обучения), то как я могу заставить модель справиться с ней и создать правильный результат ?
И если я часто проверяю данные, научился ли он на самом деле (или просто сгенерировал бы результат на основе существующего набора данных обучения)?