Я пытаюсь построить тамильско-английскую систему перевода с помощью Моисея. https://github.com/joshua-decoder/indian-parallel-corpora/tree/master/ta-en - мой источник данных для параллельного корпуса. Файлы dict имеют длину около 70 тыс. Строк, остальные - в диапазоне 2-3 тыс., А учебные файлы - 30 тыс. Длин. Было бы полезно, если бы кто-то намекнул, какой из следующих вариантов - лучший выбор для обучения и настройки?Какой из следующих вариантов был бы лучшим набором данных для обучения и настройки Мозеса?
В настоящее время я использую учебные файлы для обучения и тестовые файлы для настройки. Есть ли лучшая комбинация?