2014-02-13 1 views
0

Я пытаюсь построить тамильско-английскую систему перевода с помощью Моисея. https://github.com/joshua-decoder/indian-parallel-corpora/tree/master/ta-en - мой источник данных для параллельного корпуса. Файлы dict имеют длину около 70 тыс. Строк, остальные - в диапазоне 2-3 тыс., А учебные файлы - 30 тыс. Длин. Было бы полезно, если бы кто-то намекнул, какой из следующих вариантов - лучший выбор для обучения и настройки?Какой из следующих вариантов был бы лучшим набором данных для обучения и настройки Мозеса?

В настоящее время я использую учебные файлы для обучения и тестовые файлы для настройки. Есть ли лучшая комбинация?

ответ

0

Размер данных настройки обычно намного меньше данных обучения. Я бы посоветовал вам объединить данные, которые у вас есть, в единый корпус, а затем принять около 1000 предложений от этих корпусов для настройки и, возможно, 3000 для разработки/тестирования.

Смежные вопросы