Возможно, ваше решение будет FFMpeg. Это займет ваш входной файл и отобразит текст «Фокс Малдер» на экране в красном тексте с шрифтом tahoma. Между подсказками отображается, начиная с 10 секунд. Acodec-копия означает копирование аудио, vcodec libx264 говорит о выходе h.264 в mp4. crf 25 - самое низкое качество. 0 является самым высоким.
Руководство расскажет вам о настройке х и у для текста, вычисление значения на основе входного файла и т.д.
ffmpeg -benchmark -hide_banner -y -i INPUT_FILE.mp4 -vf "drawtext=enable='between(t,10,35)':fontfile=/PATH/TO/tahoma.ttf:fontcolor='Red':fontsize=24:text='Fox Mulder':x=(w-tw)/2:y=(h/PHI)+th, -acodec copy -vcodec libx264 -crf 25 OUTPUT_FILE.mp4