Алгоритм Кули-Туки может работать на множестве длин DFT, который может быть выражен как N = N_1 * N_2. Алгоритм рекурсивно выражает ДПФ длины N в N_1 меньших ДПФ длины N_2.
Как вы заметили, самым быстрым, как правило, является факторизация radix-2, которая рекурсивно разбивает ДПФ длины N на 2 меньших ДПФ длины N/2, работающих в O (NlogN).
Однако фактическая производительность будет зависеть от оборудования и реализации. Например, если мы рассматриваем cuFFT с размером деформации нити 32, тогда оптимальные DFT, имеющие длину несколько кратных 32, будут оптимальными (обратите внимание: просто пример, я не знаю о фактических оптимизации, которые существуют в капюшон cuFFT.)
Короткий ответ: базовый код оптимизирован для любой простой факторизации до 7 на основе алгоритма radix-n Cooley-Tukey.
http://mathworld.wolfram.com/FastFourierTransform.html
https://en.wikipedia.org/wiki/Cooley-Tukey_FFT_algorithm