Я пытаюсь написать оптимизированную свертку 2D-изображений 3x3 для изображения 1280x720.Как векторизовать трехмерную свертку 3x3?
Для простоты к краевому условию приближается входной сигнал 1284 * 724.
Вот мой код ядра:
__kernel
__attribute__((vec_type_hint(float4)))
void conv2d3x3(
__global const float* restrict input,
__global float* restrict output,
__constant const float4* restrict hL,
/* 3x3 kernel, padded with 3 zeros on the right, used to calculate
"left" output samples*/
__constant const float4* restrict hR
/*same 3x3 kernel, padded with 3 samples on the left*/)
{
int j = get_global_id(0)*2; //[0,639]
int i = get_global_id(1)*2; //[0,359]
/* load a 4x4 block, note stride is 1284 because input is padded by 4*/
float4 data0=vload4(0,input+1284*(i+0)+j);
float4 data1=vload4(0,input+1284*(i+1)+j);
float4 data2=vload4(0,input+1284*(i+2)+j);
float4 data3=vload4(0,input+1284*(i+3)+j);
/* sum(data[0:2,0:2].* h)*/
float prodTL=dot(data0,hL[0])+dot(data1,hL[1])+dot(data2,hL[2]);
/* sum(data[0:2,1:3].* h)*/
float prodTR=dot(data0,hR[0])+dot(data1,hR[1])+dot(data2,hR[2]);
/* sum(data[1:3,0:2].* h)*/
float prodBL=dot(data1,hL[0])+dot(data2,hL[1])+dot(data3,hL[2]);
/* sum(data[1:3,1:3].* h)*/
float prodBR=dot(data1,hR[0])+dot(data2,hR[1])+dot(data3,hR[2]);
output[1280*(i+0)+j]=prodTL;
output[1280*(i+0)+j+1]=prodTR;
output[1280*(i+1)+j]=prodBL;
output[1280*(i+1)+j+1]=prodBR;
}
Рациональный этой конструкции, чтобы загрузить 4x4 блок данных, сделать четыре 3x4 извилины и генерировать 4 выходных отсчетов.
Этот код имеет несколько очевидных проблем:
1) вектор нагрузки не совпадает с вектором границы.
2) складирование продукции не векторизованы
3) производительность низка: 3ms на Intel XEON 1245v3 с P4600 (с Beignet OpenCL implenentation) и 27ms на Freescale IMX6Q с GC2000 (с Freescale OpenCL libOpenCL).
Вопрос:
1) то, что я сделал неправильно, и почему это так медленно?
2) Какую производительность следует ожидать в процентах от сырых FLOPS? (p4600 способен к 20EU * 2PFU/EU * SIMD8 = 320FLOPS/цикл между 350 МГц и 1,2 ГГц, в то время как GC2000 способен не менее 14GFLOPS)
3) в целом, как векторизовать фиксированный размер несепарабельного размера 2D-свертка без создания избыточного трафика памяти и конфликта кэша?
Является ли это отделимой сверткой (например, гауссовой сверткой)? Эта операция будет связана с пропускной способностью памяти, за исключением гораздо больших ядер, чем 3x3. –
@ Zboson No. Проблема, которую я пытаюсь решить, - это обработать несепарабельные случаи. Я полагаю, что ключ оптимизации состоит в том, чтобы уменьшить пропускную способность памяти от 'O (mn)' (output_size * kernel_size) до 'O (n)' с использованием локальной памяти. – user3528438