Это действительно работает, поэтому мне интересно, cuda динамически выделяет память на устройстве в потоке? Если да, то в чем польза __device__ malloc
, так как это намного быстрее в сравнении? Я спрашиваю о том, что действительно происходит за сценой, когда вы используете cudaMalloc в ядре, поскольку он кажется намного быстрее, чем просто устройство malloc в куче.Что происходит, когда вы вызываете cudaMalloc внутри устройства?
#include <iostream>
#include <numeric>
#include <stdlib.h>
__global__ void testMem(int* time){
int* a;
cudaMalloc(&a,sizeof(int));
a[0] = 4;
time = a[0];
}
__global__ void testMem2(int* time){
}
int main(){
int* h_time = (int*)malloc(sizeof(int));
h_time[0] =0;
int* d_time;
cudaMalloc(&d_time,sizeof(int));
clock_t start1 = clock();
cudaMemcpy(d_time,h_time,sizeof(int),cudaMemcpyHostToDevice);
testMem<<<1,1>>>(d_time);
cudaMemcpy(h_time,d_time,sizeof(int),cudaMemcpyDeviceToHost);
cudaDeviceSynchronize();
clock_t end1 = clock();
int result = end1- start1;
//float result = (float)*h_time;
//result =result/ CLOCKS_PER_SEC;
std::cout<<result<<std::endl;
std::cout<<*h_time<<std::endl;
//std::cout<<(1<<10);
cudaFree(d_time);
free(h_time);
}
Есть ли где-нибудь я могу прочитать, как cudaMalloc реализуется при вызове внутри ядра? Я бы очень хотел это знать, прежде чем я начну отключать все свои функции malloc. –
@RockyZhang, Ну, я считаю, что это часть некоторой внутренней реализации cudadevrt. Если вам нужна дополнительная информация по этой теме, вы можете зарегистрироваться в качестве разработчика и напрямую задать свой вопрос в NVIDIA. Но, на мой взгляд, это вне темы. –