Что происходит, когда вы вызываете cudaMalloc внутри устройства?

Это действительно работает, поэтому мне интересно, cuda динамически выделяет память на устройстве в потоке? Если да, то в чем польза __device__ malloc, так как это намного быстрее в сравнении? Я спрашиваю о том, что действительно происходит за сценой, когда вы используете cudaMalloc в ядре, поскольку он кажется намного быстрее, чем просто устройство malloc в куче.Что происходит, когда вы вызываете cudaMalloc внутри устройства?

#include <iostream> 
#include <numeric> 
#include <stdlib.h> 

__global__ void testMem(int* time){ 
    int* a; 
    cudaMalloc(&a,sizeof(int)); 
    a[0] = 4; 
    time = a[0]; 
} 

__global__ void testMem2(int* time){ 

} 
int main(){ 
    int* h_time = (int*)malloc(sizeof(int)); 
    h_time[0] =0; 
    int* d_time; 
    cudaMalloc(&d_time,sizeof(int)); 
    clock_t start1 = clock(); 
    cudaMemcpy(d_time,h_time,sizeof(int),cudaMemcpyHostToDevice); 

    testMem<<<1,1>>>(d_time); 
    cudaMemcpy(h_time,d_time,sizeof(int),cudaMemcpyDeviceToHost); 
    cudaDeviceSynchronize(); 
    clock_t end1 = clock(); 

    int result = end1- start1; 
    //float result = (float)*h_time; 
    //result =result/ CLOCKS_PER_SEC; 
    std::cout<<result<<std::endl; 
    std::cout<<*h_time<<std::endl; 
    //std::cout<<(1<<10); 
    cudaFree(d_time); 
    free(h_time); 

}

источник

2016-05-23 Rocky Zhang

Начальная вычислительная способность 3.5, вы можете использовать часть api cuda runtime api в ядрах. Эти методы объявлены как __host__ __device__ в документации, так же, как here:

__host__ __device__ cudaError_t cudaMalloc (void** devPtr, size_t size)

Выделение памяти на устройстве.

При этом напоминайте ссылку на библиотеку времени выполнения устройства: cudadevrt.lib.

Существует еще один способ динамически распределять память на устройстве: использование malloc, которое реализовано по-разному (задокументировано here). Он использует небольшую кучу памяти и не требует одинаковой вычислительной способности.

источник

2016-05-23 06:30:32

Есть ли где-нибудь я могу прочитать, как cudaMalloc реализуется при вызове внутри ядра? Я бы очень хотел это знать, прежде чем я начну отключать все свои функции malloc. –

@RockyZhang, Ну, я считаю, что это часть некоторой внутренней реализации cudadevrt. Если вам нужна дополнительная информация по этой теме, вы можете зарегистрироваться в качестве разработчика и напрямую задать свой вопрос в NVIDIA. Но, на мой взгляд, это вне темы. –

Что происходит, когда вы вызываете cudaMalloc внутри устройства?

ответ

Смежные вопросы