Выполняется ли вызов функции устройства CUDA (определенный с помощью __device__
) из ядра, аналогичный хост-функции, т. Е. Включает ли нажатие обратного адреса в стеке и нажатие переменных в стеке и извлечение по возврату?Как работает функция устройства CUDA?
Если да, то какая память используется в этом случае для стека? (кеш, общий или глобальный)