CUDA найти максимальное значение в общей памяти

У меня есть ядро, которое производит массив значений результата, и я хочу эффективно найти максимум этих значений. Массив инициализируется в начале ядра с некоторым отрицательным значением (например, -1). Ядро выполняется, например, по 5 блоков с 256 потоками.CUDA найти максимальное значение в общей памяти

Вот проблемы:

Из-за моих данных, я должен прекратить потоки, которые не являются допустимыми, так что я иногда работаю с 256 нитями, иногда 50, 20 и так далее.
В общей памяти записаны результаты из блока, но, как я уже упоминал, некоторый массив имеет 50 результатов, некоторые из которых имеют 256 результатов ... (так что общий массив выглядит так) 8,6,4,9,1, -1, -1, -1 ...
В этом случае, как эффективно найти максимум в одном блоке?

Параллельное восстановление будет сложным на этих типах массивов, не так ли? Как это сделать?

источник

2012-04-19 Hlavson

Done, sry Я совершенно новый :) – Hlavson

Что вы имеете в виду с «прекратить» потоки? Сделайте «возврат» для этой темы? Потому что это не рекомендуется – pQB

Рассматривали ли вы использование одной из бесплатных библиотек для поиска максимального значения (например, ArrayFire)? – arrayfire

Информация о вашем алгоритме недостаточно.

Что вы подразумеваете под n результатами? Являются ли проигнорированные значения в массиве равными -1 или вы используете динамическую внешнюю разделяемую память, а потоки записываются только в индекс n (звуки трудно реализовать)?

использовать фиксированный размер разделяемой памяти и набор игнорировали значения до -1 и по-прежнему выполнять параллельное сокращение, если поиск положительного максимума и его заполнения с -1 не имеет значения, или
Дон «т прекратить потоки, вместо того, чтобы установить флаг в другом массиве, если поток не должен выполнять дальнейшие расчеты и до сих пор делает параллельного снижение

источник

2012-04-19 12:33:45 djmj

Я решил его с параллельным сокращением, с моими данными и -1 по индексам, где нет данных предыдущих вычислений, и он работает :-) – Hlavson

вы можете сделать сокращение в ядре (как сказал djmj), или вы можете использовать тягу объединить функтор и редукцию (например, tr ansform_reduce). Thrust включен в CUDA Toolkit, см. this page на примере transform_reduce.

источник

2012-04-19 15:57:50 Tom

CUDA найти максимальное значение в общей памяти

ответ

Смежные вопросы