“CUDA”
矩阵转置
代码:https://github.com/felicityin/cuda-demo/blob/main/cuda/matrix_transpose.cu本文使用笛卡尔坐标系 (x, y),th...
数据量大于线程数怎么办
假如想对输入数组执行一个简单的并行操作,并为每个输入数组元素分配一个线程,但输入数组的元素数量却超过了可用线程数,该如何处理?如下是一个简单的 CUDA 内核,接受两个大小为 n 的输入数组,将...
NVIDIA GeForce RTX 5090 core dump 排查
5090 如果不限制 maxrregcount=102 或者不修改 numThreadsPerBlock=512 → 384,会 core dump编译的时候加上 -G 会产生误导信息:CUDA...
CUDA Cooperative Groups 求和规约示例
CUDA Cooperative Groups 求和规约示例优点Warp 原生指令,可避免共享内存访问,减少延迟自动同步,无需手动调用 __syncthreads()灵活线程组,支持任意大小的 ...
CUDA 入门
Introduction to CUDA C++__global__ 表示在设备上执行threads 组成 block,blocks 组成 grid使用 blockIdx.x 访问 block ...