阿萍的博客

“CUDA”

NVIDIA GeForce RTX 5090 core dump 排查

5090 如果不限制 maxrregcount=102 或者不修改 numThreadsPerBlock=512 → 384,会 core dump编译的时候加上 -G 会产生误导信息:CUDA...

CUDA Cooperative Groups 求和规约示例

CUDA Cooperative Groups 求和规约示例优点Warp 原生指令,可避免共享内存访问,减少延迟自动同步,无需手动调用 __syncthreads()灵活线程组,支持任意大小的 ...

CUDA 入门

Introduction to CUDA C++__global__ 表示在设备上执行threads 组成 block,blocks 组成 grid使用 blockIdx.x 访问 block ...