CUDA - 阿萍的博客

矩阵转置

代码：https://github.com/felicityin/cuda-demo/blob/main/cuda/matrix_transpose.cu本文使用笛卡尔坐标系 (x, y)，th...

2025-12-14 CUDA

假如想对输入数组执行一个简单的并行操作，并为每个输入数组元素分配一个线程，但输入数组的元素数量却超过了可用线程数，该如何处理？如下是一个简单的 CUDA 内核，接受两个大小为 n 的输入数组，将...

2025-12-14 CUDA

5090 如果不限制 maxrregcount=102 或者不修改 numThreadsPerBlock=512 → 384，会 core dump编译的时候加上 -G 会产生误导信息：CUDA...

2025-10-18 问题解决，CUDA

Introduction to CUDA C++__global__ 表示在设备上执行threads 组成 block，blocks 组成 grid使用 blockIdx.x 访问 block ...

2025-07-12 编程语言，CUDA