阿萍的博客

2025年12月

矩阵转置

代码:https://github.com/felicityin/cuda-demo/blob/main/cuda/matrix_transpose.cu本文使用笛卡尔坐标系 (x, y),th...

数据量大于线程数怎么办

假如想对输入数组执行一个简单的并行操作,并为每个输入数组元素分配一个线程,但输入数组的元素数量却超过了可用线程数,该如何处理?如下是一个简单的 CUDA 内核,接受两个大小为 n 的输入数组,将...