跳转至

CUDA

CUDA Programming Guide

首先要先理解thread, block和grid的关系

官方文档图片 👇

每个block的threads数量是有限制的,因为一个block的所有threads都驻留在同一个SM(流式多处理器核心)上,并且必须共享该核心有限的内存资源。在当前的GPU上,一个线程块可能包含多达1024个线程, 如果threads二维的话,可以定义为dim3 threads(16,16), 表示了有16*16=256个threads

一个kernal可以由多个形状相同的blocks执行,总threads数等于blocks*threadspreblock

多个blocks构成了grid, 用户需要自己设定blocks和threads的数量

block内的threads通过shared memory共享数据,并通过同步执行来协调内存访问。

更准确地说,可以通过调用__syncthreads()内部函数来指定内核中的同步点;__syncthreads()作为一个屏障,块中的所有线程必须在允许任何线程继续之前等待。共享内存给出了一个使用共享内存的例子。除了__syncthreads()之外,协作组API还提供了一组丰富的线程同步基元。

NVIDIA Compute Capability 9.0推出的新的层级结构--Thread Block Clusters: 类似于block中的threads保证在SM上被共同调度,cluster中的block也保证在GPU中的GPU处理集群(GPC)上被共同调度,说白了就是block和grid之间多了一级,但是grid的维度依旧是通过block计算的而不是通过cluster, cluster可以通过多种方式定义,这里不做展开,相关API一查就有

Memory Hierarchy(内存层级)

这节超重要!

官方文档图片 👇

每个thread都有私有的本地内存。每个block具有block内所有thread都可见的共享内存(shared memory),并且与该block具有相同的生命周期, 所有thread访问相同的全局内存(global memory)。

Heterogeneous Programming(异构编程)

说白了就是cpu和gpu之间来回倒的编程

Asynchronous Operations(异步编程)

异步操作被定义为由CUDA thread 发起并由另一个thread 异步执行的操作。

trick

返回的pitch(stride)必须用于访问数组元素。