CUDA学习第二天： GPU核心与SM核心组件[通俗易懂](如何查看自己CUDA版本)

1. CUDA的内存模型

每个线程有自己的私有本地内存(local memory) ，每个线快有包含共享内存，可以被线程块中所有线程共享，其声明周期与线程块一致。

此外，所有的线程都可以访问全局内存（global memory）还可以访问一些只读内存块：常量内存(Constant Memory)和纹理内存（Texture Memory).

2. GPU的核心组件 – SM（Streaming Multiprocessor）

与CPU的多线程类似，一个Kernel实际上会启动很多线程，而多线程如果没有多核支持，在物理层也是无法实现并行的。

而GPU存在很多CUDA核心，充分利用CUDA核心可以发挥GPU的并行计算能力。‘

SM的核心组件包括CUDA核心，共享内存，寄存器等，SM可以并发地执行数百个线程，并发能力就取决与SM所拥有的资源数。

3.SIMI–（Single-Intruction, Multiple-Thread）单指令多线程

基本的执行单元是线程束（wraps)，线程束包含32个线程，这些线程同时执行相同的指令，但是每个线程都包含自己的指令地址计数器和寄存器状态，也有自己独立的执行路径。

所以尽管线程束中的线程同时从同一程序地址执行，但是可能具有不同的行为，比如遇到了分支结构，一些线程可能进入这个分支，但是另外一些有可能不执行，它们只能死等，因为GPU规定线程束中所有线程在同一周期执行相同的指令，线程束分化会导致性能下降。

总之，就是网格和线程块只是逻辑划分，一个kernel的所有线程其实在物理层是不一定同时并发的。所以kernel的grid和block的配置不同，性能会出现差异。另外，由于SM的基本执行单元是包含32个线程的线程束，所以block大小一般要设置为32的倍数。

4. 第一个CUDA示例，Cmake的配置等

#include <iostream>
#include <cuda.h>
#include <cuda_runtime.h>
#include <cuda_runtime_api.h>
void printDeviceProp(cudaDeviceProp& devProp, int dev)
{ 

std::cout << "使用GPU device " << dev << ": " << devProp.name << std::endl;
std::cout << "SM的数量：" << devProp.multiProcessorCount << std::endl;
std::cout << "每个线程块的共享内存大小：" << devProp.sharedMemPerBlock / 1024.0 << " KB" << std::endl;
std::cout << "每个线程块的最大线程数：" << devProp.maxThreadsPerBlock << std::endl;
std::cout << "每个EM的最大线程数：" << devProp.maxThreadsPerMultiProcessor << std::endl;
std::cout << "每个EM的最大线程束数：" << devProp.maxThreadsPerMultiProcessor / 32 << std::endl;
}
bool initCUDA(cudaDeviceProp& devProp)
{ 

int count;
cudaGetDeviceCount(&count);
if(count == 0) { 
return false;};
int i;
for(i=0; i<count; i++)
{ 

if(cudaGetDeviceProperties(&devProp, i) == cudaSuccess)
{ 

if(devProp.major >= 1)
{ 

printDeviceProp(devProp, i);
break;
}
}
}
if(i == count) { 
std::cout<<"CUDA can't support the device !"<<std::endl;	return false;};
cudaSetDevice(i);
return false;
}
int main()
{ 

cudaDeviceProp devProp;
if(initCUDA(devProp))
{ 

std::cout<<"CUDA initialized Succed. \n"<<std::endl;
}
//CHECK(cudaGetDeviceProperties(&devProp, dev));
return 0;
}

CMakeLists.txt 的配置

cmake_minimum_required(VERSION 3.1)
project(CUDA_Toturials)
set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} --std=c++11")
#set the default path for built executables to the "bin" directory
set(CMAKE_BUILD_TYPE Debug)
set(EXECUTABLE_OUTPUT_PATH ${ 
PROJECT_SOURCE_DIR}/bin)
SET( LIBRARY_OUTPUT_PATH ${ 
PROJECT_SOURCE_DIR}/lib)
LINK_DIRECTORIES( ${ 
PROJECT_SOURCE_DIR}/lib)
INCLUDE_DIRECTORIES( ${ 
PROJECT_SOURCE_DIR}/include )
# openMp for parallel
# find_package(OpenMP)
# if(OPENMP_FOUND)
# set(CMAKE_C_FLAGS "${CMAKE_C_FLAGS} ${OpenMP_C_FLAGS}")
# set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} ${OpenMP_CXX_FLAGS}")
# endif()
find_package(CUDA 8.0 REQUIRED)
include_directories(${ 
CUDA_INCLUDE_DIRS})
# 设置CUAD编译配置
set(CUDA_NVCC_FLAGS "-g -G")
# build option
set(GENCODE -gencode=arch=compute_35,code=sm_35)
set(GENCODE ${ 
GENCODE} -gencode=arch=compute_30,code=sm_30)
set(GENCODE ${ 
GENCODE} -gencode=arch=compute_20,code=sm_20)
set(GENCODE ${ 
GENCODE} -gencode=arch=compute_10,code=sm_10)
set(GENCODE ${ 
GENCODE} -gencode arch=compute_61,code=sm_61)
# 生成可执行文件
cuda_add_executable(main src/main.cpp)
# add_subdirectory(src)

CUDA学习第二天： GPU核心与SM核心组件[通俗易懂](如何查看自己CUDA版本)

1. CUDA的内存模型

2. GPU的核心组件 – SM（Streaming Multiprocessor）

3.SIMI–（Single-Intruction, Multiple-Thread）单指令多线程

4. 第一个CUDA示例，Cmake的配置等

《无双大蛇Z》菜鸟轻松玩激难：练级刷武器、全人物心得

twincat3安装教程,twincat3软件怎么卸载干净

最新文章

153分！DxOMark公布小米15 Ultra相机排名

OPPO Find X8 Ultra电池超6000mAh 今年唯一双电芯Ultra！

干将莫邪剑如今在哪里

如何做一个有心眼的人

新手如何倒车入库

兔跟牛属相婚配如何

石牛寨玻璃桥在哪里

进京证到期出京怎么办

长春连锁美容院有哪些

梁永斌是茂名哪里人

标签

热评文章

荣耀Magic V4确认搭载满血骁龙8至尊版最快5月底发布

无线流量卡哪个最优惠价格无限流量卡最便宜(移动哪个无限流量卡比较好)

无锡大流量卡套餐价格无锡流量卡哪个好(2024年便宜好用的大流量卡套餐)

无锡流量卡移动套餐价格无锡移动流量卡哪个好(无锡移动流量套餐有哪些)

无锡高速流量卡套餐价格无锡高速流量卡套餐价格表(29元135G套餐任选)

CUDA学习第二天： GPU核心与SM核心组件[通俗易懂](如何查看自己CUDA版本)

1. CUDA的内存模型

2. GPU的核心组件 – SM（Streaming Multiprocessor）

3.SIMI–（Single-Intruction, Multiple-Thread）单指令多线程

4. 第一个CUDA示例，Cmake的配置等

《无双大蛇Z》菜鸟轻松玩激难：练级刷武器、全人物心得

twincat3安装教程,twincat3软件怎么卸载干净

最新文章

153分！DxOMark公布小米15 Ultra相机排名

标签

热评文章

荣耀Magic V4确认搭载满血骁龙8至尊版 最快5月底发布

无线流量卡哪个最优惠价格 无限流量卡最便宜(移动哪个无限流量卡比较好)

无锡大流量卡套餐价格 无锡流量卡哪个好(2024年便宜好用的大流量卡套餐)

无锡流量卡移动套餐价格 无锡移动流量卡哪个好(无锡移动流量套餐有哪些)

无锡高速流量卡套餐价格 无锡高速流量卡套餐价格表(29元135G套餐任选)

关注我们的公众号

荣耀Magic V4确认搭载满血骁龙8至尊版最快5月底发布

无线流量卡哪个最优惠价格无限流量卡最便宜(移动哪个无限流量卡比较好)

无锡大流量卡套餐价格无锡流量卡哪个好(2024年便宜好用的大流量卡套餐)

无锡流量卡移动套餐价格无锡移动流量卡哪个好(无锡移动流量套餐有哪些)

无锡高速流量卡套餐价格无锡高速流量卡套餐价格表(29元135G套餐任选)