开发者活动 | 2023 NVIDIA & 创乐博 CUDA 线上训练营火热报名中-电子发烧友网

NVIDIA 作为一家全栈式 AI 计算平台的赋能者，致力于推动全球性的人工智能和科学计算的发展，通过推广高性能技术应用为社会发展做出积极贡献。尤其在国内高等教育领域，十多年来 NVIDIA 一直努力为众多高校提供培养下一代加速计算技术人才的 CUDA 教学相关资源。CUDA 编程技术人员现在已经成为业界在高性能计算及 AI 开发及应用领域内的主流技术支撑。

为了能够让与加速计算相关的高校学生能够及时了解最新的 CUDA 编程技术的发展与变化，我们发起了 CUDA 线上训练营公益活动，以增加学生学习及体验最新技术的机会，同时拉近教学与市场应用的距离。几年来的活动实施效果得到了业界的肯定与认可，CUDA 线上训练营的教材被应用到了高校的教材里面，甚至被采纳作为教学实验课。

2023 NVIDIA &创乐博 CUDA 线上训练营由 NVIDIA 发起，由创乐博冠名赞助，旨在帮助初学者学习如何在 GPU 上快速加速代码，掌握 CUDA 编程的基本概念和技能。

NVIDIA 工程师将通过为期 5 天的时间，系统性地介绍 ARM 嵌入式平台的特色，以及在该平台上如何实现 CUDA 并行加速计算。通过四大模块的学习，并搭配丰富的线上实验环节，让学生们掌握基于Arm 的 Jetson 开发环境和 GPU 异构计算原理，了解 CUDA 编程模型，包括线程组织和 CUDA 存储单元，以及如何利用共享存储单元优化应用等。每次课程介绍完，会提供相应的编程实例，让学生在实际操作中理解概念。

训练营的最终目标是帮助学习者建立对 GPU 编程的信心，为此，还将建立专门的 CUDA 学习线上微信群。邀请 CUDA 编程专家在线回答同学们的问题，辅导同学们进行线上实验。

高效学习 GPU 编程

职业生涯快人一步！

报名须知

报名时间：即日起– 7月23日

训练营时间：7月24日– 7月28日

线上结业考试时间：7月29日09:00 AM – 12:00 AM

报名链接：识别海报二维码或点击阅读原文。

报名后请添加微信号【社区助教】：gpusupport，确认报名费缴纳事宜；同时助教会拉您进入相应的微信群。

招生要求

✦本课程需要学员具备一定的 C/C++ 程序设计基础。

✦收费班：

主办方提供 Jetson 云平台，参加者无需准备开发环境，只需要通过自己普通电脑的浏览器远程访问 Jetson 计算平台进行学习。为了确保学习效果，将对每位参加者收取 100 元的报名费。完成了每日的学习打卡任务，将原路退回 100 元。

此班级只针对在校学生。

人数限制 100 名。

✦旁听班：自己准备 GPU 电脑，自行安装 CUDA 环境。

此班级面向所有开发者。

人数无上限。

✦两个班级都会安排上机考试，通过考试，可以获得结业证书。

课程亮点

✦介绍高性能计算基础编程模型 CUDA 的基本编程原理。✦在结合 Arm CPU 和 GPU 的实验平台上完成动手实践。✦内容和应用相结合，将介绍如何利用 CUDA 完成光影渲染、信号处理、深度学习的网络搭建等热门案例。✦6次实验课, 几千行实验代码, 让学生在动手实验的过程中了解GPU加速的原理和方法。✦完成课程结业测试，NVIDIA 企业开发者社区将颁发结业证书和纪念徽章。

指导老师

何琨（Ken He）

NVIDIA 企业级开发者社区高级经理，拥有多年的 GPU 和人工智能开发经验。自 2017 年加入 NVIDIA 开发者社区以来，完成过上百场培训，帮助上万个开发者了解人工智能和 GPU 编程开发。在计算机视觉，高性能计算领域完成过多个独立项目。并且，在机器人和无人机领域，有过丰富的研发经验。对于图像识别，目标的检测与跟踪完成过多种解决方案。曾经参与 GPU 版气象模式 GRAPES，是其主要研发者。

李奕澎

NVIDIA 企业开发者社区经理，拥有 4 年数据分析建模开发经验，3 年人工智能自然语言处理开发经验。在自动语音识别、自然语言处理、自然语言理解等技术有着丰富的实战经验与见解。

训练营日程安排

Day1 - 7月24日

910 开营

NVIDIAGPU 应用市场总监侯宇涛致辞

创乐博介绍

1.Jetson 开发环境介绍，Linux 系统简介（1.1 理论课+实验课）

介绍实验平台，介绍 Linux 编译的基本技巧，介绍基本的开发环境

实验课：Makefile 文件编写规范

2. GPU 架构及异构计算

介绍 GPU 架构以及异构计算的基本原理

介绍 GPU 硬件平台

介绍基于 Jetson的嵌入式平台 GPU 架构和编程模型之间的关系

最新的 GPU 应用领域，GPU 在现代计算机科学中的通用性

3. CUDA 编程模型 — 初识 CUDA

CUDA 程序的编译

GPU 线程的调用

GPU和 CPU 的通讯

使用多个线程的核函数

使用线程索引

多维网络

网格与线程块

利用 NVProf 查看程序执行情况

实验课内容：编写程序 HelloCUDA，并且利用 NVCC 编译。编写 VectorAdd 多线程程序，和多维网络线程程序，并用 nvprof 来测试不同设置情况下运行速度。

Day2- 7月25日

930（1100 午休）

4. CUDA 编程模型 — CUDA 存储单元的使用与错误检测

设备初始化

GPU 的存储单元

GPU 存储单元的分配与释放

数据的传输

数据与线程之间的对应关系

CUDA 应用程序运行时的错误检测

CUDA 中的事件

利用事件进行计时

实验课内容：编写 MatrixMul 程序，体验线程和数据的对应关系

留课后作业

5. 多种 CUDA 储存单元详解

CUDA 中的存储单元种类

CUDA 中的各种存储单元的使用方法

CUDA中的各种存储单元的适用条件

6. 利用共享存储单元优化应用

共享存储单元详解

共享内存的 Bankconflict

利用共享存储单元进行矩阵转置和矩阵乘积

实验课内容：编写 Shared Memory 优化过的矩阵乘法

介绍 sharedmemory 原理，介绍利用 sharedmemory优化的多种案例

矩阵转置

Day3- 7月26日

930（1100 午休）

7. CUDA 编程模型 — 原子操作

CUDA 中的原子操作

原子操作的适用场景

利用原子操作优化程序

规越算法的实验

8. 基于 ARM 平台的 Jetson Nano存储单元调用

基于 ARM 平台的 Jetson Nano 的存储单元特点

统一内存的基本概念

如何更有效的利用 Jetson 的存储单元

实验课内容：编写 MatrixMul 程序，体验统一内存的使用方法

介绍基于 Jetson 平台的共享存储单元的特点，介绍 Jetson 平台 SoC DRAM memory 的应用

Day4- 7月27日

930（1100 午休）

9. CUDAstream

CUDA 流的基本概念

默认流与非默认流

利用 CUDA 流重叠计算和数据传输

实验课内容：体验利用流来减少运行时间

介绍 CUDAstream，介绍利用 stream 分割处理的加速方案，介绍利用 stream 处理超大数据的加速方案

10. CUDA 加速库介绍：Thrust，cuBLAS，cuFFT，CV-CUDA

cuBLAS 介绍

cuFFT 介绍

Thrust 介绍

CV-CUDA 介绍

完成多种库（开源项目）的实例应用

Day5 - 7月28日：线上答疑

Day6 - 7月29日：线上课程结业考试

关于考核

1. 完成所有的理论和上机实验，并完成小程序打卡。

2. 完成课后线上答题。

3. 所有课程结束后完成三个考题，每个考题为完成一段程序，由易到难。

三组都完成的视为合格

考试时间：7月29日 09:00 Am—12:00 Am

教材资源

训练营教材：《CUDA ON ARM PLATFORM训练营》自编教材

参考书目：樊哲勇《 CUDA 编程：基础与实践》清华大学出版社出版时间：2020-10-01

NVIDIA 官方文档：CUDA C++ Best Prac tices Guide

（https://docs.nvidia.com/cuda/cuda-c-best-practices-guide/index.html#abstract）

NVIDIA 官方文档：CUDA Programming Guide（https://docs.nvidia.com/cuda/#programming-guides）

立即扫描下方二维码报名，学生报名仅限 100 席，先到先得！

原文标题：开发者活动 | 2023 NVIDIA & 创乐博 CUDA 线上训练营火热报名中

文章出处：【微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

英伟达

英伟达

+关注

关注
22

文章
3902

浏览量
92946

原文标题：开发者活动 | 2023 NVIDIA & 创乐博 CUDA 线上训练营火热报名中

文章出处：【微信号：NVIDIA-Enterprise，微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

开发者活动 | 2023 NVIDIA & 创乐博 CUDA 线上训练营火热报名中

高效学习 GPU 编程

职业生涯快人一步！

评论

X-NUCLEO-53L4A2: VL53L4CX飞行时间传感器具测量扩展板

ATA-2022H高压放大器西安安泰电子双通道

按摩仪方案PCBA设计

MK17系列干簧传感器

鸿诚志远RK系列行业主板套件

斯丹麦德电子

7

下载

斯丹麦德电子

7

下载

RA生态工作室

177

下载

合众恒跃

78

下载

FCom富士晶振

86

下载

低功耗×低抖动×多封装：FCom富士晶振FCO-PJ系列时钟方案解析

高效能电动工具控制方案：基于STM32G473和STDRIVE101的参考设计

适配1.8V/2.5V/3.3V电压的高稳定晶振方案（含MCU推荐）

Nordic nRF52840 | Dialog DA14695 等可穿戴平台超低功耗振荡器芯片应用方案

基于 NXP NCJ29D5D UWB 定位算法方案

搜索历史

开发者活动 | 2023 NVIDIA & 创乐博 CUDA 线上训练营火热报名中

高效学习 GPU 编程

职业生涯快人一步！

评论

半导体芯片需要做哪些测试

解决方案 | 芯佰微赋能示波器：高速ADC、USB控制器和RS232芯片——高性能示波器的秘密武器！

硬件设计基础----运算放大器

ElfBoard技术贴|如何调整eMMC存储分区

米尔基于MYD-YG2LX系统启动时间优化应用笔记

运放技术——基本电路分析

飞凌嵌入式携手中移物联，谱写全国产化方案新生态

ATA-2022B高压放大器在螺栓松动检测中的应用

MOS管驱动电路——电机干扰与防护处理

压敏（MOV）在电机上的应用剖析

硬件原理图学习笔记

TurMass™ vs LoRa：无线通讯模块的革命性突破

RZT2H CR52双核BOOT流程和例程代码分析

干簧继电器在RF信号衰减中的应用与优势

ElfBoard嵌入式教育科普|ADC接口全面解析