NVIDIA 作为一家全栈式 AI 计算平台的赋能者,致力于推动全球性的人工智能和科学计算的发展,通过推广高性能技术应用为社会发展做出积极贡献。尤其在国内高等教育领域,十多年来 NVIDIA 一直努力为众多高校提供培养下一代加速计算技术人才的 CUDA 教学相关资源。CUDA 编程技术人员现在已经成为业界在高性能计算及 AI 开发及应用领域内的主流技术支撑。
为了能够让与加速计算相关的高校学生能够及时了解最新的 CUDA 编程技术的发展与变化,我们发起了 CUDA 线上训练营公益活动,以增加学生学习及体验最新技术的机会,同时拉近教学与市场应用的距离。几年来的活动实施效果得到了业界的肯定与认可,CUDA 线上训练营的教材被应用到了高校的教材里面,甚至被采纳作为教学实验课。
2023 NVIDIA &创乐博 CUDA 线上训练营由 NVIDIA 发起,由创乐博冠名赞助,旨在帮助初学者学习如何在 GPU 上快速加速代码,掌握 CUDA 编程的基本概念和技能。
NVIDIA 工程师将通过为期 5 天的时间,系统性地介绍 ARM 嵌入式平台的特色,以及在该平台上如何实现 CUDA 并行加速计算。通过四大模块的学习,并搭配丰富的线上实验环节,让学生们掌握基于Arm 的 Jetson 开发环境和 GPU 异构计算原理,了解 CUDA 编程模型,包括线程组织和 CUDA 存储单元,以及如何利用共享存储单元优化应用等。每次课程介绍完,会提供相应的编程实例,让学生在实际操作中理解概念。
训练营的最终目标是帮助学习者建立对 GPU 编程的信心,为此,还将建立专门的 CUDA 学习线上微信群。邀请 CUDA 编程专家在线回答同学们的问题,辅导同学们进行线上实验。
高效学习 GPU 编程
职业生涯快人一步!

报名须知
报名时间:即日起– 7月23日
训练营时间:7月24日– 7月28日
线上结业考试时间:7月29日09:00 AM – 12:00 AM
报名链接:识别海报二维码或点击阅读原文。
报名后请添加微信号【社区助教】:gpusupport,确认报名费缴纳事宜;同时助教会拉您进入相应的微信群。

招生要求
✦本课程需要学员具备一定的 C/C++ 程序设计基础。
✦收费班:
主办方提供 Jetson 云平台,参加者无需准备开发环境,只需要通过自己普通电脑的浏览器远程访问 Jetson 计算平台进行学习。为了确保学习效果,将对每位参加者收取 100 元的报名费。完成了每日的学习打卡任务,将原路退回 100 元。
此班级只针对在校学生。
人数限制 100 名。
✦旁听班:自己准备 GPU 电脑,自行安装 CUDA 环境。
此班级面向所有开发者。
人数无上限。
✦两个班级都会安排上机考试,通过考试,可以获得结业证书。

课程亮点
✦介绍高性能计算基础编程模型 CUDA 的基本编程原理。✦在结合 Arm CPU 和 GPU 的实验平台上完成动手实践。✦内容和应用相结合,将介绍如何利用 CUDA 完成光影渲染、信号处理、深度学习的网络搭建等热门案例。✦6次实验课, 几千行实验代码, 让学生在动手实验的过程中了解GPU加速的原理和方法。✦完成课程结业测试,NVIDIA 企业开发者社区将颁发结业证书和纪念徽章。
指导老师

何琨(Ken He)
NVIDIA 企业级开发者社区高级经理,拥有多年的 GPU 和人工智能开发经验。自 2017 年加入 NVIDIA 开发者社区以来,完成过上百场培训,帮助上万个开发者了解人工智能和 GPU 编程开发。在计算机视觉,高性能计算领域完成过多个独立项目。并且,在机器人和无人机领域,有过丰富的研发经验。对于图像识别,目标的检测与跟踪完成过多种解决方案。曾经参与 GPU 版气象模式 GRAPES,是其主要研发者。

李奕澎
NVIDIA 企业开发者社区经理,拥有 4 年数据分析建模开发经验,3 年人工智能自然语言处理开发经验。在自动语音识别、自然语言处理、自然语言理解等技术有着丰富的实战经验与见解。

训练营日程安排

Day1 - 7月24日
910 开营
NVIDIAGPU 应用市场总监侯宇涛致辞
创乐博 介绍
1.Jetson 开发环境介绍,Linux 系统简介(1.1 理论课+实验课)
介绍实验平台,介绍 Linux 编译的基本技巧,介绍基本的开发环境
实验课:Makefile 文件编写规范
2. GPU 架构及异构计算
介绍 GPU 架构以及异构计算的基本原理
介绍 GPU 硬件平台
介绍基于 Jetson的嵌入式平台 GPU 架构和编程模型之间的关系
最新的 GPU 应用领域,GPU 在现代计算机科学中的通用性
3. CUDA 编程模型 — 初识 CUDA
CUDA 程序的编译
GPU 线程的调用
GPU和 CPU 的通讯
使用多个线程的核函数
使用线程索引
多维网络
网格与线程块
利用 NVProf 查看程序执行情况
实验课内容:编写程序 HelloCUDA,并且利用 NVCC 编译。编写 VectorAdd 多线程程序,和多维网络线程程序,并用 nvprof 来测试不同设置情况下运行速度。

Day2- 7月25日
930(1100 午休)
4. CUDA 编程模型 — CUDA 存储单元的使用与错误检测
设备初始化
GPU 的存储单元
GPU 存储单元的分配与释放
数据的传输
数据与线程之间的对应关系
CUDA 应用程序运行时的错误检测
CUDA 中的事件
利用事件进行计时
实验课内容:编写 MatrixMul 程序,体验线程和数据的对应关系
留课后作业
5. 多种 CUDA 储存单元详解
CUDA 中的存储单元种类
CUDA 中的各种存储单元的使用方法
CUDA中的各种存储单元的适用条件
6. 利用共享存储单元优化应用
共享存储单元详解
共享内存的 Bankconflict
利用共享存储单元进行矩阵转置和矩阵乘积
实验课内容:编写 Shared Memory 优化过的矩阵乘法
介绍 sharedmemory 原理,介绍利用 sharedmemory优化的多种案例
矩阵转置

Day3- 7月26日
930(1100 午休)
7. CUDA 编程模型 — 原子操作
CUDA 中的原子操作
原子操作的适用场景
利用原子操作优化程序
规越算法的实验
8. 基于 ARM 平台的 Jetson Nano存储单元调用
基于 ARM 平台的 Jetson Nano 的存储单元特点
统一内存的基本概念
如何更有效的利用 Jetson 的存储单元
实验课内容:编写 MatrixMul 程序,体验统一内存的使用方法
介绍基于 Jetson 平台的共享存储单元的特点,介绍 Jetson 平台 SoC DRAM memory 的应用

Day4- 7月27日
930(1100 午休)
9. CUDAstream
CUDA 流的基本概念
默认流与非默认流
利用 CUDA 流重叠计算和数据传输
实验课内容:体验利用流来减少运行时间
介绍 CUDAstream,介绍利用 stream 分割处理的加速方案,介绍利用 stream 处理超大数据的加速方案
10. CUDA 加速库介绍:Thrust,cuBLAS,cuFFT,CV-CUDA
cuBLAS 介绍
cuFFT 介绍
Thrust 介绍
CV-CUDA 介绍
完成多种库(开源项目)的实例应用

Day5 - 7月28日:线上答疑

Day6 - 7月29日:线上课程结业考试

关于考核
1. 完成所有的理论和上机实验,并完成小程序打卡。
2. 完成课后线上答题。
3. 所有课程结束后完成三个考题,每个考题为完成一段程序,由易到难。
三组都完成的视为合格
考试时间:7月29日 09:00 Am—12:00 Am

教材资源
训练营教材:《CUDA ON ARM PLATFORM训练营》自编教材
参考书目:樊哲勇《 CUDA 编程:基础与实践》清华大学出版社出版时间:2020-10-01
NVIDIA 官方文档:CUDA C++ Best Practices Guide
(https://docs.nvidia.com/cuda/cuda-c-best-practices-guide/index.html#abstract)
NVIDIA 官方文档:CUDA Programming Guide(https://docs.nvidia.com/cuda/#programming-guides)
立即扫描下方二维码报名,学生报名仅限 100 席,先到先得!

原文标题:开发者活动 | 2023 NVIDIA & 创乐博 CUDA 线上训练营火热报名中
文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。
-
英伟达
+关注
关注
22文章
3902浏览量
92946
原文标题:开发者活动 | 2023 NVIDIA & 创乐博 CUDA 线上训练营火热报名中
文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
使用NVIDIA CUDA-X库加速科学和工程发展
NVIDIA Jetson Orin Nano开发者套件的新功能

2024年度国内活跃开源项目和开发者在武汉揭晓
云端AI开发者工具怎么用
Silicon Labs将举办WorksWith线上开发者大会
开源共生 商业共赢 | RT-Thread 2024开发者大会报名启动!

冠军说|第二届OpenHarmony竞赛训练营冠军团队专访
NVIDIA Nemotron-4 340B模型帮助开发者生成合成训练数据

2024年上海海思MCU开发者体验官招募,手机/MatePad大奖等你拿!
招募开启!海思首批星闪开发者体验官招募,星闪手机等你拿!
NVIDIA将全球数百万开发者转变为生成式 AI 开发者
NVIDIA NIM 革命性地改变模型部署,将全球数百万开发者转变为生成式 AI 开发者


半导体芯片需要做哪些测试
首先我们需要了解芯片制造环节做⼀款芯片最基本的环节是设计->流片->封装->测试,芯片成本构成⼀般为人力成本20%,流片40%,封装35%,测试5%(对于先进工艺,流片成本可能超过60%)。测试其实是芯片各个环节中最“便宜”的一步,在这个每家公司都喊着“CostDown”的激烈市场中,人力成本逐年攀升,晶圆厂和封装厂都在乙方市场中“叱咤风云”,唯独只有测试显

解决方案 | 芯佰微赋能示波器:高速ADC、USB控制器和RS232芯片——高性能示波器的秘密武器!
示波器解决方案总述:示波器是电子技术领域中不可或缺的精密测量仪器,通过直观的波形显示,将电信号随时间的变化转化为可视化图形,使复杂的电子现象变得清晰易懂。无论是在科研探索、工业检测还是通信领域,示波器都发挥着不可替代的作用,帮助工程师和技术人员深入剖析电信号的细节,精准定位问题所在,为创新与发展提供坚实的技术支撑。一、技术瓶颈亟待突破性能指标受限:受模拟前端

硬件设计基础----运算放大器
1什么是运算放大器运算放大器(运放)用于调节和放大模拟信号,运放是一个内含多级放大电路的集成器件,如图所示:左图为同相位,Vn端接地或稳定的电平,Vp端电平上升,则输出端Vo电平上升,Vp端电平下降,则输出端Vo电平下降;右图为反相位,Vp端接地或稳定的电平,Vn端电平上升,则输出端Vo电平下降,Vn端电平下降,则输出端Vo电平上升2运算放大器的性质理想运算

ElfBoard技术贴|如何调整eMMC存储分区
ELF 2开发板基于瑞芯微RK3588高性能处理器设计,拥有四核ARM Cortex-A76与四核ARM Cortex-A55的CPU架构,主频高达2.4GHz,内置6TOPS算力的NPU,这一设计让它能够轻松驾驭多种深度学习框架,高效处理各类复杂的AI任务。

米尔基于MYD-YG2LX系统启动时间优化应用笔记
1.概述MYD-YG2LX采用瑞萨RZ/G2L作为核心处理器,该处理器搭载双核Cortex-A55@1.2GHz+Cortex-M33@200MHz处理器,其内部集成高性能3D加速引擎Mail-G31GPU(500MHz)和视频处理单元(支持H.264硬件编解码),16位的DDR4-1600/DDR3L-1333内存控制器、千兆以太网控制器、USB、CAN、

运放技术——基本电路分析
虚短和虚断的概念由于运放的电压放大倍数很大,一般通用型运算放大器的开环电压放大倍数都在80dB以上。而运放的输出电压是有限的,一般在10V~14V。因此运放的差模输入电压不足1mV,两输入端近似等电位,相当于“短路”。开环电压放大倍数越大,两输入端的电位越接近相等。“虚短”是指在分析运算放大器处于线性状态时,可把两输入端视为等电位,这一特性称为虚假短路,简称

飞凌嵌入式携手中移物联,谱写全国产化方案新生态
4月22日,飞凌嵌入式“2025嵌入式及边缘AI技术论坛”在深圳成功举办。中移物联网有限公司(以下简称“中移物联”)携OneOS操作系统与飞凌嵌入式共同推出的工业级核心板亮相会议展区,操作系统产品部高级专家严镭受邀作《OneOS工业操作系统——助力国产化智能制造》主题演讲。

ATA-2022B高压放大器在螺栓松动检测中的应用
实验名称:ATA-2022B高压放大器在螺栓松动检测中的应用实验方向:超声检测实验设备:ATA-2022B高压放大器、函数信号发生器,压电陶瓷片,数据采集卡,示波器,PC等实验内容:本研究基于振动声调制的螺栓松动检测方法,其中低频泵浦波采用单频信号,而高频探测波采用扫频信号,利用泵浦波和探测波在接触面的振动声调制响应对螺栓的松动程度进行检测。通过螺栓松动检测

MOS管驱动电路——电机干扰与防护处理
此电路分主电路(完成功能)和保护功能电路。MOS管驱动相关知识:1、跟双极性晶体管相比,一般认为使MOS管导通不需要电流,只要GS电压(Vbe类似)高于一定的值,就可以了。MOS管和晶体管向比较c,b,e—–>d(漏),g(栅),s(源)。2、NMOS的特性,Vgs大于一定的值就会导通,适合用于源极接地时的情况(低端驱动),只要栅极电压达到4V或10V就可以

压敏(MOV)在电机上的应用剖析
一前言有刷直流电机是一种较为常见的直流电机。它的主要特点包括:1.结构相对简单,由定子、转子、电刷和换向器等组成;2.通过电刷与换向器的接触来实现电流的换向,从而使电枢绕组中的电流方向周期性改变,保证电机持续运转;3.具有调速性能较好等优点,可以通过改变电压等方式较为方便地调节转速。有刷直流电机在许多领域都有应用,比如一些电动工具、玩具、小型机械等。但它也存

硬件原理图学习笔记
这一个星期认真学习了硬件原理图的知识,做了一些笔记,方便以后查找。硬件原理图分为三类1.管脚类(gpio)和门电路类输入输出引脚,上拉电阻,三极管与门,或门,非门上拉电阻:正向标志作用,给悬空的引脚一个确定的状态三极管:反向三极管(gpio输出高电平,NP两端导通,被控制端导通,电压为0)->NPN正向三极管(gpio输出低电平,PN两端导通,被控制端导通,

TurMass™ vs LoRa:无线通讯模块的革命性突破
TurMass™凭借其高传输速率、强大并发能力、双向传输、超强抗干扰能力、超远传输距离、全国产技术、灵活组网方案以及便捷开发等八大优势,在无线通讯领域展现出强大的竞争力。

RZT2H CR52双核BOOT流程和例程代码分析
RZT2H是多核处理器,启动时,需要一个“主核”先启动,然后主核根据规则,加载和启动其他内核。本文以T2H内部的CR52双核为例,说明T2H多核启动流程。

干簧继电器在RF信号衰减中的应用与优势
在电子测试领域,RF(射频)评估是不可或缺的一部分。无论是研发阶段的性能测试,还是生产环节的质量检测,RF测试设备都扮演着关键角色。然而,要实现精准的RF评估,测试设备需要一种特殊的电路——衰减电路。这些电路的作用是调整RF信号的强度,以便测试设备能够准确地评估RF组件和RF电路的各个方面。衰减器的挑战衰减器的核心功能是校准RF信号的强度。为了实现这一点,衰

ElfBoard嵌入式教育科普|ADC接口全面解析
当代信息技术体系中,嵌入式系统接口作为数据交互的核心基础设施,构成了设备互联的神经中枢。基于标准化通信协议与接口规范的技术架构,实现了异构设备间的高效数据交换与智能化协同作业。本文选取模数转换接口ADC作为技术解析切入点,通过系统阐释其工作机理、性能特征及重要参数,为嵌入式学习者爱好者构建全维度接口技术认知框架。
评论