0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

高通在2023年国际计算机视觉与模式识别会议上,展示先进研究成果并将生成式AI引入边缘侧

高通中国 来源:未知 2023-06-27 19:15 次阅读
6月18日至22日,IEEE/CVF国际计算机视觉与模式识别会议(CVPR)在温哥华举行,该会议不仅是计算机视觉,也是AI领域最重要的年度活动之一。会议期间,高通展示了已被业界认可的研究论文和技术演示。本文将介绍CVPR 2023上高通的展示亮点。

技术演示

高通在AI、计算机视觉、XR和自动驾驶汽车等领域的研究,已从核心理论创新扩展到下游实际应用,例如:

·运行在手机上的全球最快的

ControlNet演示

几个月前,高通展示了全球首个运行在Android手机上的Stable Diffusion终端侧演示,该演示在CVPR上再次呈现。此外,高通AI研究演示了ControlNet图像生成图像模型,该模型拥有15亿参数,可以完全在手机上运行。ControlNet是一项生成式AI解决方案,被称为语言-视觉模型(LVM)。它能够通过调整输入图像和输入文本描述,更精准地控制生成图像。在这项演示中,只用不到12秒即可在移动终端上生成AI图像,无需访问任何云端,便能提供高效、有趣、可靠且私密的交互式用户体验。这项惊艳的技术演示通过一套跨模型架构、AI软件和神经网络硬件加速器的全栈式AI优化而实现。在此过程中使用的高通先进AI工具和硬件包括:高通AI模型增效工具包(AIMET)、高通AI软件栈和高通AI引擎。

·支持基于实时视觉大语言模型的 健身教练 高通AI研究利用生成式AI打造出在准确度和真实感方面超越现有解决方案的数字健身教练。健身教练能够提供实时互动,鼓励、纠正并帮助用户实现其健身目标。我们的演示展示了基于视觉的大语言模型如何支持情境式、多模态的实时交互。用户的运动视频流先经过动作识别模型进行处理。根据识别的动作,状态编排器(stateful orchestrator)提供提示并输入给大语言模型。健身教练通过一个语音合成(文本生成语音)的虚拟化身,将大语言模型的答复送回给用户。这项演示的实现主要归功于三项关键创新:为检测精细化健身动作而训练的视觉模型、为生成基于视觉概念的语言而训练的语言模型,以及能够协调两个模态之间流动交互的编排器,便于实时对话式的辅导反馈。凭借上述创新,就能够支持健身教练为用户提供实时的沉浸式动态交互体验。

·全球首个在手机上进行的1080p

神经网络视频编码

终端侧AI的另一项全球首创即在移动终端上的1080p视频编码和解码过程。神经网络编解码器用途十分广泛:可针对特定视频需求进行定制,通过生成式AI的优势对感知质量进行优化,扩展至全新模态,在通用AI硬件上运行。但同时也将带来难以在计算能力有限的终端上应对的诸多挑战。高通设计了全新高效的神经网络视频帧间压缩架构,支持在终端上进行1080p视频编码。在演示中,神经网络视频编解码器能够准确地保留高清视频的丰富视觉结构和复杂动作。

·面向XR的3D重建

高通成功开发了先进的实时3D重建系统,该系统在准确度和高效方面表现出色,能够在任何环境下赋能创建高精度的3D模型。该解决方案在移动终端上运行,从单个图像生成深度图,并将其组合成3D场景。有了准确的实时3D地图,开发者可以解锁大量AR和VR应用。全新设计的互动演示展示了高通的创新实力,用户可向场景中的真实物体(比如墙壁和家具)射击虚拟球,见证基于精确物理计算的逼真反弹效果。该感知技术提升了沉浸式体验,并有望加速元宇宙的广泛普及。

·面向智能摄像头的计算机视觉

基于AI的计算机视觉的进步,推动照片和视频拍摄能力持续演进。高通演示了语义分割、单目深度估测和基于实例分割的虚化效果、背景替换、电影模式,以及锐度、平滑度、清晰度与对比度方面相关的图像质量提升。这些神经网络在搭载骁龙平台的终端上实时运行视频增强特性。

·为增强安全性的驾驶员监测技术

驾驶员监测系统(DMS)演示中展示了如何利用计算机视觉判断危险驾驶状况以提高安全性。驾驶员监测系统通过座舱内主动红外摄像机实时监测驾驶员的特征,如眼睛睁开程度、凝视方向、头部姿势、面部表情和肢体动作等,从而判断驾驶员的驾驶状态。该系统在检测到类似注意力分散和瞌睡等危险驾驶情况时会向司机发出警告,最终帮助挽救生命。驾驶员监测系统和先进驾驶辅助系统(ADAS)能够同时在Snapdragon Ride Flex系统级芯片上同步运行。

·XR虚拟头像

无论逼真或卡通风格,虚拟化身是赋能元宇宙中沉浸式XR体验的基本要素。借助一张或多张2D照片,利用终端侧AI生成个性化网格和相应的纹理。使用头戴式摄像机来观察用户眼睛和嘴巴的移动,实时渲染虚拟头像。由此,可生成更接近于标准现实重建和动画后的虚拟化身,并根据环境进行光照处理。高通的目标是在元宇宙和人机界面中使用的骁龙XR平台上提供数字人。

除了以上技术演示,高通还展示了公司已被业界认可的研究论文。CVPR 2023期间,高通共有八篇论文被主会议收录,主要从充分利用数据和打造更佳架构两大类别出发,对推动计算机视觉前沿发展具有深远影响。

欲了解更多信息请点击【阅读原文】。

*本文内容来自高通技术公司工程技术副总裁Ning Bi、高通技术公司高级技术总监Fatih Porikli的署名博客。

a9b9112a-14da-11ee-962d-dac502259ad0.gif  


原文标题:高通在2023年国际计算机视觉与模式识别会议上,展示先进研究成果并将生成式AI引入边缘侧

文章出处:【微信公众号:高通中国】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 高通
    +关注

    关注

    76

    文章

    7439

    浏览量

    190323
  • 生成式AI
    +关注

    关注

    0

    文章

    487

    浏览量

    458

原文标题:高通在2023年国际计算机视觉与模式识别会议上,展示先进研究成果并将生成式AI引入边缘侧

文章出处:【微信号:Qualcomm_China,微信公众号:高通中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NVIDIA ResearchECCV 2024展示多项创新成果

    米兰举行的欧洲计算机视觉国际会议 (ECCV) ,NVIDIA Research 展示了多项
    的头像 发表于 11-19 15:07 193次阅读

    NVIDIA Research端到端自动驾驶模型引领国际挑战赛

    NVIDIA 国际计算机视觉模式识别会议(CVPR)
    的头像 发表于 09-09 10:11 475次阅读

    锐思智芯展示融合视觉感知技术创新与产品应用

    日前,计算机视觉和人工智能领域最具影响力的顶级学术会议——IEEE国际计算机视觉
    的头像 发表于 08-28 14:36 447次阅读

    计算机视觉与人工智能的关系是什么

    引言 计算机视觉是一门研究如何使计算机能够理解和解释视觉信息的学科。它涉及到图像处理、模式识别
    的头像 发表于 07-09 09:25 505次阅读

    计算机视觉与智能感知是干嘛的

    引言 计算机视觉(Computer Vision)是一门研究如何使计算机能够理解和解释视觉信息的学科。它涉及到图像处理、
    的头像 发表于 07-09 09:23 762次阅读

    计算机视觉和机器视觉区别在哪

    计算机视觉和机器视觉是两个密切相关但又有明显区别的领域。 一、定义 计算机视觉 计算机
    的头像 发表于 07-09 09:22 397次阅读

    计算机视觉属于人工智能吗

    属于,计算机视觉是人工智能领域的一个重要分支。 引言 计算机视觉是一门研究如何使计算机具有
    的头像 发表于 07-09 09:11 1133次阅读

    深度学习计算机视觉领域的应用

    深度学习技术的引入,极大地推动了计算机视觉领域的发展,使其能够处理更加复杂和多样化的视觉任务。本文将详细介绍深度学习
    的头像 发表于 07-01 11:38 664次阅读

    计算机视觉的主要研究方向

    计算机视觉(Computer Vision, CV)作为人工智能领域的一个重要分支,致力于使计算机能够像人眼一样理解和解释图像和视频中的信息。随着深度学习、大数据等技术的快速发展,计算机
    的头像 发表于 06-06 17:17 836次阅读

    计算机视觉与图像处理、模式识别、机器学习学科之间的关系

    计算机视觉(computer vision):用计算机来模拟人的视觉机理获取和处理信息的能力。就是指用摄影机和电脑代替人眼对目标进行识别、跟
    的头像 发表于 01-18 16:41 529次阅读

    AI边缘计算机应用场景广泛!大语言模型与数字人结合方案边缘落地

    电子发烧友网报道(文/李弯弯)AI边缘计算机是一种人工智能和边缘计算技术相结合的计算机设备。它可
    的头像 发表于 01-16 01:11 4379次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>边缘</b><b class='flag-5'>计算机</b>应用场景广泛!大语言模型与数字人结合方案<b class='flag-5'>在</b><b class='flag-5'>边缘</b><b class='flag-5'>侧</b>落地

    计算机视觉AI如何识别与理解图像

    计算机视觉是人工智能领域的一个重要分支,它致力于让机器能够像人类一样理解和解释图像。随着深度学习和神经网络的发展,人们对于如何让AI识别和理解图像产生了浓厚的兴趣。本文将探讨
    的头像 发表于 01-12 08:27 1344次阅读
    <b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>:<b class='flag-5'>AI</b>如何<b class='flag-5'>识别</b>与理解图像

    计算机快速全息生成技术研究

    快速全息生成技术依赖于计算机生成的全息影像 (CGH) 的快速创建。目前,基于光线追踪的计算机生成全息图的快速
    的头像 发表于 12-12 11:15 491次阅读
    <b class='flag-5'>计算机</b>快速全息<b class='flag-5'>生成</b>技术<b class='flag-5'>研究</b>

    英特尔研究院将在NeurIPS大会上展示业界领先的AI研究成果

    英特尔研究院将在NeurIPS 2023大会上展示一系列富有价值、业界领先的AI创新成果。面向广大开发者、
    的头像 发表于 12-08 19:15 516次阅读

    英特尔研究院将在NeurIPS大会上展示业界领先的AI研究成果

    人员和学界人士,这一AI计算机视觉领域的全球顶会将于12月10日至16日美国新奥尔良市举办。        NeurIPS
    的头像 发表于 12-08 09:17 673次阅读