0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

合成数据对于 AI 开发至关重要

靓仔峰 来源:靓仔峰 作者:靓仔峰 2022-07-20 10:58 次阅读

今天的高级人工智能开发仍然深深植根于 1950 年代的计算机科学哲学,包括“垃圾进,垃圾出”这句话。这句格言提醒我们,人工智能模型的好坏取决于它所训练的数据。

从晚期癌症筛查到推荐一部新电影,数据科学家需要大量多样的数据集来训练 AI 模型。对于现实世界的数据来说,这可能是一个重大挑战。通常出于隐私原因受到保护,真实数据可能很难获得,而且获取成本也很高,而且可能不像预期的那样多样化。

pYYBAGLO7-aARthzAANkRyCROAU889.jpg


Rev Lebaredian(来源:英伟达

幸运的是,人工智能可以通过合成数据集自行救援——计算机生成的模拟可确保提供充足的多样化和匿名训练数据。数据是完全匿名的,可以使用各种方法创建,例如通用对抗网络或使用更多非 AI 程序的模拟器,以确保与真实数据非常相似。通过使用合成数据集,人工智能开发人员可以从更高性能和更健壮的模型中受益。

数据的骗局

随着开发人员达到现成数据的极限,他们很快将需要寻找其他地方来改进他们的模型。合成数据是计算机模拟或算法生成的信息,可替代现实世界的数据,以填补模型需求和数据可用性之间的差距。

数据科学家有很多方法可以生成合成数据。模拟和 3D 渲染是很好的起点。例如,一辆自动驾驶汽车通常是通过让它在真正的道路上行驶之前驾驶数千英里的虚拟道路来训练的。通用对抗网络,即创建新数据的生成模型,也可用于数据生产。多亏了这些,合成数据收集变得比以往任何时候都更容易获得和更有效。

分析公司 Gartner 最近报告*,合成数据正处于从一个杂耍变成未来人工智能背后的主要力量的轨道上。Gartner 在一项研究中指出,“合成数据通过允许较小的组织在没有大量数据的情况下创建 AI 模型,有效地解决了他们的冷启动问题,从而使竞争环境民主化。”

人工数据满足 AI 的关键需求
AI 已经无处不在,因为它已经通过智能设备和技术融入我们的生活,涵盖医疗保健、零售、娱乐、自动驾驶汽车、智能空间等领域,这些智能设备和技术正在加速我们走向未来。

将人工智能用作数字镜子是其发展的下一步。然而,特定环境中的变化可能是无数的。衬衫的颜色可能有多种色调和色调。房间的灯光随着太阳的移动或灯具的开启而变化。


这个隧道中车辆的场景使用了间接照明。这是一个难以实时准确渲染的场景示例,但在 Nvidia Drive Sim 中由 Nvidia Omniverse RTX 渲染器启用(来源:Nvidia)

捕捉条件的复杂性使得各种合成数据集对于 AI 模型制作至关重要。与从主要来源收集数据所需的时间和费用相比,可以收集合成数据为数字双胞胎提供动力。这可以最大限度地访问大量不同的数据,并增加免于隐私问题的好处。

Gartner 注意到这一人工智能资产的重要性,还指出,“合成数据通常被视为质量较低的替代品,只有在真实数据难以获取、价格昂贵或受到监管限制时才有用。这错过了合成数据的真正潜力。事实是,如果没有合成数据,您将无法构建高质量、高价值的 AI 模型。”

现实真的很随机

多样化的训练数据集是构建 AI 模型的关键,但现实世界的数据可能不足。域随机化的内置功能使机器人模拟应用程序和合成数据生成工具 Nvidia Isaac Sim 能够随机改变模拟中的纹理、颜色、照明和位置。

Nvidia Drive Sim 也是如此,这是一个用于测试自动驾驶汽车的模拟平台。它能够改变路牌的大小或语言或太阳的位置。

O'Reilly Media 的报告“使用合成数据加速 AI ”中强调了这些功能,该报告强调安全和效率是模拟中的优先事项。根据该报告,“使用合成数据可以解决的一些问题成本太高或太危险(例如,在训练模型控制自动驾驶汽车的情况下),无法使用更传统的方法解决,或者根本无法解决。”


Nvidia Isaac 模拟引擎创建了更好的逼真环境,并简化了合成数据生成和域随机化,为工程师和开发人员在广泛的应用程序中训练和部署机器人构建数据集(来源:Nvidia)

随机化条件(例如照明、颜色和对象放置)对于创建各种合成训练数据以实现更准确的 AI 模型至关重要。这些数字世界的变化反映了现实生活中经常出现的意外和不可预测的变化。

例如,在工厂中,当不同的工人处理同一个物体时,一个工人处理的物体可能最终处于不同的位置。在训练机器人如何使用合成数据和模拟在真实工厂中工作时,环境条件(如定位)的变化非常重要。这些能力使强大的智能工厂和城市的生产成为可能。

图形与人工智能之间的关键环节

除了虚拟城市和工厂,合成数据为计算机图形学的复兴铺平了道路,因为模拟 3D 世界现在是训练 AI 模型的关键组成部分。在 3D 世界中,物体应该下落,身体部位应该弯曲,皮肤应该被贴上纹理以与人类的所有运动部位非常相似。

个人在虚拟世界中出现的不同方式,具有自然的身体变化、面部特征和行为,说明了合成数据的真正力量。多样化的合成数据可以准确地弥合虚拟世界和现实世界之间的差距,其特征从万有引力定律到身体动作再到皮肤纹理。

人类因不同的肤色、反应和表情而彼此不同,这些都可以在媒体制作和数字复制品中展示。数字人类只是难题的一部分,因为照明和物体定位等环境条件在计算机图形和模拟中同样重要。

例如,自动驾驶汽车需要能够在太阳低落时做出反应,这可能会妨碍能见度。合成数据可以通过创建更真实的虚拟环境来帮助改善模拟世界,这些虚拟环境是真正的数字双胞胎。生成物理上准确的、基于物理的环境和人类极具挑战性,需要高级模拟、高性能计算资源和大量数据。


Nvidia Drive Sim 使用高保真和物理精确的模拟来创建一种安全、可扩展且具有成本效益的方式,将自动驾驶汽车带到我们的道路上(来源:Nvidia)

人工智能推进自己的未来

人工智能使用合成数据进行自我改进的能力使其成为一项独特而强大的技术。综合数据是提高用于高级模型和模拟的稳健训练数据的质量和数量的关键。

每一波人工智能创新都建立在上一波的基础上。合成数据的机会将超越其在当前人工智能应用中的应用,扩展到农业、自动驾驶汽车、医疗保健、机器人等行业。

在为 AI 开发数据源时,不要让“人工”和“合成”这两个词阻止您。数据可能是人为创建的,但结果对于真正的成功至关重要。很快,将出现一个极其精确的数字现实镜像,使用合成数据高效准确地构建。

——Rev Lebaredian 是 Nvidia 的仿真技术副总裁

*Gartner,“Maverick Research:忘记你的真实数据——合成数据是 AI 的未来”,Leinar Ramos,Jitendra Subramanyam,2021 年 6 月 24 日。


审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    31845

    浏览量

    270676
  • 人工智能
    +关注

    关注

    1797

    文章

    47867

    浏览量

    240853
  • 先进技术
    +关注

    关注

    0

    文章

    24

    浏览量

    6273
收藏 人收藏

    评论

    相关推荐

    NVIDIA发布Cosmos™平台,助力物理AI系统发展

    基础模型、高级tokenizer、护栏以及加速视频处理管线等多项先进技术。其中,Cosmos世界基础模型(WFM)是平台的核心,它使开发者能够轻松生成大量基于物理学的逼真合成数据。这些数据对于
    的头像 发表于 01-08 15:36 370次阅读

    车载总线通信数据开发工具 - VDE

    对车型开发至关重要。INTEWORK-VDE(Vehicle Database Editor)Cloud是一款基于B/S架构的车载总线通信数据库设计和管理系统。
    的头像 发表于 01-03 09:43 675次阅读
    车载总线通信<b class='flag-5'>数据</b>库<b class='flag-5'>开发</b>工具 - VDE

    【「具身智能机器人系统」阅读体验】+数据在具身人工智能中的价值

    及限制。因此,真实数据合成数据的结合是克服 EAI 中数据可用性挑战的战略方法。 另外,收集的数据和生成的数据都必须经过时间和空间对齐,这
    发表于 12-24 00:33

    加密算法的选择对于加密安全有多重要

    加密算法的选择对于加密安全至关重要,因为它直接影响到数据保护的有效性和可靠性。以下是几个关键点来说明加密算法选择的重要性: 加密强度: 加密算法的加密强度直接关系到
    的头像 发表于 12-17 15:59 190次阅读

    云端AI开发环境分析

    当今,云端AI开发环境作为支撑AI技术快速迭代与应用部署的关键基础设施,扮演着至关重要的角色。下面,AI部落小编为您分析云端
    的头像 发表于 11-25 10:27 230次阅读

    充足的储能对于风能和太阳能可变发电量至关重要

    太阳能
    深圳崧皓电子
    发布于 :2024年11月22日 07:11:43

    AI大模型的训练数据来源分析

    AI大模型的训练数据来源广泛且多元化,这些数据对于构建和优化AI模型至关重要。以下是对
    的头像 发表于 10-23 15:32 1573次阅读

    AI for Science:人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

    和数量直接影响到模型的准确性和可靠性。因此,数据获取、处理、分析和质量控制在AI for Science中至关重要。此外,数据驱动的研究范式也促使科学家从传统的假设驱动转向更加灵活和开
    发表于 10-14 09:16

    无刷电机驱动芯片方案的选择至关重要

    在当今科技飞速发展的时代,无刷电机因其高效、低噪、长寿命等显著优势,在众多领域得到了广泛应用,从工业自动化到智能家居,从电动汽车到航空航天。而在无刷电机系统中,驱动芯片方案的选择至关重要,它直接影响
    的头像 发表于 09-05 17:28 767次阅读

    选择正确的负载组对于准确的电源测试至关重要

    电路电源测试
    深圳崧皓电子
    发布于 :2024年07月31日 07:53:35

    夏季雷雨频繁,新能源车辆车载充电机与整车防水设计至关重要

    车载充电机(On-Board Charger,OBC)与车载直流转换器(DC-DC Converter)作为新能源汽车上至关重要的零部件,需要有特殊的防水处理。
    的头像 发表于 07-30 09:07 415次阅读
    夏季雷雨频繁,新能源车辆车载充电机与整车防水设计<b class='flag-5'>至关重要</b>

    为什么加速数据处理对各行各业的AI创新都至关重要

    在各行各业,AI 正在用机器驱动的计算来推动创新。在金融领域,银行正在使用 AI 更快地检测欺诈行为并确保账户安全;电信公司正在使用 AI 优化网络以提供优质服务;科学家正在使用 AI
    的头像 发表于 07-05 10:46 754次阅读

    ai开发需要什么配置

    AI开发是一个复杂的过程,涉及到多个方面的配置。 硬件配置 AI开发需要高性能的硬件支持,主要包括以下几个方面: 1.1 CPU AI
    的头像 发表于 07-02 09:54 1713次阅读

    为什么数字孪生对于智慧城市至关重要

    对其进行预测。 中易云GIS与数字孪生系统 数字孪生在智慧城市中的重要性 智慧城市可以解决近年来快速城市化带来的环境和社会问题,从而提高居民生活质量,同时实现更加可持续的城市模式的发展之路。 数字孪生联动真实场景的
    的头像 发表于 06-04 11:23 671次阅读

    为何电感器对于数据及人工智能产业发展至关重要

    电感器作为智能设备电路中的重要元件,已经成为推动大数据和智能产业发展与革新的基础技术。科达嘉通过技术创新,为大数据和人工智能领域提供高可靠的电感解决方案和丰富的电感器产品型号。
    的头像 发表于 02-28 14:48 609次阅读
    为何电感器<b class='flag-5'>对于</b>大<b class='flag-5'>数据</b>及人工智能产业发展<b class='flag-5'>至关重要</b>