携手 MLCommons，制定有效且值得信赖的 AI 安全基准-电子发烧友网

作者 / 技术与社会部 Anoop Sinha 以及 Google Research、Responsible AI 和以人为本技术团队 Marian Croak

标准基准是衡量重要产品质量的公认方法，存在于许多领域。一些标准基准用于衡量安全性:例如，当汽车制造商宣传 "整体安全评分五星" 时，会引用某项基准。机器学习 (ML) 和 AI 技术领域已经存在标准基准:例如，MLCommons Association 运用 MLPerf 基准，来衡量如 Google 的 TPU 等尖端 AI 硬件的速度。然而，尽管围绕 AI 安全已经做了大量工作，目前仍然没有类似的 AI 安全标准基准。

MLCommons
https://mlcommons.org/en/
MLPerf
https://mlcommons.org/en/news/mlperf-inference-storage-q323/
AI 安全
https://blog.google/technology/ai/our-responsible-approach-to-building-guardrails-for-generative-ai/

我们很高兴能够为非营利组织 MLCommons Association 开展标准 AI 安全基准制定的工作提供支持。制定有效且值得信赖的基准，不仅要有先进的 AI 安全测试技术，还需要综合广泛的观点。MLCommons 的工作旨在汇集学术界和业界的专家研究人员来制定衡量 AI 系统安全性的标准基准，并以每个人都能理解的分数呈现。我们鼓励社区的所有成员 (从 AI 研究人员到政策专家)加入我们，为这项工作奉献自己的力量。

加入我们
https://mlcommons.org/ai-safety

为什么要制定 AI 安全基准？

像大多数先进技术一样，AI 具有带来巨大好处的潜力，但是如果缺乏适当的约束，也可能会导致负面结果。例如，AI 技术可以在各种活动中辅助人类提高生产力 (如提高健康诊断的准确性和研究疾病、分析能源使用情况等)。然而，如果没有足够的预防措施，AI 也可能被用来支持有害或恶意活动，并导致存在偏见或令人反感的响应。

改善健康诊断
https://blog.google/technology/health/how-ai-can-improve-health-for-everyone-everywhere/
能源使用情况
https://blog.google/outreach-initiatives/sustainability/google-transportation-energy-emissions-reduction/

通过为不同类别提供标准的安全措施，如有害使用、超范围响应、AI 控制风险等，标准的 AI 安全基准可以帮助社会从 AI 中获益，同时确保采取足够的预防措施来减轻这些风险。最初，新兴的安全基准有助于推动 AI 安全研究，并为负责任的 AI 开发提供信息。随着时间推移和技术成熟，这些基准也可以为 AI 系统的用户和购买者提供信息，最终，可能成为政策制定者的宝贵工具。

在计算机硬件领域，基准 (如 SPEC、TPC) 现已展现出惊人的能力，让整个行业能够在追求进步的过程中，保持研究、工程甚至营销部门的步调一致。我们相信，标准 AI 安全基准有助于在这一重要领域实现同样的目标。

SPEC
https://en.wikipedia.org/wiki/Standard_Performance_Evaluation_Corporation
TPC
https://en.wikipedia.org/wiki/Transaction_Processing_Performance_Council

标准 AI 安全基准是什么？

在学术研究和企业工作中，人们开展了一系列 AI 安全测试 (如 RealToxicityPrompts、Stanford HELM 公平性、偏差、毒性测量以及 Google 的生成式 AI 指引)。但是，大多数测试都侧重于为 AI 系统提供提示，并对输出进行算法评分，虽然这是一个有用的开端，但仅限于测试提示的范围。此外，他们通常使用开放数据集进行提示和响应，而这些提示和响应可能已被 (通常是无意中) 纳入训练数据中。

RealToxicityPrompts
https://arxiv.org/abs/2009.11462
Stanford HELM
https://crfm.stanford.edu/2022/11/17/helm.html
Google 的生成式 AI 指引
https://blog.google/technology/ai/our-responsible-approach-to-building-guardrails-for-generative-ai/

MLCommons 提议，按多方利益相关者流程选择测试，并按子集分组，以衡量特定 AI 用例的安全性，并将这些需要有专业技术背景才能理解的测试结果转化为每个人都能理解的分数。MLCommons 建议打造一个集中现有测试的平台，并鼓励开展更严格的测试，以推动先进技术的发展。用户既可以通过在线测试生成和查看分数，也可以借助私人测试引擎的离线测试来访问这些测试。

共同努力下的 AI 安全基准

负责任的 AI 开发者使用多种安全措施，包括自动测试、手动测试、红队测试 (red teaming，其中人类测试人员试图产生对抗性结果)、软件方面的限制、数据和模型最佳实践以及审计。但是，确定是否已采取足够的预防措施可能具有挑战性，尤其是在开发 AI 系统的公司群体不断发展且具有多元化特点的情况下。标准 AI 基准能够提供强大的工具，帮助供应商和用户衡量 AI 安全性，以及鼓励资源生态系统和专注于提高 AI 安全性的专业提供商，推进社区以负责任的方式发展。

同时，如果没有社区参与，就无法制定成熟、有效且值得信赖的 AI 安全基准。这项工作需要研究人员和工程师齐心协力，为安全测试技术提供创新且实用的改进，使测试更加严格高效。同样，企业也需要团结一致，提供测试数据、工程支持和经济支持。AI 安全的某些方面可能具有主观性，要建立得到广泛共识支持的可信基准需要考虑多方观点，包括公众代言人、政策制定者、学者、工程师、数据工作者、商界领袖和企业家的观点。

Google 对 MLCommons 的支持

Google 以 2018 年宣布的 AI 准则为基础，致力于以安全、可靠和值得信赖的特定标准开发和使用 AI (您可以参阅我们 2019 年、2020 年、2021 年、2022 年的更新)。我们还在关键承诺方面取得了重大进展，这将帮助您大胆且负责任地开发 AI，从而造福所有人。

宣布
https://blog.google/technology/ai/ai-principles/
AI 准则
https://ai.google/responsibility/principles/
2019 年
https://ai.google/static/documents/ai-principles-2019-progress-update.pdf
2020 年
https://ai.google/static/documents/ai-principles-2020-progress-update.pdf
2021 年
https://ai.google/static/documents/ai-principles-2021-progress-update.pdf
2022 年
https://ai.google/static/documents/ai-principles-2022-progress-update.pdf
进展
https://static.googleusercontent.com/media/publicpolicy.google/en//resources/whcommitments.pdf

Google 正在以多种方式支持 MLCommons Association 在制定 AI 安全基准方面所作的工作。

测试平台:我们联合其他公司提供资金，支持测试平台的开发。
技术专长和资源:我们不断提供技术专长和资源，例如 Monk 肤色示例数据集，以帮助确保基准设计优良且有效。
数据集:我们正在为多语言表征偏差以及针对刻板印象危害 (如 SeeGULL 和 SPICE) 的外部测试提供内部数据集。此外，我们还共享以负责任和包容性的方式收集人工注释为重点的数据集，如 DICES 和 SRP。

Monk 肤色量表示例数据集
https://skintone.google/mste-dataset
SPICE
https://github.com/google-research-datasets/SPICE/tree/main
DICES
https://arxiv.org/abs/2306.11247
SRP
https://www.kaggle.com/datasets/google/jigsaw-specialized-rater-pools-dataset

未来方向

我们相信，这些基准有助于推进 AI 安全研究，确保以负责任的方式开发和部署 AI 系统。AI 安全属于集体行动问题。前沿模型论坛 (Frontier Model Forum) 和 AI 伙伴关系 (Partnership on AI) 等团体也在重要的标准化举措方面发挥着领导作用。我们很高兴从一开始便与这些团体和 MLCommons 一起开展这项工作，也期待通过更多的共同努力，来促进以负责任的方式开发新的生成式 AI 工具。欢迎您持续关注我们，及时获悉更多资讯。

集体行动问题
https://blog.google/technology/ai/a-shared-agenda-for-responsible-ai-progress/
前沿模型论坛
https://blog.google/outreach-initiatives/public-policy/google-microsoft-openai-anthropic-frontier-model-forum/
AI 伙伴关系
https://partnershiponai.org/

致谢

非常感谢为这项工作做出贡献的 Google 团队成员: Peter Mattson、Lora Aroyo、Chris Welty、Kathy Meier-Hellstern、Parker Barnes、Tulsee Doshi、Manvinder Singh、Brian Goldman、Nitesh Goyal、Alice Friend、Nicole Delange、Kerry Barker、Madeleine Elish、Shruti Sheth、Dawn Bloxwich、William Isaac、Christina Butterfield。

原文标题：携手 MLCommons，制定有效且值得信赖的 AI 安全基准

文章出处：【微信公众号：谷歌开发者】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
6166

浏览量
105352

原文标题：携手 MLCommons，制定有效且值得信赖的 AI 安全基准

文章出处：【微信号：Google_Developers，微信公众号：谷歌开发者】欢迎添加关注！文章转载请注明出处。

MLCommons推出AI基准测试0.5版

开放式机器学习工程联盟 MLCommons 在美国加州当地时间公布推出适用于消费类 PC 的 AI 性能的 MLPerf Client 基准测试的 0.5 版，这是该测试的第一个公开版本

发表于 12-12 16:47 •305次阅读

Momenta以AI技术助力交通安全建设

近日，为迎接第十三个“全国交通安全日”，苏州交警与Momenta携手围绕“文明交通，携手共创”主题开展特别活动，全力践行将AI技术融入交通安全

发表于 12-03 16:13 •175次阅读

浪潮信息AI存储性能测试的领先之道

AI技术的无限可能。近日，在MLCommons的子项目MLPerf Storage v1.0性能基准评测中，浪潮信息再度展现了在AI存储领域的卓越实力。

发表于 10-29 16:30 •245次阅读

浪潮信息AS13000G7荣获MLPerf™ AI存储基准测试五项性能全球第一

北京2024年9月27日 /美通社/ -- 9月25日，MLCommons协会发布最新MLPerf™ Storage v1.0 AI存储基准测试成绩。浪潮信息分布式存储平台AS13000G7表现出

发表于 09-28 16:46 •212次阅读

Freepik携手Magnific AI推出AI图像生成器

近日，设计资源巨头Freepik携手Magnific AI，共同推出了革命性的AI图像生成器——Freepik Mystic，这一里程碑式的发布标志着AI图像创作领域迈入了一个全新的高

发表于 08-30 16:23 •1133次阅读

甲骨文携手Rai Way，强化AI应用与数据安全

近日，全球领先的软件巨头甲骨文与意大利基础设施服务提供商Rai Way宣布达成重要合作。双方将携手在Rai Way分布广泛的数据中心部署甲骨文的人工智能应用系统，为企业客户带来前所未有的服务体验与安全保障。

发表于 07-27 17:19 •2174次阅读

Claude安卓版发布,旨在为用户提供信赖的AI助手

　7月17日最新资讯，继今年5月成功推出iOS版本后，Anthropic公司今日正式发布了Claude应用的安卓版本，该应用专为安卓8.0及以上版本设备设计，旨在为用户提供一款高效且值得信赖的

发表于 07-17 16:56 •665次阅读

平衡创新与伦理：AI时代的隐私保护和算法公平

成了一把双刃剑，其锐利的一面正逐渐指向我们的核心价值。面对这些挑战，制定一套有效的AI治理框架和隐私保护机制变得迫在眉睫。确保AI决策的透明度是解决这些问题的关键一步。透明度不仅

发表于 07-16 15:07

英国AI安全研究所推出AI模型安全评估平台

据报道，英国人工智能安全研究院近日发布了名为“Inspect”的AI模型安全评估平台，此平台采用开源技术且对全球AI工程师免费开放，旨在提升

发表于 05-13 15:20 •413次阅读

东软睿驰与安霸建立战略合作关系

东软睿驰与Ambarella（安霸）在北京车展上正式确立了一项重要战略合作关系。双方将携手利用各自在汽车基础软件、自动驾驶技术、电动化以及芯片技术领域的深厚积累和优势，共同构建一个持久且值得信

发表于 05-09 11:14 •532次阅读

值得信赖的工业主板制造商

朗锐智科是一家值得信赖的工业主板制造商，为工业领域提供可靠的主板解决方案。我们的工业主板经过严格的行业标准测试和验证，以确保其在恶劣环境下的稳定性和耐用性。我们的产品具有广泛的兼容性和可扩展性，适合

发表于 04-24 11:21 •554次阅读

AI安全基准测试 v0.5: 聚焦通用聊天文本模型安全性

随着AI技术的快速发展，相关安全问题也日益凸显。仅过去数周内，便有LastPass公司遭遇音频深度伪造攻击等案例浮出水面。为了应对这一挑战，新推出的AI Safety基准测试将成为模型

发表于 04-19 11:12 •416次阅读

世界数字技术院发布：生成式AI安全测试标准及大语言模型

据悉，上述两款标准主要针对大型模型与生成式AI应用领域的安全检测设定了新基准。参与制定工作的单位有OpenAI、蚂蚁集团、科大讯飞、谷歌、微软、英伟达、百度、腾讯等多家知名企业，其中，

发表于 04-17 16:51 •1090次阅读

联想携手京东，紧扣大模型和生成式AI技术

联想与京东携手，紧扣大模型和生成式AI技术带来的产业机遇，在多个领域展开深入合作。

发表于 04-12 10:27 •638次阅读

UL Procyon AI 发布图像生成基准测试，基于Stable Diffusion

UL去年发布的首个Windows版Procyon AI推理基准测试，以计算机视觉工作负载评估AI推理性能。新推出的图像生成测试将提供统一、精确且易于理解的工作负载，用以保证各支持硬件间

发表于 03-25 16:16 •881次阅读

搜索历史

携手 MLCommons，制定有效且值得信赖的 AI 安全基准

评论

MLCommons推出AI基准测试0.5版

Momenta以AI技术助力交通安全建设

浪潮信息AI存储性能测试的领先之道

浪潮信息AS13000G7荣获MLPerf™ AI存储基准测试五项性能全球第一

Freepik携手Magnific AI推出AI图像生成器

甲骨文携手Rai Way，强化AI应用与数据安全

Claude安卓版发布,旨在为用户提供信赖的AI助手

平衡创新与伦理：AI时代的隐私保护和算法公平

英国AI安全研究所推出AI模型安全评估平台

东软睿驰与安霸建立战略合作关系

值得信赖的工业主板制造商

AI安全基准测试 v0.5: 聚焦通用聊天文本模型安全性

世界数字技术院发布：生成式AI安全测试标准及大语言模型

联想携手京东，紧扣大模型和生成式AI技术

UL Procyon AI 发布图像生成基准测试，基于Stable Diffusion