聆心智能联合清华大学CoAI实验室共同发布大模型安全评估框架，迈向可控可信的大模型-电子发烧友网

ChatGPT 正在引领人类进入无缝人机交互的新时代，比尔盖茨在接受福布斯采访时也表示，“ChatGPT的意义不亚于PC和互联网的诞生。”不过，当搜索引擎 New Bing 与 ChatGPT 结合，伴随着“ChatGPT 黑化”等一系列舆论事件的发生，人们也开始对人工智能带来的道德、伦理、安全等风险感到恐慌。

虽然近年来随着技术的不断突破，大模型获得了快速发展并开始在各个场景广泛应用，但仍存在着事实性错误、知识盲区和常识偏差等诸多问题，还面临训练数据来源合规性、数据使用的偏见性、生成内容的安全性等风险。如何提高模型的准确度和可靠性，使 AI 生成的内容安全、可信、可靠已经成为了当前大模型在应用方向亟待解决的问题。

要规避安全风险，降低人工智能对人类的负面影响，关键在于大模型底座。对此，清华大学计算机系长聘副教授、北京聆心智能科技有限公司创始人黄民烈认为：“大规模语言模型（LLM）发展到现在，模型结构和规模已经有了很大的进展，但实用性还有待加强，我们应该通过技术让模型更加安全、可控，使其快速适配更多的应用场景。”

据悉，针对大模型的安全伦理问题，由黄民烈带领的研究团队历经两年沉淀，建立了大模型安全分类体系，并从系统层面和模型层面出发，打造更可控、可信的大模型安全框架。安全框架的建立，定义了大模型的应用边界，促进大模型生态的健康发展，引领国内学术界和工业界迈向更有用（helpful）、更可信（truthful）、更安全（harmless）的AI研究和应用。

相比过去在安全伦理方面考虑较少的大模型，ChatGPT 背后所依托的大模型取得了巨大的发展，不仅允许用户进行后续更正，还能够拒绝不当请求和预测，这得益于ChatGPT在安全部分的特别设计，不过仍无法完全避免其生成不安全的内容和产生有风险的行为。

此前，由黄民烈带领的研究团队已经在安全伦理方面开展了相关研究，并依此建立了大模型安全分类体系，其中不安全的对话场景包括：政治敏感、犯罪违法、身体健康、心理健康、财产隐私、歧视/偏见、辱骂/仇恨言论、伦理道德八大方面。这些问题与人们的价值观和伦理道德息息相关，可能会导致用户接收不当信息、甚至影响用户产生有害的行为，限制大模型的发展和应用。

与此同时，研究团队也针对以上八大安全场景对大模型进行针对性升级。通过收集多轮安全数据训练模型，使模型具备基本的安全性，能够在遇到安全问题时给予正确的回复策略，不去做判断和误导。进一步对模型进行自动测试，针对安全缺陷通过微调的方式进行快速迭代，促使模型越来越符合人类的认知理解模式，生成更加安全可信的内容。

值得一提的是，着眼于容易触发安全问题的类型，研究团队收集和构造了相应的hard case（更难识别和处理的安全测试用例），总结和设计了六种一般模型难以处理的安全攻击方式，称为指令攻击。使安全体系更加完善，进一步改进和优化模型表现。

不论国内国外，当前大模型的安全问题仍面临着严峻的困难和挑战，人工智能作为一门前沿科技，可以给人类带来巨大福祉，也会给人类造成未知的隐患。确保强大的人工智能系统能够被负责任地建构和部署，打造安全、可信、可靠的 AGI Companion，是该研究团队的最终愿景。

未来，研究团队将打造中文大模型的安全风险评估的 Leaderboard，为国内对话大模型的安全评估提供公平公开的测试平台，并提供：

针对中文对话的8个安全场景，40个安全类别做全面精细的测试，包括人工评估和自动评估。
额外设置6种安全攻击（如目标劫持等）的超难指令攻击测试样例，探索模型的安全上限。
设置公开和隐藏测试集，众人皆可参与评测。

黄民烈带领的研究团队致力于构建具有类人水平的对话智能体，将依托自身的核心技术，在可控可信的超拟人大模型基础之上，通过建立安全、可控的模型边界，让AI提供可信、可靠的输出，引领人工智能走向 AGI 时代。相信在不远的未来，AGI Companion 不仅满足人类信息需求，更可以满足社交和情感的需求，以打造更加和谐的人机共融社会。

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
30665

浏览量
268832
人工智能

人工智能

+关注

关注
1791

文章
47146

浏览量
238119
模型

模型

+关注

关注
1

文章
3218

浏览量
48801
ChatGPT

ChatGPT

+关注

关注
29

文章
1558

浏览量
7585
大模型

大模型

+关注

关注
2

文章
2410

浏览量
2623

长城汽车成立车载网络联合测试实验室

近日，长城汽车股份有限公司（以下简称“长城汽车”）与清华大学苏州汽车研究院、苏州清研精准汽车科技有限公司（以下简称“清研精准”）签约共同成立“车载网络联合测试实验室”，长城汽车首席技术

发表于 12-06 14:18 •219次阅读

博世与清华大学续签人工智能研究合作协议

近日，博世与清华大学宣布，双方续签人工智能领域的研究合作协议，为期五年。在此期间，博世将投入5000万元人民币。基于2020年成立的清华大学—博世机器学习联合研究中心（以下简称“

发表于 11-20 11:37 •309次阅读

字节跳动与清华AIR成立联合研究中心

近日，清华大学智能产业研究院（AIR）与字节跳动共同宣布成立“可扩展大模型智能技术联合研究中心”

发表于 10-12 15:24 •367次阅读

荣耀与智谱携手共建AI大模型联合实验室

近日，荣耀终端有限公司与北京智谱华章科技有限公司正式携手，共同宣布成立AI大模型技术联合实验室，并签署了战略合作协议。此次合作标志着双方在人工智能

发表于 09-03 18:15 •1008次阅读

声智科携手天津中医药大学成立智慧医疗服务平台联合研究实验室

2024年7月19日下午，北京声智科技有限公司与天津中医药大学老年康养现代产业学院及长期照护研究院共同建立的基于医疗大模型的智慧医疗服务平台联合研究

发表于 08-02 09:58 •539次阅读

阿里达摩院提出“知识链”框架，降低大模型幻觉

近日，阿里巴巴达摩院（湖畔实验室）携手新加坡南洋理工大学等研究机构，共同推出了大模型知识链（CoK）框架。该

发表于 05-10 11:46 •684次阅读

西井科技和香港理工大学签署合作协议，将共建联合创新实验室

西井科技和香港理工大学签署了人工智能和自动驾驶方面的深度产学研合作协议，将共建联合创新实验室，双方共同探索该领域的前沿技术和应用实践。

发表于 04-29 09:42 •548次阅读

清华权威报告公布，文心一言多项指标“遥遥领先”

最近，由清华大学基础模型研究中心联合中关村实验室研制的SuperBench大模型综合能力评测框架

发表于 04-23 09:22 •556次阅读

浙江大学控制学院与燧原科技共建的“云边智能联合实验室”揭牌成立

3月27日，由浙江大学控制科学与工程学院（以下简称“控制学院”）与上海燧原科技股份有限公司（以下简称“燧原科技”）共建的“云边智能联合实验室” （以下简称“

发表于 03-28 09:50 •649次阅读

浙江大学与燧原科技共建“云边智能联合实验室”

浙江大学控制科学与工程学院与上海燧原科技股份有限公司共同打造的“云边智能联合实验室”近日在浙江大学

发表于 03-28 09:47 •505次阅读

上海人工智能实验室发布自动驾驶视频生成模型GenAD

上海人工智能实验室近日取得重大技术突破，联合香港科技大学、德国图宾根大学及香港大学

发表于 03-26 10:40 •515次阅读

百川智能与北京大学将共建通用人工智能联合实验室

近日，百川智能与北京大学携手合作，共同签署了“北大——百川通用人工智能联合实验室”的共建协议，标

发表于 03-21 11:45 •893次阅读

360集团和哪吒汽车合作将共同发布NETA GPT大模型

360集团和哪吒汽车合作将共同发布NETA GPT大模型 3月1日，360集团与哪吒汽车签署战略合作协议，双方计划共同发布大模型产品NETA GPT，预计

发表于 03-02 15:51 •951次阅读

上海AI实验室发布新一代书生·视觉大模型

近日，上海人工智能实验室（上海AI实验室）联手多所知名高校及科技公司共同研发出新一代书生·视觉大模型（InternVL）。

发表于 02-04 11:25 •1090次阅读

三步完成在英特尔独立显卡上量化和部署ChatGLM3-6B模型

ChatGLM3 是智谱 AI 和清华大学 KEG 实验室联合发布的新一代对话预训练模型。ChatGLM3-6B 是 ChatGLM3 系列中的开源

发表于 01-11 18:04 •1618次阅读

搜索历史

聆心智能联合清华大学CoAI实验室共同发布大模型安全评估框架，迈向可控可信的大模型

评论

长城汽车成立车载网络联合测试实验室

博世与清华大学续签人工智能研究合作协议

字节跳动与清华AIR成立联合研究中心

荣耀与智谱携手共建AI大模型联合实验室

声智科携手天津中医药大学成立智慧医疗服务平台联合研究实验室

阿里达摩院提出“知识链”框架，降低大模型幻觉

西井科技和香港理工大学签署合作协议，将共建联合创新实验室

清华权威报告公布，文心一言多项指标“遥遥领先”

浙江大学控制学院与燧原科技共建的“云边智能联合实验室”揭牌成立

浙江大学与燧原科技共建“云边智能联合实验室”

上海人工智能实验室发布自动驾驶视频生成模型GenAD

百川智能与北京大学将共建通用人工智能联合实验室

360集团和哪吒汽车合作将共同发布NETA GPT大模型

上海AI实验室发布新一代书生·视觉大模型

三步完成在英特尔独立显卡上量化和部署ChatGLM3-6B模型