0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

清华系千亿基座对话模型ChatGLM开启内测

OSC开源社区 来源:OSC开源社区 2023-03-17 13:47 次阅读

由清华技术成果转化的公司智谱 AI 宣布开源了 GLM 系列模型的新成员 ——中英双语对话模型 ChatGLM-6B,支持在单张消费级显卡上进行推理使用。这是继此前开源 GLM-130B 千亿基座模型之后,智谱 AI 再次推出大模型方向的研究成果。

此外,基于千亿基座的 ChatGLM 线上模型目前也在 chatglm.cn 进行邀请制内测,用户需要使用邀请码进行注册,也可以填写基本信息申请内测。

根据介绍,ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型,并针对中文进行了优化。该模型基于 General Language Model (GLM)架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。

ChatGLM-6B 使用了和 ChatGLM 相同的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 虽然规模不及千亿模型,但大大降低了推理成本,提升了效率,并且已经能生成相当符合人类偏好的回答。

ChatGLM-6B 具备以下特点:

充分的中英双语预训练:ChatGLM-6B 在 1:1 比例的中英语料上训练了 1T 的 token 量,兼具双语能力。

优化的模型架构和大小:吸取 GLM-130B 训练经验,修正了二维 RoPE 位置编码实现,使用传统 FFN 结构。6B(62 亿)的参数大小,也使得研究者和个人开发者自己微调和部署 ChatGLM-6B 成为可能。

较低的部署门槛:FP16 半精度下,ChatGLM-6B 需要至少 13 GB 的显存进行推理,结合模型量化技术,这一需求可以进一步降低到 10GB(INT8) 和 6GB(INT4),使得 ChatGLM-6B 可以部署在消费级显卡上。

更长的序列长度:相比 GLM-10B(序列长度 1024),ChatGLM-6B 序列长度达 2048,支持更长对话和应用。

人类意图对齐训练:使用了监督微调(Supervised Fine-Tuning)、反馈自助(Feedback Bootstrap)、人类反馈强化学习(Reinforcement Learning from Human Feedback)等方式,使模型初具理解人类指令意图的能力。输出格式为 markdown,方便展示。

基于以上特点,ChatGLM-6B 在一定条件下具备较好的对话与问答能力。ChatGLM-6B 的对话效果展示如下:

ff303b12-c479-11ed-bfe3-dac502259ad0.png

不过由于 ChatGLM-6B 模型的容量较小,不可避免地存在一些局限和不足,包括:

相对较弱的模型记忆和语言能力。在面对许多事实性知识任务时,ChatGLM-6B 可能会生成不正确的信息,也不太擅长逻辑类问题(如数学、编程)的解答。

可能会产生有害说明或有偏见的内容:ChatGLM-6B 只是一个初步与人类意图对齐的语言模型,可能会生成有害、有偏见的内容。

较弱的多轮对话能力:ChatGLM-6B 的上下文理解能力还不够充分,在面对长答案生成和多轮对话的场景时,可能会出现上下文丢失和理解错误的情况。

相比起 ChatGLM-6B,ChatGLM 参考了 ChatGPT 的设计思路,在千亿基座模型 GLM-130B 中注入了代码预训练,通过有监督微调(Supervised Fine-Tuning)等技术实现人类意图对齐。ChatGLM 线上模型的能力提升主要来源于独特的千亿基座模型 GLM-130B。它采用了不同于 BERT、GPT-3 以及 T5 的 GLM 架构,是一个包含多目标函数的自回归预训练模型。

GLM 团队表示,2022 年 11 月,斯坦福大学大模型中心对全球 30 个主流大模型进行了全方位的评测,GLM-130B 是亚洲唯一入选的大模型。在与 OpenAI、Google Brain、微软、英伟达、Meta AI 的各大模型对比中,评测报告显示 GLM-130B 在准确性和公平性指标上与 GPT-3 175B (davinci) 接近或持平,鲁棒性、校准误差和无偏性则优于 GPT-3 175B。

ff656a6c-c479-11ed-bfe3-dac502259ad0.png

由 ChatGLM 生成的对话效果展示:

00b6fc32-c47a-11ed-bfe3-dac502259ad0.png

00d17aee-c47a-11ed-bfe3-dac502259ad0.png

014cb632-c47a-11ed-bfe3-dac502259ad0.png

不过 GLM 团队也坦言,整体来说 ChatGLM 距离国际顶尖大模型研究和产品(比如 OpenAI 的 ChatGPT 及下一代 GPT 模型)还存在一定的差距。该团队表示,将持续研发并开源更新版本的 ChatGLM 和相关模型。“欢迎大家下载 ChatGLM-6B,基于它进行研究和(非商用)应用开发。GLM 团队希望能和开源社区研究者和开发者一起,推动大模型研究和应用在中国的发展。”

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    29925

    浏览量

    268219
  • 模型
    +关注

    关注

    1

    文章

    3140

    浏览量

    48672

原文标题:清华系千亿基座对话模型ChatGLM开启内测,单卡版模型已全面开源

文章出处:【微信号:OSC开源社区,微信公众号:OSC开源社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    爱芯元智受邀参加2024清华自动化论坛

    近日,“2024清华自动化论坛”在广州举行。本次论坛由清华校友总会自动化分会主办,汇聚了海内外约200位清华大学自动化
    的头像 发表于 11-05 14:41 299次阅读

    chatglm2-6b在P40上做LORA微调

    2-6B chatglm2-6b相比于chatglm有几方面的提升: 1. 性能提升: 相比初代模型,升级了 ChatGLM2-6B 的基座
    的头像 发表于 08-13 17:12 424次阅读
    <b class='flag-5'>chatglm</b>2-6b在P40上做LORA微调

    热烈欢迎清华大学电子工程学子来武汉六博光电交流实践!

    近日,武汉六博光电技术有限责任公司接到清华大学函件,正式成为清华大学电子工程武汉实践基地之一。2024年8月1日上午,清华大学电子工程
    的头像 发表于 08-02 08:37 460次阅读
    热烈欢迎<b class='flag-5'>清华</b>大学电子工程<b class='flag-5'>系</b>学子来武汉六博光电交流实践!

    Al大模型机器人

    金航标kinghelm萨科微slkor总经理宋仕强介绍说,萨科微Al大模型机器人有哪些的优势?萨科微AI大模型机器人由清华大学毕业的天才少年N博士和王博士团队开发,与同行相比具有许多优势:语言
    发表于 07-05 08:52

    昆仑万维开源2千亿稀疏大模型Skywork-MoE

    近日,昆仑万维公司宣布开源一款名为Skywork-MoE的稀疏大模型,该模型拥有高达2千亿参数,不仅性能强劲,而且推理成本更低,为人工智能领域带来了新的突破。
    的头像 发表于 06-04 14:44 533次阅读

    中国移动发布“九天”人工智能基座

    在第七届数字中国建设峰会上,中国移动正式推出了其全新的“九天”人工智能基座。这一基座融合了万卡级智算集群、千亿多模态大模型以及一个汇聚了百大要素的生态平台。
    的头像 发表于 05-29 11:12 830次阅读

    通义千问开源千亿级参数模型

    通义千问近日开源了其首个千亿级参数模型Qwen1.5-110B,这是其全系列中首个达到千亿级别的开源模型。Qwen1.5-110B模型继承了
    的头像 发表于 05-08 11:01 693次阅读

    【大语言模型:原理与工程实践】大语言模型的评测

    大语言模型的评测是确保模型性能和应用适应性的关键环节。从基座模型到微调模型,再到行业模型和整体能
    发表于 05-07 17:12

    模型微调开源项目全流程

    对于所有“基座”(Base)模型,–template 参数可以是 default, alpaca, vicuna 等任意值。但“对话”(Chat)模型请务必使用对应的模板。
    的头像 发表于 03-13 14:56 800次阅读
    大<b class='flag-5'>模型</b>微调开源项目全流程

    百川智能发布超千亿模型Baichuan 3

    百川智能近日发布了超千亿参数的大语言模型Baichuan 3,引发了业界的广泛关注。这款模型在多个权威通用能力评测中表现卓越,展现了其强大的语义理解和生成能力。
    的头像 发表于 01-31 14:58 780次阅读

    书生・浦语 2.0(InternLM2)大语言模型开源

    这个模型在 2.6 万亿 token 的高质量语料基础上进行训练,包含 7B 和 20B 两种参数规格以及基座对话等版本,以满足不同复杂应用场景的需求。
    发表于 01-19 09:39 250次阅读
    书生・浦语 2.0(InternLM2)大语言<b class='flag-5'>模型</b>开源

    智谱AI推出新一代基座模型GLM-4

    智谱AI近日宣布推出新一代基座模型GLM-4。这一模型在整体性能上相较上一代实现了大幅提升,其表现已逼近GPT-4。
    的头像 发表于 01-17 15:29 980次阅读

    三步完成在英特尔独立显卡上量化和部署ChatGLM3-6B模型

    ChatGLM3 是智谱 AI 和清华大学 KEG 实验室联合发布的新一代对话预训练模型ChatGLM3-6B 是
    的头像 发表于 01-11 18:04 1539次阅读
    三步完成在英特尔独立显卡上量化和部署<b class='flag-5'>ChatGLM</b>3-6B<b class='flag-5'>模型</b>

    ChatGLM3-6B在CPU上的INT4量化和部署

    ChatGLM3 是智谱 AI 和清华大学 KEG 实验室联合发布的新一代对话预训练模型ChatGLM3-6B 是
    的头像 发表于 01-05 09:36 851次阅读
    <b class='flag-5'>ChatGLM</b>3-6B在CPU上的INT4量化和部署

    “行空板+大模型”——基于ChatGLM的多角色交互式聊天机器人

    随着人工智能技术的迅猛发展,大型语言模型成为了热门话题。国际上的GPT-3、BERT等模型备受关注,而国内的本土语言模型ChatGLM也引起了广泛关注。
    的头像 发表于 12-08 14:11 584次阅读