0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

低成本开源聊天机器人Vicuna:可达到ChatGPT/Bard 90%以上水平

OSC开源社区 来源:OSC开源社区 2023-04-06 11:09 次阅读

大型语言模型 (LLM) 的快速发展彻底改变了聊天机器人系统,从而实现了前所未有的智能水平,譬如 OpenAI 的 ChatGPT。但 ChatGPT 的训练和架构细节仍不清楚,阻碍了该领域的研究和开源创新。受 Meta LLaMA 和 Stanford Alpaca 项目的启发,来自加州大学伯克利分校、CMU、斯坦福大学和加州大学圣地亚哥分校的成员,共同推出了一个 Vicuna-13B 开源聊天机器人,由增强的数据集和易于使用、可扩展的基础设施支持。

根据介绍,通过根据从 ShareGPT.com (一个用户可以分享他们的 ChatGPT 对话的网站) 收集的用户共享对话微调 LLaMA 基础模型,Vicuna-13B 与 Stanford Alpaca 等其他开源模型相比展示了具有竞争力的性能。

以 GPT-4 为评判标准的初步评估显示,Vicuna-13B 达到了 OpenAI ChatGPT 和 Google Bard 90% 以上的质量,同时在 90% 以上的情况下超过了 LLaMA 和 Stanford Alpaca 等其他模型的表现。训练 Vicuna-13B 成本约为 300 美元。训练和服务代码,以及在线演示都是公开的,可用于非商业用途。

f66c4af6-d40b-11ed-bfe3-dac502259ad0.png

为了确保数据质量,Vicuna 团队将 HTML 转换回 markdown 并过滤掉一些不合适或低质量的样本。以及将冗长的对话分成更小的部分,以适应模型的最大上下文长度。其训练方法建立在 Stanford Alpaca 的基础上,并进行了以下改进:

内存优化:为了使 Vicuna 能够理解长上下文,开发团队将最大上下文长度从 Alpaca 中的 512 扩展到 2048,大大增加了 GPU 内存需求。通过利用 utilizing gradient checkpointing 和 flash attention 来解决内存压力。

多轮对话:调整训练损失以考虑多轮对话,并仅根据聊天机器人的输出计算微调损失。

通过 Spot 实例降低成本:40 倍大的数据集和 4 倍的训练序列长度对训练费用提出了相当大的挑战。Vicuna 团队使用 SkyPilot managed spot 来降低成本,方法是利用更便宜的 spot 实例以及自动恢复抢占和自动区域切换。该解决方案将 7B 模型的训练成本从 500 美元削减至 140 美元左右,将 13B 模型的训练成本从 1000 美元左右削减至 300 美元。

Vicuna 团队构建了一个服务系统,该系统能够使用分布式 workers 为多个模型提供服务;它支持来自本地集群和云的 GPU worker 的灵活插件。通过利用 SkyPilot 中的容错控制器和 managed spot 功能,该服务系统可以很好地与来自多个云的更便宜的 spot 实例一起工作,以降低服务成本。它目前是一个轻量级的实现,未来将努力将集成更多的最新研究成果。

具体来说,开发团队首先从 ShareGPT.com 收集了大约 7 万个对话,然后增强了 Alpaca 提供的训练脚本,以更好地处理多轮对话和长序列;训练在一天内在 8 个 A100 GPU 上使用 PyTorch FSDP 完成。为了提供演示服务,他们还实现了一个轻量级的分布式服务系统。通过创建一组 80 个不同的问题并利用 GPT-4 来判断模型输出,对模型质量进行了初步评估。为了比较两个不同的模型,团队成员将每个模型的输出组合成每个问题的单个提示。然后将提示发送到 GPT-4,GPT-4 评估哪个模型提供更好的响应。

f6b1275c-d40b-11ed-bfe3-dac502259ad0.png

LLaMA、Alpaca、ChatGPT 和 Vicuna 的详细对比如下:

f6e820cc-d40b-11ed-bfe3-dac502259ad0.png

Vicun 团队展示了 Alpaca 和 Vicuna 对基准问题的回答示例。在使用 70K 用户共享的 ChatGPT 对话对 Vicuna 进行微调后,其发现与 Alpaca 相比,Vicuna 能够生成更详细、结构更合理的答案,并且质量与 ChatGPT 相当。

例如,在要求 “撰写一篇引人入胜的旅游博文,介绍最近的夏威夷之行,突出文化体验和必去的景点” 时,GPT-4 的评价得分为:Alpaca-13b 7/10,Vicuna-13b 10/10。并阐述理由称,Alpaca 提供了旅行博文的简要概述,但没有按照要求实际撰写博文,导致得分较低。Vicuna-13b 则就最近的夏威夷之行撰写了一篇详细而有吸引力的旅游博文,强调了文化体验和必看的景点,完全满足了用户的要求,因此获得了较高的分数。

与此同时,Vicun 的初步发现表明,在比较聊天机器人的答案时,GPT-4 可以产生高度一致的等级和详细的评估。下图中总结的基于 GPT-4 的初步评估显示,Vicuna 达到了 Bard/ChatGPT 的 90% 能力。不过总的来说,为聊天机器人建立一个评估系统仍是一个需要进一步研究的开放式问题。

f70dc6ce-d40b-11ed-bfe3-dac502259ad0.png

Vicun 团队提出了一个基于 GPT-4 的评估框架来自动评估聊天机器人的性能。设计了八个问题类别,以测试聊天机器人性能的各个方面。并基于每个类别选择十个问题,分别由 LLaMA、Alpaca、ChatGPT、Bard 和 Vicuna 生成答案,然后要求 GPT-4 根据有用性、相关性、准确性和细节来评估答案质量。结果发现 GPT-4 不仅可以产生相对一致的分数,而且可以详细解释为什么给出这样的分数(详细示例链接)。但在判断编码 / 数学任务方面,GPT-4 则不太擅长。

f7292e00-d40b-11ed-bfe3-dac502259ad0.png

数据表明在超过 90% 的问题中,相较 LLaMA、Alpaca 等,GPT-4 更倾向 Vicuna 生成的答案,并且它实现了可与专有模型(ChatGPT、Bard)竞争的性能。在 45% 的问题中,GPT-4 将 Vicuna 的回答评为优于或等于 ChatGPT 的回答。

f764593a-d40b-11ed-bfe3-dac502259ad0.png

总的来说,虽然最近行业发展如火如荼,但事实上聊天机器人仍然面临局限性,例如难以解决基本的数学问题或编码能力有限。且为聊天机器人开发一个全面、标准化的评估系统,也是一个需要进一步研究的悬而未决的问题。

开发团队承认,Vicuna 不擅长涉及推理或数学的任务,并且在准确识别自己或确保其输出的事实准确性方面可能存在局限性。此外,它还没有得到充分优化以保证安全性或减轻潜在的毒性或偏见。为了解决安全问题,他们使用 OpenAI moderation API 来过滤掉在线演示中不适当的用户输入。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    3348

    浏览量

    42496
  • 数据集
    +关注

    关注

    4

    文章

    1208

    浏览量

    24700
  • 聊天机器人
    +关注

    关注

    0

    文章

    339

    浏览量

    12312
  • OpenAI
    +关注

    关注

    9

    文章

    1087

    浏览量

    6508

原文标题:低成本开源聊天机器人Vicuna:可达到ChatGPT/Bard 90%以上水平

文章出处:【微信号:OSC开源社区,微信公众号:OSC开源社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    自然语言处理在聊天机器人中的应用

    随着人工智能技术的飞速发展,聊天机器人已经成为我们日常生活中不可或缺的一部分。从客户服务到个人助理,聊天机器人的应用范围越来越广泛。这些机器人能够理解用户的查询,并提供及时、准确的回答,这在很大程度
    的头像 发表于 12-05 15:24 430次阅读

    马斯克旗下xAI计划推出Grok聊天机器人独立应用

    近日,据最新报道,埃隆·马斯克旗下的xAI公司计划最早于12月推出一款独立的聊天机器人应用程序,这款应用将围绕其旗下的Grok聊天机器人进行打造。此举被视为xAI在聊天机器人市场的重要布局,旨在
    的头像 发表于 11-29 13:38 175次阅读

    NLP技术在聊天机器人中的作用

    聊天机器人,也称为聊天AI,是一种通过文本或语音与人类进行交流的软件。它们广泛应用于客户服务、在线购物、个人助理等领域。NLP技术是实现聊天机器人智能对话能力的关键。 1. 理解用户意图 NLP技术
    的头像 发表于 11-11 10:33 437次阅读

    ChatGPT 与传统聊天机器人的比较

    随着人工智能技术的飞速发展,聊天机器人已经成为我们日常生活中不可或缺的一部分。从简单的客服助手到复杂的个人助理,这些虚拟助手正在逐渐改变我们与技术的互动方式。在众多聊天机器人中,ChatGPT无疑是
    的头像 发表于 10-25 16:16 562次阅读

    Meta人工智能聊天机器人进军新市场,挑战ChatGPT

    Meta近日宣布,其人工智能聊天机器人将进军21个新市场,与OpenAI的ChatGPT展开激烈竞争。
    的头像 发表于 10-11 16:29 308次阅读

    Snapchat聊天机器人集成谷歌Gemini技术

    Snap与谷歌云的战略合作再升级,为Snapchat平台注入了新的智能活力。双方宣布,Snapchat的My AI聊天机器人将深度集成谷歌Gemini技术,这一创新举措标志着Snapchat在人工智能应用领域的又一次飞跃。
    的头像 发表于 09-25 14:51 288次阅读

    Meta将推出音频版聊天机器人

    Meta公司即将在年度Connect大会上揭晓一项创新举措:推出音频版聊天机器人。据可靠消息,Meta已与Judi Dench、Kristen Bell及John Cena等多位国际知名演员达成合作
    的头像 发表于 09-24 15:18 457次阅读

    亚马逊秘密研发AI聊天机器人Metis,挑战ChatGPT

    科技巨头亚马逊近日被曝正在秘密研发一款代号为“Metis”的人工智能(AI)聊天机器人,意图与OpenAI的ChatGPT一较高下。Metis,这个名字源于希腊神话中的智慧女神,象征着亚马逊对其寄予的厚望与期待。
    的头像 发表于 06-26 18:08 1061次阅读

    AI聊天机器人Grok向欧洲X平台Premium会员开放

    社交平台X的首席执行官琳达·亚卡里诺宣布,全新研发的Grok人工智能聊天机器人正式向欧洲的X Premium会员提供服务。Grok是X平台精心打造的一款AI聊天机器人,旨在提升欧洲会员的交流体验。
    的头像 发表于 05-17 09:38 418次阅读

    Anthropic在欧洲推出Claude聊天机器人

    AI初创公司Anthropic在欧洲市场迈出了重要步伐,成功推出了Claude聊天机器人及其相应的订阅计划。此举旨在进一步增加用户数量和提升公司收入。Anthropic公司表示,其基础软件产品已经在欧洲的金融、酒店等行业吸引了众多关注。
    的头像 发表于 05-15 09:36 349次阅读

    揭秘聊天机器人的“大脑”-大语言模型

    如果说 AI 正处于改变历史的“iPhone 时刻”,那么聊天机器人就是其首批热门应用之一。
    的头像 发表于 04-17 10:01 732次阅读
    揭秘<b class='flag-5'>聊天机器人</b>的“大脑”-大语言模型

    英伟达引领AI新潮流,推出“Chat with RTX”聊天机器人

    随着人工智能技术的突飞猛进,英伟达(NVIDIA)再次展现了其技术领导地位,为Windows PC用户带来了一款革命性的本地聊天机器人应用程序——“Chat with RTX”。这一创新应用的推出,不仅标志着人工智能在日常生活中的进一步渗透,也预示着聊天机器人将迈向一个更
    的头像 发表于 02-19 11:11 999次阅读

    英伟达推出全新AI聊天机器人

    近日,英伟达(Nvidia)宣布推出其全新的AI聊天机器人——“Chat With RTX”。这款聊天机器人被视为英伟达版的ChatGPT,为用户提供了一个全新的、本地化的AI交互体验。
    的头像 发表于 02-19 11:09 922次阅读

    谷歌AI聊天机器人改名为Gemini

    谷歌(Google)近日宣布,旗下备受瞩目的AI聊天机器人Bard正式更名为Gemini,并推出了一款功能更加强大的付费版本——Gemini Advanced。这一战略调整旨在与微软、OpenAI等科技巨头在AI聊天机器人市场展
    的头像 发表于 02-18 11:28 1106次阅读

    字节跳动推出AI聊天机器人Coze扣子

    近日,字节跳动正式推出了名为“Coze扣子”的AI聊天机器人开发平台。自2月1日起,这一平台已正式上线,为开发者和用户提供了一个全新的交互体验。
    的头像 发表于 02-03 09:31 1830次阅读