0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

模型表现方面有意思的成果

深度学习自然语言处理 来源:深度学习自然语言处理 2023-05-23 14:55 次阅读

若干年前,AlphaGo Zero用两个AI代理切磋围棋技艺,打败了人类。今早,符尧的一篇论文刷新了我的认知:让大语言模型相互对弈,再加一个评论家提供建设性意见,提高菜市场砍价技巧!这种模式被作者定义为In-Context Learning from AI Feedback (ICL-AIF),即来自AI反馈的上下文学习,使用评论家的反馈以及前几轮对话历史作为上下文。

没错,就是让GPT和Claude扮演卖家和买家,开展一场价格厮杀的对决!

我们先来简单介绍游戏玩法:

任务是卖气球,交易价格设定为10美元至20美元,卖家要以更高的价格销售,而买家要以更低的价格购买!对于每轮交易,论文作者硬编码卖方以“这是一个好气球,价格为20美元”开始协商,买方则以“你是否考虑以10美元的价格出售它?”开始协商,协商结束后会有批评家提供反馈,改善买家或卖家的行为。衡量玩家表现的是最终成交价格

8d229cac-f70c-11ed-90ce-dac502259ad0.png图:谈判游戏的设置

哪些模型参与游戏呢?

筛选条件是可通过API调用的聊天机器人,包括cohere-command、AI21的jurassic-2、OpenAI的gpt和Anthropic的claude。根据chain-of-thought hub和HeLM 之类的基准测试,这些模型的大致排名是:gpt-4和claude-v1.3大致相似,优于gpt-3.5-turbo和claude-instant-v1.0,也优于cohere-command和j2-jumbo-instruct。作者表示将在未来考虑更多的模型,例如Google的PaLM-2。

但是,由于cohere-command不能理解谈判规则、AI21的j2-jumbo-instruct不能整合AI反馈,所以这两个模型被剔除。只考虑剩下的三个模型:gpt-3.5-turbo,claude-instant-v1.0和claude-v1.3。从表1看出,这三个模型在人类和AI反馈方面都表现出相当的改进,这证明了这个游戏设置对于更强的LLM引擎是有效的。

8d2b604e-f70c-11ed-90ce-dac502259ad0.png表:使用AI反馈与从预定义池中随机选择的人类反馈相比,卖家的平均交易价格

有哪些有意思的实验结果?

由于这篇工作只是一个初步探索,我们先窥探一些模型表现方面有意思的成果吧:

1. 角色差异

像claude-instant-v1.0和gpt-3.5-turbo这样较弱的代理,作为卖方通过AI反馈进行改进比作为买方更容易,这表明买方角色比卖方角色更难扮演。但更强的代理(claude-v1.3 / gpt-4)作为买家,仍然可以从AI反馈中获得改进。

8d385006-f70c-11ed-90ce-dac502259ad0.png图:500场游戏的交易价格频率,反馈前v.s.反馈后。X轴是价格,Y轴是价格的频率

2. 迭代改进

将游戏展开到多轮,看看模型是否可以从先前的对话历史和迭代AI反馈中持续改进,会发现gpt-3.5-turbo可以在多轮中改进,但claude-instant-v1.0只能在最多一轮中改进。

8d3f5518-f70c-11ed-90ce-dac502259ad0.png图:多回合设置中,不同的模型在扮演卖/买家时有不同的行为

3. 成交价格和成交率的平衡

当扮演买家时,有些模型无法进行改进(claude-instant-v1.0),或在三轮之后趋于饱和(claude-v1.3),而gpt-4和gpt-3.5-turbo可以不断改进,gpt-4取得了比gpt-3.5-turbo更低的成交价格和更高的成交率。

8d45388e-f70c-11ed-90ce-dac502259ad0.png图:GPT和Claude模型在多轮游戏中的交易价格及成交率

4. 语言复杂性

通过绘制每轮之后的平均响应长度(以字符数度量),可以看到,claude-v1.3和gpt-4在迭代AI反馈后回答变长。从具体的卖家回答示例也可以看到,经过多轮谈判,措辞也更加得体。但比起claude-v1.3,gpt-4能使用更少的词语实现更好的价格和成功率。

8d4e0734-f70c-11ed-90ce-dac502259ad0.png图:平均响应长度随着模型的多轮学习而增加

结论

大语言模型的确可以根据AI反馈迭代改进谈判策略,且更强的模型效果更明显!这个研究是否意味着,大语言模型可以在最少的人类干预下实现自我改进呢?只需给它一个评论家分身即可!

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    211

    文章

    28366

    浏览量

    206887
  • AI
    AI
    +关注

    关注

    87

    文章

    30665

    浏览量

    268828
  • 模型
    +关注

    关注

    1

    文章

    3218

    浏览量

    48801

原文标题:符尧最新研究:大语言模型玩砍价游戏?技巧水涨船高!

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    斯特林发动机,很有意思

    本帖最后由 hands 于 2011-6-29 15:25 编辑 斯特林发动机,很有意思,大家来讨论下嘛。
    发表于 06-29 15:24

    FPGA和ARM哪个更有意思,更容易进步提升快???

    FPGA和ARM方向,哪一个工作后提升更快,觉得单片机比较有意思,可是还是想学点高级的,以后发展好点,那ARM和FPGA哪个和更有意思,更有挑战性;在同等兴趣和投入下,FPGA和ARM哪个更容易遇到
    发表于 11-24 00:29

    求更多有意思的电子设计和制作方案

    求更多有意思的电子设计和制作方案。
    发表于 12-13 21:46

    fpga在医疗方面有什么应用前景

    最近在学fpga不知道以后能干什么,请教一下,在医疗方面有什么应用前景,如果想在这方面入手的话需要哪方面的资料呢,谢谢
    发表于 07-11 08:41

    自己刚学仿真 觉得有意思 就与大家分享一下

    proteus仿真还挺有意思的额希望能从这里起步 这个地方我很喜欢 相见恨晚啊以后在这里 多多学习
    发表于 08-07 21:20

    求大神推荐一些和运放有关的电路,比较有意思的,

    求大神帮忙,求大神推荐一些和运放有关的电路,比较有意思的,
    发表于 04-06 10:55

    分享几个有意思的小问题

    一般都可以看成一个RLC串联模型。在某个频率,会发生谐振,此时电容的阻抗就等于其ESR。如果看电容的频率阻抗曲线图,就会发现一般都是一个V形的曲线。具体曲线与电容的介质有关,所以选择旁路电容还要考虑电容
    发表于 08-24 21:48

    有意思的三极管放大电路

    `有意思的三极管放大电路`
    发表于 10-25 14:27

    请问QML中有哪些比较有意思的控件?

    QML中有哪些比较有意思的控件?
    发表于 11-11 07:54

    图形处理在多媒体技术应用方面的经验和成果

    图形处理在多媒体技术应用方面的经验和成果
    发表于 02-01 06:07

    音响放大器的制作及调试有电路图

    面有原理图和pcb 自己弄个小音响玩玩很有意思的哦哦
    发表于 07-12 18:32 18次下载

    有意思!如何制作一支吹不灭的蜡烛?

    看到网上有一种“吹不灭的蜡烛”卖,觉得很有意思。一支蜡烛,吹灭了,马上又自己点着。不但实用,插在生日蛋糕上也很搞怪,吹不灭蜡烛怎么许愿啊……
    的头像 发表于 08-03 15:28 2.3w次阅读

    苹果秋季发布会给我们带来了三款有意思的AR应用

    在刚刚的苹果秋季发布会上,官方除了公布了三款新iPhone和全新的Apple Watch Series 4外,还给我们带来了三款有意思的 AR 应用:B 社的《上古卷轴:Blades》手游、篮球练习应用《Homecourt》、大蜜蜂街机《Galaga》。
    发表于 09-13 10:56 1468次阅读

    深读解析反向传播算法在解决模型优化问题的方面应用

    反向传播算法隶属于深度学习,它在解决模型优化问题的方面有着重要的地位。
    的头像 发表于 11-01 15:48 5605次阅读
    深读解析反向传播算法在解决<b class='flag-5'>模型</b>优化问题的<b class='flag-5'>方面</b>应用

    esp32上使用chatGPT做一些有意思的事情

    将ChatGPT与ESP32进行结合,可以在物联网应用方面做出更有意思的事情,如聊天机器人、语音助手和自然语言界面。下面,我将在ESP32中使用ChatGPT API。为了让ESP32从
    的头像 发表于 10-18 10:04 318次阅读