0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

搜索出生的百川智能大模型RAG爬坑之路总结

深度学习自然语言处理 来源:NLP PaperWeekly 2024-01-05 15:02 次阅读

今天对百川的RAG方法进行解读,百川智能具有深厚的搜索背景,来看看他们是怎么爬RAG的坑的吧~

总的来说,百川通过长上下文模型(192k)+搜索增强结合的方法来解决知识更新,降低模型幻觉的问题,使得其在5000万tokens的数据集中取得95%的精度。其主要在以下几个方面做优化:

1) Query拓展:这是我自己取的名字,可能不太准确,其主要参考Meta的CoVe[1]以及百川自研的Think Step-Further方法对原始用户输入的复杂问题进行拆解、拓展,挖掘用户更深层次的子问题,借助子问题检索效果更高的特点来解决复杂问题检索质量偏差的问题。

2) 优化检索链路:采用稀疏检索+向量检索+Rerank结合的方法,来提高检索的召回率和准确率。并且其自研的Baichuan-Text-Embedding向量模型也登顶了C-MTEB语义向量评测标准。

3) 自我反省机制:百川智能通过self-Critique大模型自省机制来筛选更优质、知识密度更高的内容。

一、概述

1Motivation

1.1 当前检索增强RAG方法痛点

成本高、召回偏低:扩展上下文窗口+引入向量数据库能以非常低的成本提高模型对新知识的接入能力,但是扩展上下文窗口容量有限(128k最多容纳23万汉字,相当于658kb文档),成本比较高,性能下降明显。向量数据库也存在召回率偏低、开发门槛高等缺点。

用户输入变复杂:与传统关键词或者短语搜索逻辑不太一致,用户输入问题不再是词或者短句,而是转变成自然对话声知识多轮对话数据,问题形式更加多元,紧密关联上下文,输入风格更加口语化。

1.2 RAG是当前大模型落地降低幻觉、更新数据的有效方法之一

行业大模型解决方案有后训练(Post-Train)和有监督微调(SFT),但是仍然无法解决大模型落地的幻觉和实效性问题。

后训练(Post-Train)和有监督微调(SFT)每次需要更新数据,重新训练,还可能会带来其他问题,成本比较大。

2Methods

省流版总结:

百川将长窗口与搜索/RAG(检索增强生成)相结合,形成长窗口模型+搜索的完整技术栈。

百川RAG方案总结:Query 扩展(参考Meta CoVe + 自研Think Step-Further) + 自研Baichuan-Text-Embedding向量模型 + 稀疏检索(BM25、ES) + rerank模型 + 自研Self-Critique技术(过滤检索结果)。

2.1 Query扩展

背景:与传统关键词或者短语搜索逻辑不太一致,用户输入问题不再是词或者短句,而是转变成自然对话声知识多轮对话数据,问题形式更加多元,紧密关联上下文,输入风格更加口语化。

目的:拆解复杂的prompt,检索相关子问题,并深度挖掘用于口语化表达中深层次含义,借助子问题检索效果更高的特点来解决复杂问题检索质量偏差的问题。

方法:参考Meta CoVe[1]以及Think Step-Further的方法,对用户原始的Query进行扩展,拓展出多个相关问题,然后通过相关问题去检索相关内容,提高召回率。

百川Query扩展方案:

9a30d1cc-ab6e-11ee-8b88-92fbcf53809c.png

Meta CoVe方案:

9a3626ea-ab6e-11ee-8b88-92fbcf53809c.png

2.2 自研Embedding模型

数据:在超过1.5T tokens(看着训练百川模型的数据都来训embedding模型了?)。

方法:采用无监督方法(估计类似SimCSE[2]系列),通过自研损失函数解决对比学习方式依赖batchsize问题。

效果:登顶C-MTEB,在分类、聚类、排序、检索和文本相似度5个任务评分取得领先。

9a3a141c-ab6e-11ee-8b88-92fbcf53809c.png

2.3 多路召回+rerank

方法:稀疏检索+向量检索 + rerank模型。其中稀疏检索应该是指BM25、ES等传统检索的方法,rerank模型百川没有提到,不确定是用大模型来做rerank还是直接训练相关rerank模型来对检索结果排序。

效果:召回率95%,对比其他开源向量模型召回率低于80%。

2.4 self-Critique

方法:让大模型基于 Prompt、从相关性和可用性等角度对检索回来的内容自省,进行二次查看,从中筛选出与 Prompt 最匹配、最优质的候选内容。

目的:提升检索结果的知识密度和广度,降低检索结果中的知识噪声。

9a3f13fe-ab6e-11ee-8b88-92fbcf53809c.png

3 Conclusion

百川192K上下文模型表现不错,实现了100%的回答精度。

9a51553c-ab6e-11ee-8b88-92fbcf53809c.png

长上下文窗口模型+搜索增强技术使5000万Tokens数据集达到95%的回答精度。

9a56555a-ab6e-11ee-8b88-92fbcf53809c.png

二、总结

多轮问答等场景的召回和传统搜索引擎的召回分布还不太一样。百川借助子问题检索效果更高的特点,对原始复杂问题进行拆解、拓展来解决复杂问题检索质量偏差的问题。

对于没见过的语料直接用向量检索的结果可能不太理想。百川在大量语料上利用无监督方法训练embedding模型来优化效果。而行业大模型更倾向于私有的数据,要提升私有数据的训练效果还得继续在私有化数据上训练效果会更佳。

Query拓展 + 多路召回 + Rerank + self-Critique可能是现阶段比较好的一种RAG方式,但是其也会带来更多成本。总体思路有点像ReAct[3]系列的进阶版本,其在搜索侧和答案修正侧都做了更多的一些工作来优化实际效果。其缺点是需要多次调用大模型,会带来额外的成本,真实线上是否采用这种策略还有待验证。







审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SFT
    SFT
    +关注

    关注

    0

    文章

    9

    浏览量

    6801

原文标题:百川智能RAG方案总结:搜索出生的百川智能大模型RAG爬坑之路

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    白海科技与百川智能顺势而为、携手共进,助力领域大模型应用快速落地

    (2023年08月08日,中国北京讯)近日,AI基础软件服务商白海科技与国内领先的AGI服务企业百川智能宣布达成战略合作协议。这次合作旨在加速大语言模型在各行各业的应用,并为客户提供智能
    的头像 发表于 08-08 14:23 1027次阅读

    百川ESD产品简介 2017版

    百川ESD产品简介
    发表于 10-09 16:26 0次下载

    海基新能源再获百川股份资金加持

    海基新能源为百川股份参股公司,此次增资前,百川股份合计持股26.55%。百川股份表示,本次增资有利于扩大海基新能源锂电项目产能规模,满足其未来发展对资金的需求。
    的头像 发表于 12-28 10:11 3664次阅读

    百川的大模型KnowHow介绍

    模型是一个实验工程,涉及数据清洗、底层框架、算法策略等多个工序,每个环节都有很多,因此知道如何避和技术选型非常重要,可以节省很多算力和时间。
    的头像 发表于 09-18 10:28 1241次阅读

    百川智能获阿里腾讯小米等3亿美元投资

    百川智能推出了4款开源baichuan-7b/13b、baichuan 2-7b/13b的免费商用产品和baichuan-53b、baichuan 2-53b的闭源大模型,平均每28天推出一次新的大
    的头像 发表于 10-17 10:15 725次阅读

    寒武纪的思元(MLU)云端智能加速卡与百川智能完成大模型适配,携手创新生成式AI

    近日,寒武纪思元(MLU)系列云端智能加速卡与百川智能旗下的大模型Baichuan2-53B、Baichuan2-13B、Baichuan2-7B等已完成全面适配,寒武纪思元(MLU)
    的头像 发表于 11-06 20:32 1323次阅读
    寒武纪的思元(MLU)云端<b class='flag-5'>智能</b>加速卡与<b class='flag-5'>百川</b><b class='flag-5'>智能</b>完成大<b class='flag-5'>模型</b>适配,携手创新生成式AI

    百川智能发布Baichuan2 Turbo系列API,或将替代行业大模型

    在当天的媒体沟通会上,百川智能创始人、CEO王小百川智能联合创始人、联席总裁洪涛,百川
    的头像 发表于 12-20 16:54 900次阅读

    百川智能发布超千亿大模型Baichuan 3

    百川智能近日发布了超千亿参数的大语言模型Baichuan 3,引发了业界的广泛关注。这款模型在多个权威通用能力评测中表现卓越,展现了其强大的语义理解和生成能力。
    的头像 发表于 01-31 14:58 776次阅读

    数势联动百川,发布首批大模型联合解决方案,推动中国大模型价值落地

    近日,行业领先的数据智能产品提供商北京数势云创科技有限公司(以下简称“数势科技”)和国内通用大模型厂商北京百川智能科技有限公司(以下简称“百川
    的头像 发表于 02-28 11:40 450次阅读
    数势联动<b class='flag-5'>百川</b>,发布首批大<b class='flag-5'>模型</b>联合解决方案,推动中国大<b class='flag-5'>模型</b>价值落地

    百川智能与北京大学将共建通用人工智能联合实验室

    近日,百川智能与北京大学携手合作,共同签署了“北大——百川通用人工智能联合实验室”的共建协议,标志着双方在人工智能领域迈出了坚实的合作步伐。
    的头像 发表于 03-21 11:45 837次阅读

    百川智能发布Baichuan 4大模型及首款AI助手“小应”

    百川智能近日发布了其新一代基座大模型Baichuan 4,并同步推出了首款AI助手“小应”。这款AI助手是在Baichuan 4强大能力的基础上,结合先进的
    的头像 发表于 05-23 14:15 567次阅读

    亚马逊云科技接入百川智能和零一万物基础模型

    近日,亚马逊云科技在中国峰会上宣布,两大中文基础模型——百川智能的Baichuan2-7B和零一万物的Yi-1.5 6B/9B/34B,即将或已正式登陆中国区域的SageMaker JumpStart。这一举措为中国企业提供了丰
    的头像 发表于 06-04 11:53 542次阅读

    百川智能完成50亿元A轮融资

    近日,国内领先的医疗AI大模型企业——百川智能,正式宣布完成了高达50亿元人民币的A轮融资,这一里程碑式的融资不仅彰显了市场对其技术实力与未来发展潜力的高度认可,也为公司的后续发展奠定了坚实的资金基础。
    的头像 发表于 07-26 16:42 422次阅读

    模型厂商“输血”不断,百川智能完成50亿元A轮融资!

    有重磅消息曝出:知名大模型公司百川智能已经成功收获了价值50亿元的A轮融资。由此,我们不禁感叹,大模型厂商们的“输血”和“续命”之战,还在激烈的上演着。
    的头像 发表于 07-31 14:47 563次阅读
    大<b class='flag-5'>模型</b>厂商“输血”不断,<b class='flag-5'>百川</b><b class='flag-5'>智能</b>完成50亿元A轮融资!

    百川智能发布一站式大模型商业化解决方案

    近日,百川智能正式推出了一站式大模型商业化解决方案,旨在为企业提供更加全面、高效的大模型应用服务。该解决方案以1+3产品矩阵为核心,包括全链路优质通用训练数据、Baichuan4-Tu
    的头像 发表于 11-01 18:01 699次阅读