搜索出生的百川智能大模型RAG爬坑之路总结-电子发烧友网

今天对百川的RAG方法进行解读，百川智能具有深厚的搜索背景，来看看他们是怎么爬RAG的坑的吧～

总的来说，百川通过长上下文模型(192k)+搜索增强结合的方法来解决知识更新，降低模型幻觉的问题，使得其在5000万tokens的数据集中取得95%的精度。其主要在以下几个方面做优化：

1) Query拓展：这是我自己取的名字，可能不太准确，其主要参考Meta的CoVe[1]以及百川自研的Think Step-Further方法对原始用户输入的复杂问题进行拆解、拓展，挖掘用户更深层次的子问题，借助子问题检索效果更高的特点来解决复杂问题检索质量偏差的问题。

2) 优化检索链路：采用稀疏检索+向量检索+Rerank结合的方法，来提高检索的召回率和准确率。并且其自研的Baichuan-Text-Embedding向量模型也登顶了C-MTEB语义向量评测标准。

3) 自我反省机制：百川智能通过self-Critique大模型自省机制来筛选更优质、知识密度更高的内容。

一、概述

1Motivation

1.1 当前检索增强RAG方法痛点

成本高、召回偏低：扩展上下文窗口+引入向量数据库能以非常低的成本提高模型对新知识的接入能力，但是扩展上下文窗口容量有限（128k最多容纳23万汉字，相当于658kb文档），成本比较高，性能下降明显。向量数据库也存在召回率偏低、开发门槛高等缺点。

用户输入变复杂：与传统关键词或者短语搜索逻辑不太一致，用户输入问题不再是词或者短句，而是转变成自然对话声知识多轮对话数据，问题形式更加多元，紧密关联上下文，输入风格更加口语化。

1.2 RAG是当前大模型落地降低幻觉、更新数据的有效方法之一

行业大模型解决方案有后训练（Post-Train）和有监督微调（SFT），但是仍然无法解决大模型落地的幻觉和实效性问题。

后训练（Post-Train）和有监督微调（SFT）每次需要更新数据，重新训练，还可能会带来其他问题，成本比较大。

2Methods

省流版总结：

百川将长窗口与搜索/RAG（检索增强生成）相结合，形成长窗口模型+搜索的完整技术栈。

百川RAG方案总结：Query 扩展（参考Meta CoVe + 自研Think Step-Further） + 自研Baichuan-Text-Embedding向量模型 + 稀疏检索(BM25、ES) + rerank模型 + 自研Self-Critique技术(过滤检索结果)。

2.1 Query扩展

背景：与传统关键词或者短语搜索逻辑不太一致，用户输入问题不再是词或者短句，而是转变成自然对话声知识多轮对话数据，问题形式更加多元，紧密关联上下文，输入风格更加口语化。

目的：拆解复杂的prompt，检索相关子问题，并深度挖掘用于口语化表达中深层次含义，借助子问题检索效果更高的特点来解决复杂问题检索质量偏差的问题。

方法：参考Meta CoVe[1]以及Think Step-Further的方法，对用户原始的Query进行扩展，拓展出多个相关问题，然后通过相关问题去检索相关内容，提高召回率。

百川Query扩展方案：

Meta CoVe方案：

2.2 自研Embedding模型

数据：在超过1.5T tokens（看着训练百川模型的数据都来训embedding模型了？）。

方法：采用无监督方法（估计类似SimCSE[2]系列），通过自研损失函数解决对比学习方式依赖batchsize问题。

效果：登顶C-MTEB，在分类、聚类、排序、检索和文本相似度5个任务评分取得领先。

2.3 多路召回+rerank

方法：稀疏检索+向量检索 + rerank模型。其中稀疏检索应该是指BM25、ES等传统检索的方法，rerank模型百川没有提到，不确定是用大模型来做rerank还是直接训练相关rerank模型来对检索结果排序。

效果：召回率95%，对比其他开源向量模型召回率低于80%。

2.4 self-Critique

方法：让大模型基于 Prompt、从相关性和可用性等角度对检索回来的内容自省，进行二次查看，从中筛选出与 Prompt 最匹配、最优质的候选内容。

目的：提升检索结果的知识密度和广度，降低检索结果中的知识噪声。

3 Conclusion

百川192K上下文模型表现不错，实现了100%的回答精度。

长上下文窗口模型+搜索增强技术使5000万Tokens数据集达到95%的回答精度。

二、总结

多轮问答等场景的召回和传统搜索引擎的召回分布还不太一样。百川借助子问题检索效果更高的特点，对原始复杂问题进行拆解、拓展来解决复杂问题检索质量偏差的问题。

对于没见过的语料直接用向量检索的结果可能不太理想。百川在大量语料上利用无监督方法训练embedding模型来优化效果。而行业大模型更倾向于私有的数据，要提升私有数据的训练效果还得继续在私有化数据上训练效果会更佳。

Query拓展 + 多路召回 + Rerank + self-Critique可能是现阶段比较好的一种RAG方式，但是其也会带来更多成本。总体思路有点像ReAct[3]系列的进阶版本，其在搜索侧和答案修正侧都做了更多的一些工作来优化实际效果。其缺点是需要多次调用大模型，会带来额外的成本，真实线上是否采用这种策略还有待验证。

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

SFT

SFT

+关注

关注
0

文章
9

浏览量
6844
百川智能

百川智能

+关注

关注
0

文章
17

浏览量
50

原文标题：百川智能RAG方案总结：搜索出生的百川智能大模型RAG爬坑之路

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

白海科技与百川智能顺势而为、携手共进，助力领域大模型应用快速落地

（2023年08月08日，中国北京讯）近日，AI基础软件服务商白海科技与国内领先的AGI服务企业百川智能宣布达成战略合作协议。这次合作旨在加速大语言模型在各行各业的应用，并为客户提供智能

发表于 08-08 14:23 •1229次阅读

百川ESD产品简介 2017版

百川ESD产品简介

发表于 10-09 16:26 •0次下载

海基新能源再获百川股份资金加持

海基新能源为百川股份参股公司，此次增资前，百川股份合计持股26.55%。百川股份表示，本次增资有利于扩大海基新能源锂电项目产能规模，满足其未来发展对资金的需求。

发表于 12-28 10:11 •3796次阅读

百川的大模型KnowHow介绍

大模型是一个实验工程，涉及数据清洗、底层框架、算法策略等多个工序，每个环节都有很多坑，因此知道如何避坑和技术选型非常重要，可以节省很多算力和时间。

发表于 09-18 10:28 •1554次阅读

百川智能发布Baichuan2 Turbo系列API，或将替代行业大模型

在当天的媒体沟通会上，百川智能创始人、CEO王小川，百川智能联合创始人、联席总裁洪涛，百川

发表于 12-20 16:54 •1149次阅读

百川智能发布超千亿大模型Baichuan 3

百川智能近日发布了超千亿参数的大语言模型Baichuan 3，引发了业界的广泛关注。这款模型在多个权威通用能力评测中表现卓越，展现了其强大的语义理解和生成能力。

发表于 01-31 14:58 •1026次阅读

数势联动百川，发布首批大模型联合解决方案，推动中国大模型价值落地

近日，行业领先的数据智能产品提供商北京数势云创科技有限公司（以下简称“数势科技”）和国内通用大模型厂商北京百川智能科技有限公司（以下简称“百川

发表于 02-28 11:40 •602次阅读

百川智能与北京大学将共建通用人工智能联合实验室

近日，百川智能与北京大学携手合作，共同签署了“北大——百川通用人工智能联合实验室”的共建协议，标志着双方在人工智能领域迈出了坚实的合作步伐。

发表于 03-21 11:45 •1071次阅读

百川智能发布Baichuan 4大模型及首款AI助手“百小应”

百川智能近日发布了其新一代基座大模型Baichuan 4，并同步推出了首款AI助手“百小应”。这款AI助手是在Baichuan 4强大能力的基础上，结合先进的

发表于 05-23 14:15 •764次阅读

亚马逊云科技接入百川智能和零一万物基础模型

近日，亚马逊云科技在中国峰会上宣布，两大中文基础模型——百川智能的Baichuan2-7B和零一万物的Yi-1.5 6B/9B/34B，即将或已正式登陆中国区域的SageMaker JumpStart。这一举措为中国企业提供了丰

发表于 06-04 11:53 •670次阅读

大模型厂商“输血”不断，百川智能完成50亿元A轮融资！

有重磅消息曝出：知名大模型公司百川智能已经成功收获了价值50亿元的A轮融资。由此，我们不禁感叹，大模型厂商们的“输血”和“续命”之战，还在激烈的上演着。

发表于 07-31 14:47 •777次阅读

百川智能发布一站式大模型商业化解决方案

近日，百川智能正式推出了一站式大模型商业化解决方案，旨在为企业提供更加全面、高效的大模型应用服务。该解决方案以1+3产品矩阵为核心，包括全链路优质通用训练数据、Baichuan4-Tu

发表于 11-01 18:01 •1076次阅读

百川智能发布Baichuan4-Finance金融大模型

近日，百川智能正式推出了其全链路领域增强的金融大模型——Baichuan4-Finance。这一创新产品的发布，标志着百川智能在金融

发表于 12-25 10:11 •413次阅读

百川智能发布全场景深度思考模型Baichuan-M1-preview

1月24日，百川智能正式发布了全场景深度思考模型Baichuan-M1-preview。 Baichuan-M1-preview同时具备语言、视觉和搜索三大领域推理能力的

发表于 01-24 14:40 •870次阅读

百川智能发布全场景深度思考模型Baichuan-M1-preview

近日，百川智能正式发布了国内首个全场景深度思考模型——Baichuan-M1-preview。这一创新成果标志着我国在人工智能领域取得了重要突破，特别是在语言、视觉和

发表于 02-05 13:51 •442次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

搜索出生的百川智能大模型RAG爬坑之路总结

评论

白海科技与百川智能顺势而为、携手共进，助力领域大模型应用快速落地

百川ESD产品简介 2017版

海基新能源再获百川股份资金加持

百川的大模型KnowHow介绍

百川智能发布Baichuan2 Turbo系列API，或将替代行业大模型

百川智能发布超千亿大模型Baichuan 3

数势联动百川，发布首批大模型联合解决方案，推动中国大模型价值落地

百川智能与北京大学将共建通用人工智能联合实验室

百川智能发布Baichuan 4大模型及首款AI助手“百小应”

亚马逊云科技接入百川智能和零一万物基础模型

大模型厂商“输血”不断，百川智能完成50亿元A轮融资！

百川智能发布一站式大模型商业化解决方案

百川智能发布Baichuan4-Finance金融大模型

百川智能发布全场景深度思考模型Baichuan-M1-preview

百川智能发布全场景深度思考模型Baichuan-M1-preview