ChatGPT的技术体系-电子发烧友网

ChatGPT的技术体系

0.参考资料

RLHF论文：Training language models to follow instructions with human feedback（https://arxiv.org/pdf/2203.02155.pdf）

摘要上下文中的 RLHF：Learning to summarize from Human Feedback （https://arxiv.org/pdf/2009.01325.pdf）

PPO论文：Proximal Policy Optimization Algorithms（https://arxiv.org/pdf/1707.06347.pdf）

Deep reinforcement learning from human preferences （https://arxiv.org/abs/1706.03741）

1. 引言

1.1 ChatGPT的介绍

作为一个 AI Chatbot，ChatGPT 是当前比较强大的自然语言处理模型之一，它基于 Google 的 T5 模型进行了改进，同时加入了许多自然语言处理的技术，使得它可以与人类进行自然的、连贯的对话。ChatGPT 使用了 GPT（Generative Pre-training Transformer）架构，它是一种基于 Transformer 的预训练语言模型。GPT 的主要思想是将大量的语料库输入到模型中进行训练，使得模型能够理解和学习语言的语法、语义等信息，从而生成自然、连贯的文本。与其他 Chatbot 相比，ChatGPT 的优势在于它可以进行上下文感知型的对话，即它可以记住上下文信息，而不是简单地匹配预先定义的规则或模式。此外，ChatGPT 还可以对文本进行生成和理解，支持多种对话场景和话题，包括闲聊、知识问答、天气查询、新闻阅读等等。

尽管 ChatGPT 在自然语言处理领域已经取得了很好的表现，但它仍然存在一些局限性，例如对于一些复杂的、领域特定的问题，它可能无法给出正确的答案，需要通过人类干预来解决。因此，在使用 ChatGPT 进行对话时，我们仍需要谨慎对待，尽可能提供明确、简洁、准确的问题，以获得更好的对话体验。

1.2 ChatGPT的训练模式

ChatGPT 的训练模式是基于大规模文本数据集的监督学习和自我监督学习，这些数据集包括了各种类型的文本，例如新闻文章、博客、社交媒体、百科全书、小说等等。ChatGPT 通过这些数据集进行预训练，然后在特定任务的数据集上进行微调。

对于 Reinforcement Learning from Human Feedback 的训练方式，ChatGPT 通过与人类进行对话来进行模型训练。具体而言，它通过与人类进行对话，从而了解人类对话的语法、语义和上下文等方面的信息，并从中学习如何生成自然、连贯的文本。当 ChatGPT 生成回复时，人类可以对其进行反馈，例如“好的”、“不太好”等等，这些反馈将被用来调整模型参数，以提高 ChatGPT 的回复质量。Reinforcement Learning from Human Feedback 的训练方式，可以使 ChatGPT 更加智能，更好地模拟人类的思维方式。不过这种训练方式也存在一些问题，例如人类反馈的主观性和不确定性等，这些问题可能会影响模型的训练效果。因此，我们需要在使用 ChatGPT 进行对话时，谨慎对待反馈，尽可能提供明确、简洁、准确的反馈，以获得更好的对话体验。

1.3 RLHF的介绍

在过去的几年中，语言模型通过根据人类输入提示生成多样化且引人注目的文本显示出令人印象深刻的能力。然而，什么才是“好”文本本质上很难定义，因为它是主观的并且依赖于上下文。有许多应用程序，例如编写您需要创意的故事、应该真实的信息性文本片段，或者我们希望可执行的代码片段。编写一个损失函数来捕获这些属性似乎很棘手，而且大多数语言模型仍然使用简单的下一个loss function（例如交叉熵）进行训练。为了弥补损失本身的缺点，人们定义了旨在更好地捕捉人类偏好的指标，例如 BLEU 或 ROUGE。虽然比损失函数本身更适合衡量性能，但这些指标只是简单地将生成的文本与具有简单规则的引用进行比较，因此也有局限性。如果我们使用生成文本的人工反馈作为性能衡量标准，或者更进一步并使用该反馈作为损失来优化模型，那不是很好吗？这就是从人类反馈中强化学习（RLHF）的想法；使用强化学习的方法直接优化带有人类反馈的语言模型。RLHF 使语言模型能够开始将在一般文本数据语料库上训练的模型与复杂人类价值观的模型对齐。

在传统的强化学习中，智能的agent需要通过不断的试错来学习如何最大化奖励函数。但是，这种方法往往需要大量的训练时间和数据，同时也很难确保智能代理所学习到的策略是符合人类期望的。Deep Reinforcement Learning from Human Preferences 则采用了一种不同的方法，即通过人类偏好来指导智能代理的训练。具体而言，它要求人类评估一系列不同策略的优劣，然后将这些评估结果作为训练数据来训练智能代理的深度神经网络。这样，智能代理就可以在人类偏好的指导下，学习到更符合人类期望的策略。除了减少训练时间和提高智能代理的性能之外，Deep Reinforcement Learning from Human Preferences 还可以在许多现实场景中发挥作用，例如游戏设计、自动驾驶等。通过使用人类偏好来指导智能代理的训练，我们可以更好地满足人类需求，并创造出更加智能和人性化的技术应用

2. 方法介绍

方法总体上包括三个不同步骤：

监督调优模型：在一小部分已经标注好的数据上进行有监督的调优，让机器学习从一个给定的提示列表中生成输出，这个模型被称为 SFT 模型。

模拟人类偏好，让标注者们对大量 SFT 模型输出进行投票，这样就可以得到一个由比较数据组成的新数据集。然后用这个新数据集来训练一个新模型，叫做 RM 模型。

用 RM 模型进一步调优和改进 SFT 模型，用一种叫做 PPO 的方法得到新的策略模式。

第一步只需要进行一次，而第二步和第三步可以持续重复进行，以收集更多的比较数据来训练新的 RM 模型和更新策略模式。

2.1 监督调优模型

需要收集数据来训练有监督的策略模型。为了做到这一点，选定一些提示，让标注人员写出预期的回复。这个过程虽然缓慢和昂贵，但最终得到的是一个相对较小、高质量的数据集，可用于调优预训练的语言模型。选择了 GPT-3.5 系列中的预训练模型作为基线模型，而不是对原始 GPT-3 模型进行调优。

然而，由于此步骤的数据量有限，这个过程得到的 SFT 模型可能会输出一些不是用户想要的文本，通常也会出现不一致问题。为了解决这个问题，使用的策略是让标注者对 SFT 模型的不同输出进行排序以创建 RM 模型，而不是让标注者创建一个更大的精选数据集。

2.2 训练回报模型

在这一步中，我们的目标是学习一个目标函数，它可以直接从数据中学习，而不是仅仅从有限的训练数据中调整语言模型。这个目标函数的作用是为 SFT 模型生成的输出进行评分，以表示这些输出对人类来说有多可接受。它反映了人类标注者的偏好和共同准则。最终，这个过程可以得到一个系统，它可以模仿人类的偏好。包括以下步骤：

利用prompt 生成多个输出。

利用标注者对这些输出进行排序，获得一个更大质量更高的数据集。

把模型将 SFT 模型输出作为输入，并按优先顺序对它们进行排序。

2.3 使用 PPO 模型微调 SFT 模型

这一步的目标是通过强化学习来调整 SFT 模型。具体来说，使用了一个叫 PPO 的算法来训练一个叫做近端策略优化模型的调整模型，用于优化 SFT 模型。

PPO 是一种用于训练智能体的算法，可以不断地调整策略以提高效果。与其他算法不同的是，PPO 会限制策略的更改范围，以确保训练的稳定性。此外，PPO 还使用了一个价值函数来估计每个行动的价值，从而更加准确地进行调整。

在这一步中，PPO 模型使用 SFT 模型作为起点，RM 模型作为基础，为给定的输入生成回报。为了避免过度优化，SFT 模型会为每个 token 添加 KL 惩罚因子。

3. 性能评估

作为一个大型语言模型，ChatGPT的评估标准可以有多种。在训练ChatGPT时，通常会使用一些标准的自然语言处理评估指标来评估其性能，如困惑度（perplexity）、BLEU分数、ROUGE分数等。这些指标可以用来评估ChatGPT在生成文本时的流畅度、语义连贯性和表达能力等方面的表现。此外，ChatGPT也可以通过人类评估来评估其性能，例如进行用户调查或人类评分实验。这些方法可以提供更贴近实际使用场景的评估，以便更全面地评估ChatGPT在生成自然语言文本方面的表现。

主要借助以下三个标准进行评估：

帮助性：判断模型遵循用户指示以及推断指示的能力。

真实性：判断模型在封闭领域任务中有产生虚构事实的倾向。

无害性：标注者评估模型的输出是否适当、是否包含歧视性内容。

4. ChatGPT的前景

ChatGPT 在自然语言处理领域具有广泛的应用前景。它可以用于语言翻译、情感分析、问答系统、文本摘要、对话系统等多个任务，帮助人们更好地理解和处理自然语言。此外，ChatGPT 还可以应用于许多其他领域，例如自然语言生成、自动文本摘要、机器翻译、自动问答、语音识别等。它也可以用于推荐系统、智能客服、智能问答、知识图谱等领域。ChatGPT 的未来发展前景非常广阔，可以预见的是，随着技术的不断发展，它将在各个领域得到更广泛的应用和改进。同时，也需要关注和解决一些挑战，例如如何提高模型的效率和准确性，如何解决对话中的常识推理和知识不足等问题。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

模型

模型

+关注

关注
1

文章
3440

浏览量
49630
智能体

智能体

+关注

关注
1

文章
211

浏览量
10814
ChatGPT

ChatGPT

+关注

关注
29

文章
1580

浏览量
8443

原文标题：ChatGPT的技术体系

文章出处：【微信号：GiantPandaCV，微信公众号：GiantPandaCV】欢迎添加关注！文章转载请注明出处。

【国产FPGA+OMAPL138开发板体验】（原创）6.FPGA连接ChatGPT 4

，ChatGPT 4这样的模型需要大量的计算资源和优化技术，而FPGA只是其中的一部分： // 首先，我们需要在FPGA上创造一个超级智能网络精灵 module ChatGPT

发表于 02-14 21:58

在FPGA设计中是否可以应用ChatGPT生成想要的程序呢

当下AI人工智能崛起，很多开发领域都可看到ChatGPT的身影，FPGA设计中，是否也可以用ChatGPT辅助设计呢？

发表于 03-28 23:41

OpenAI 深夜抛出王炸 “ChatGPT- 4o”， “她” 来了

和情绪的选项实时视频捕捉，在与ChatGPT 交互时无需发送照片有能力在会议和视频通话中提供协助发布会为其潜在影响提供了清晰的愿景。随着企业驾驭不断变化的技术领域，拥抱ChatGPT-4o对于实现持续增长和创新至关重要。

发表于 05-27 15:43

让chatGPT帮我写硬件代码，是懂行的，好助手！#chatgpt #物联网开发 #python开发板

ChatGPT

苏州煜瑛微电子科技有限公司

发布于 :2023年02月17日 15:27:42

ChatGPT对话语音识别

ChatGPT

YS YYDS

发布于 :2023年05月30日 22:13:10

科技大厂竞逐AIGC，中国的ChatGPT在哪？

产业版ChatGPT--ChatJD。可见，大厂的态度十分鲜明：ChatGPT已经是既定的未来，这场新的科技竞技赛哨声响起，谁都不甘落于下风。从科技巨头，到行业龙头，中国企业竞逐AI赛道，AIGC（利用人工智能技术

发表于 03-03 14:28

chatGPT一种生产力的变革

推进。标准规范为AIGC生态构建了一个技术、内容、应用、服务和监管的全过程一体化标准体系，促进AIGC在合理、合规和合法的框架下进行良性发展。以美国为例，虽然美国在AIGC技术领域起步较早，且

发表于 04-25 16:04

不到1分钟开发一个GPT应用！各路大神疯狂整活，网友：ChatGPT就是新iPhone

的能力仍然是不可替代的。此外，ChatGPT等语言模型的应用也需要大量的数据和算力支持，以及专业的技术人员进行开发和维护。因此，虽然ChatGPT等语言模型在某些方面具有一定的优势，但它们并不能完全取代

发表于 11-19 12:06

ChatGPT实现原理

OpenAI发明的一种自然语言处理技术。它是一种预训练的深度学习模型，可以用来生成文本，识别语义，做文本分类等任务。 ChatGPT实现原理火爆的ChatGPT，得益于AIGC 背后的关键技

发表于 02-13 17:32 •11.6w次阅读

ChatGPT/GPT的原理 ChatGPT的技术架构

ChatGPT 是基于GPT-3.5（Generative Pre-trained Transformer 3.5）架构开发的对话AI模型，是InstructGPT 的兄弟模型。 ChatGPT很可能是OpenAI 在GPT-4 正式推出之前的演练，或用于收集大量对话数据

发表于 02-24 10:05 •1941次阅读

最全ChatGPT技术汇总

ChatGPT的强大能力是显而易见的，但对于人工智能领域不太熟悉的人，对这种黑盒的技术仍然会担忧或者不信任。恐惧通常来自于不了解，因此本文将为大家全面剖析ChatGPT的技术原理，尽量

发表于 03-22 10:06 •4105次阅读

ChatGPT应用实战

ChatGPT自发布之后一直大火至今，引起行业震动，我们也持续在跟进ChatGPT，体验其功能，了解其技术原理，并基于爬虫技术封装了ChatGPT

发表于 06-06 17:47 •5次下载

chatgpt是什么意思 ChatGPT背后的技术原理

　　今天我们为大家带来的文章，深入浅出地阐释了ChatGPT背后的技术原理，没有NLP或算法经验的小伙伴，也可以轻松理解ChatGPT是如何工作的。　　ChatGPT是一种机器学习自然

发表于 07-18 17:12 •0次下载

大模型LLM与ChatGPT的技术原理

在人工智能领域，大模型（Large Language Model, LLM）和ChatGPT等自然语言处理技术（Natural Language Processing, NLP）正逐步改变着人类

发表于 07-10 10:38 •1251次阅读

ChatGPT新增实时搜索与高级语音功能

在OpenAI的第八天技术分享直播中，ChatGPT的搜索功能迎来了重大更新。此次更新不仅丰富了ChatGPT的功能体系，更提升了其实用性和竞争力。新增的实时搜索功能，是此次更新的亮

发表于 12-17 14:08 •443次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

ChatGPT的技术体系

评论

【国产FPGA+OMAPL138开发板体验】（原创）6.FPGA连接ChatGPT 4

在FPGA设计中是否可以应用ChatGPT生成想要的程序呢

OpenAI 深夜抛出王炸 “ChatGPT- 4o”， “她” 来了

让chatGPT帮我写硬件代码，是懂行的，好助手！#chatgpt #物联网开发 #python开发板

ChatGPT对话语音识别

科技大厂竞逐AIGC，中国的ChatGPT在哪？

chatGPT一种生产力的变革

不到1分钟开发一个GPT应用！各路大神疯狂整活，网友：ChatGPT就是新iPhone

ChatGPT实现原理

ChatGPT/GPT的原理 ChatGPT的技术架构

最全ChatGPT技术汇总

ChatGPT应用实战

chatgpt是什么意思 ChatGPT背后的技术原理

大模型LLM与ChatGPT的技术原理

ChatGPT新增实时搜索与高级语音功能