超越GPT 3.5的小型语言模型案例概述

去年年底，OpenAI 向公众推出了 ChatGPT，一经发布，这项技术立即将 AI 驱动的聊天机器人推向了主流话语的中心，众多研究者并就其如何改变商业、教育等展开了一轮又一轮辩论。

随后，科技巨头们纷纷跟进投入科研团队，他们所谓的「生成式 AI」技术（可以制作对话文本、图形等的技术）也已准备就绪。

众所周知，ChatGPT 是在 GPT-3.5 系列模型的基础上微调而来的，我们看到很多研究也在紧随其后紧追慢赶，但是，与 ChatGPT 相比，他们的新研究效果到底有多好？近日，亚马逊发布的一篇论文《Multimodal Chain-of-Thought Reasoning in Language Models》中，他们提出了包含视觉特征的 Multimodal-CoT，该架构在参数量小于 10 亿的情况下，在 ScienceQA 基准测试中，比 GPT-3.5 高出 16 个百分点 (75.17%→91.68%)，甚至超过了许多人类。

这里简单介绍一下 ScienceQA 基准测试，它是首个标注详细解释的多模态科学问答数据集，由 UCLA 和艾伦人工智能研究院（AI2）提出，主要用于测试模型的多模态推理能力，有着非常丰富的领域多样性，涵盖了自然科学、语言科学和社会科学领域，对模型的逻辑推理能力提出了很高的要求。

论文地址：https://arxiv.org/abs/2302.00923

项目地址：https://github.com/amazon-science/mm-cot

下面我们来看看亚马逊的语言模型是如何超越 GPT-3.5 的。

包含视觉特征的 Multimodal-CoT

大型语言模型 (LLM) 在复杂推理任务上表现出色，离不开思维链 (CoT) 提示的助攻。然而，现有的 CoT 研究只关注语言模态。为了在多模态中触发 CoT 推理，一种可能的解决方案是通过融合视觉和语言特征来微调小型语言模型以执行 CoT 推理。

然而，根据已有观察，小模型往往比大模型更能频繁地胡编乱造，模型的这种行为通常被称为「幻觉（hallucination）」。此前谷歌的一项研究也表明（论文 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models ），基于 CoT 的提示只有在模型具有至少 1000 亿参数时才有用！

也就是说，CoT 提示不会对小型模型的性能产生积极影响，并且只有在与 ∼100B 参数的模型一起使用时才会产生性能提升。

然而，本文研究在小于 10 亿参数的情况下就产生了性能提升，是如何做到的呢？简单来讲，本文提出了包含视觉特征的 Multimodal-CoT，通过这一范式（Multimodal-CoT）来寻找多模态中的 CoT 推理。

Multimodal-CoT 将视觉特征结合在一个单独的训练框架中，以减少语言模型有产生幻觉推理模式倾向的影响。总体而言，该框架将推理过程分为两部分：基本原理生成（寻找原因）和答案推理（找出答案）。

Multimodal CoT 两阶段过程：使用文本（问题 + 上下文）和视觉特征来产生逻辑依据。

数据集

本文主要关注 ScienceQA 数据集，该数据集将图像和文本作为上下文的一部分，此外，该数据集还包含对答案的解释，以便可以对模型进行微调以生成 CoT 基本原理。此外，本文利用 DETR 模型生成视觉特征。

较小的 LM 在生成 CoT / 基本原理时容易产生幻觉，作者推测，如果有一个修改过的架构，模型可以利用 LM 生成的文本特征和图像模型生成的视觉特征，那么更有能力提出理由和回答问题。

架构

总的来说，我们需要一个可以生成文本特征和视觉特征并利用它们生成文本响应的模型。

又已知文本和视觉特征之间存在的某种交互，本质上是某种共同注意力机制，这有助于封装两种模态中存在的信息，这就让借鉴思路成为了可能。为了完成所有这些，作者选择了 T5 模型，它具有编码器 - 解码器架构，并且如上所述，DETR 模型用于生成视觉特征。

T5 模型的编码器负责生成文本特征，但 T5 模型的解码器并没有利用编码器产生的文本特征，而是使用作者提出的共同注意式交互层（co-attention-styled interaction layer）的输出。

拆解来看，假设 H_language 是 T5 编码器的输出。X_vision 是 DETR 的输出。第一步是确保视觉特征和文本特征具有相同的隐藏大小，以便我们可以使用注意力层。

注意：所有代码片段均来自论文的 GitHub：https://github.com/amazon-science/mm-cot/blob/main/model.py

self.image_dense = nn.Linear(self.patch_dim, config.d_model)

W_h 本质上是一个线性层，H_vision 对应最终的视觉特征。W_h 有助于更改视觉特征的大小以匹配文本特征的大小。

下面我们需要添加一个注意力层，以便视觉和文本特征可以相互交互。为此，作者使用单头注意力层，将 H_language 作为查询向量，将 H_vision 作为键和值向量。

self.mha_layer = torch.nn.MultiheadAttention(embed_dim=config.hidden_size,

                  kdim=config.hidden_size, vdim=config.hidden_size,
                  num_heads=1, batch_first=True)
image_att, _ = self.mha_layer(hidden_states, image_embedding, image_embedding)

现在我们有了包含来自文本和视觉特征的信息的嵌入。随后，作者利用门控融合来生成最终的一组特征，这些特征将被发送到解码器。门控融合有两个步骤：

获取一个介于 0 和 1 之间的分数向量，以确定每个注意力特征的重要性。

利用 score 融合 text 和 attention 特征。

W_I 和 W_v 本质上是两个线性层。

self.gate_dense = nn.Linear(2*config.hidden_size, config.hidden_size) 
self.sigmoid = nn.Sigmoid()


hidden_states = encoder_outputs[0]
merge = torch.cat([hidden_states, image_att], dim=-1)
gate = self.sigmoid(self.gate_dense(merge))
hidden_states = (1 - gate) * hidden_states + gate * image_att

最后，融合的特征被传递给解码器。

decoder_outputs = self.decoder( input_ids=decoder_input_ids, 
              attention_mask=decoder_attention_mask, 
              inputs_embeds=decoder_inputs_embeds, 
              past_key_values=past_key_values, 
              encoder_hidden_states=hidden_states,

这几乎就是作者所遵循的架构！但是，请记住有两个阶段。第一个阶段是产生基本原理 / CoT。第二阶段利用第一阶段产生的 CoT 来产生答案，如上图所示。

结果

作者使用 UnifiedQA 模型的权重作为 T5 模型的初始化点，并在 ScienceQA 数据集上对其进行微调。他们观察到他们的 Multimodal CoT 方法优于所有以前的基准，包括 GPT-3.5。

有趣的地方在于，即使只有 2.23 亿个参数的基本模型也优于 GPT-3.5 和其他 Visual QA 模型！这突出了拥有多模态架构的力量。

作者还展示了他们的两阶段方法优于单阶段方法。

结论

这篇论文带来的最大收获是多模态特征在解决具有视觉和文本特征的问题时是多么强大。

作者展示了利用视觉特征，即使是小型语言模型（LM）也可以产生有意义的思维链 / 推理，而幻觉要少得多，这揭示了视觉模型在发展基于思维链的学习技术中可以发挥的作用。

从实验中，我们看到以几百万个参数为代价添加视觉特征的方式，比将纯文本模型扩展到数十亿个参数能带来更大的价值。

参考内容：

https://pub.towardsai.net/paper-review-multimodal-chain-of-thought-reasoning-a550f8de693c

编辑：黄飞

阅读全文

GPT(14803) GPT(14803)
ChatGPT(3870) ChatGPT(3870)

ChatGPT如何使用RLHF来克服GPT-3存在的问题

ChatGPT 是 OpenAI 发布的最新语言模型，比其前身 GPT-3 有显著提升。与许多大型语言模型类似，ChatGPT 能以不同样式、不同目的生成文本，并且在准确度、叙述细节和上下文连贯性上具有更优的表现。

2023-03-10 09:41:50

629

如何计算transformer模型的参数量

参数规模大，训练数据规模大。以GPT3为例，GPT3的参数量为1750亿，训练数据量达到了570GB。进而，训练大规模语言模型面临两个主要挑战：显存效率和计算效率。现在业界的大语言模型都是

2023-07-10 09:13:57

5737

高性能计算与多模态处理的探索之旅：英伟达GH200性能优化与GPT-4V的算力加速未来

随着人工智能技术的不断发展，多模态大模型成为越来越重要的发展趋势。GPT-4V（GPT-4 近日开放的视觉模态）大型多模型（LMMs）扩展大型语言模型（LLMs）以增强多感知技能（如视觉理解等）从而

2023-10-19 10:45:45

982

概述C语言的特点

的资源，得到更多的信息，对软件工具的发展起到了更大的促进作用。1、嵌入式Linux C语言开发概述C语言的特点：C语言具有出色的可移植性，能够在不同体系结构的软硬件平台上运行。C语言具有简洁...

2021-11-04 07:21:14

C语言概述

上海电机学院第1章_C语言概述第一章本章要点C语言的特点C程序的结构在计算机上运行C程序的方法主要内容 1.1 计算机与程序、程序设计语言1.2 Ｃ语言出现的历史背景 1.3 Ｃ语言的特点 1.4

2021-09-01 06:41:39

ChatGPT系统开发AI人功智能方案

） model：使用那个模型，目前免费版最高的是gpt-3.5-turbo模型 2.相应参数示例 {\"msgtype\": \"text\",\"

2023-05-18 10:16:50

【飞腾派4G版免费试用】仙女姐姐的嵌入式实验室之五~LLaMA.cpp及3B“小模型”OpenBuddy-StableLM-3B

、计算机时代、互联网时代，而这个时代叫做 ——人工智能时代想象 GPT 是一位语言天才，她擅长制作一种特殊的串联词语游戏。这个游戏的目标是在给定的起始词汇后，找到一系列相关的词汇，每个词汇之间都有

2023-12-22 10:18:11

函数关系图模型分析概述

文章目录概述函数关系图模型分析资源层->设备层设备层->驱动层总结概述今天看了《韦东山升级版全系列嵌入式视频之总线设备驱动模型》这一节的视频，看完之后感觉有一种似懂非懂的感觉，因此我

2021-12-23 06:27:26

自然语言处理的语言模型

自然语言处理——53 语言模型（数据平滑）

2020-04-16 11:11:25

请问怎样去设计一种基于MATLAB的小型电力系统模型？

Matlab PSB是什么？Matlab PSB主要由哪几个子模块库组成？怎样去设计一种基于MATLAB的小型电力系统模型？如何对基于MATLAB的小型电力系统模型进行仿真？仿真结果怎样？

2021-07-11 07:11:42

Ｃ语言概述

Ｃ语言概述本章主要介绍C语言程序的结构和书写规则，以及Turbo C V2.0的基本操作。1.1  C语言的发展简史和特点1.2  Ｃ语言程序的结构与书写规则1.3  C语言的语句和关键字1.4  Turbo C V2.0的基本操作

2009-03-10 15:04:28

VHDL语言概述

VHDL语言概述:本章主要内容：􀁺硬件描述语言（HDL）􀁺VHDL语言的特点􀁺VHDL语言的开发流程 1.1 1.1 硬件描述语言（硬件描述语言（HDL HDL）􀂾H

2009-08-09 23:13:20

BASIC语言概述及特点

BASIC语言概述及

2010-08-11 18:09:52

4373

全球最强大模型一夜易主,GPT-4被全面超越

模型行业资讯

北京中科同志科技股份有限公司发布于 2024-03-05 09:23:44

GPT2.0究竟是做什么的？有哪些优势和不足？未来发展趋势如何？

在谈GPT 2.0之前，先回顾下它哥GPT 1.0，这个之前我在介绍Bert模型的时候介绍过，过程参考上图，简述如下：GPT 1.0采取预训练+FineTuning两个阶段，它采取

2019-02-18 08:55:25

7474

专家解读GPT 2.0 VS BERT!GPT 2.0到底做了什么

2019-02-18 09:56:20

9668

OpenAI发布了一个“逆天”的AI模型——GPT2整个模型包含15亿个参数

能有这样出色的表现，不是没有原因的，GPT-2各种特定领域的语言建模任务中都取得了很好的分数。作为一个没有经过任何领域数据专门训练的模型，它的表现，比那些专为特定领域数据集（例如维基百科，新闻，书籍）上训练的模型。有图有真相：

2019-03-07 14:45:20

7921

OpenAI发布一款令人印象深刻的语言模型GPT-2

今年2月，OpenAI发布了一款令人印象深刻的语言模型GPT-2，它可以写短篇小说、诗歌，甚至轻松辨别《哈利波特》和《指环王》中的角色。最近，一位加拿大工程师用它创建了一个向公众开放的文本生成器，只需提供一个句子，机器便能自动生成一则完整的新闻、故事、歌词、诗歌、食谱和代码等文本。

2019-05-17 18:48:17

4127

布朗大学90后研究生：我们复现了15亿参数GPT-2模型，你也行！

本模型的实现基于Grover模型，并修改其代码库以匹配GPT-2的语言建模训练目标。由于他们的模型是在类似的大型语料库上进行训练的，因此大部分代码和超参数都可以重复使用。本模型没有从Grover中大幅改变超参数。

2019-09-01 07:11:00

3231

OpenAI宣布，发布了7.74亿参数GPT-2语言模型

就在本周，OpenAI宣布，发布了7.74亿参数GPT-2语言模型，15.58亿的完整模型也有望于几个月内发布，并将GPT-2这6个月的进展情况在博客上和大家做了介绍，本文将为大家梳理。

2019-09-01 09:10:44

2704

英伟达1小时成功训练BERT，83亿参数打造史上最大语言模型

最近的两篇论文，BERT和GPT-2，展示了大规模语言建模的好处。这两篇论文都利用了计算机和可用文本语料库的进步，在自然语言理解、建模和生成方面显著超越了当前的最优水平。

2019-09-13 17:12:00

3398

最大人工智能算法模型GPT-3问世

OpenAI的一组研究人员最近发表了一篇论文，描述了GPT-3，这是一种具有1，750亿个参数的自然语言深度学习模型，比以前的版本GPT-2高100倍。该模型经过了将近0.5万亿个单词的预训练，并且在不进行微调的情况下，可以在多个NLP基准上达到最先进的性能。

2020-07-08 17:36:55

2131

史上最大AI模型GPT-3你要开始收费了接下去可能用不起它了

还记得前不久被捧上天的GPT-3么？那个只有被邀请的用户才能测试使用的，号称史上最大AI模型。 OpenAI的1,750亿参数语言模型GPT-3在6月份发布的时候就备受关注，当时，猿妹还和大家

2020-09-25 11:38:31

2696

预训练语言模型设计的理论化认识

在这篇文章中，我会介绍一篇最新的预训练语言模型的论文，出自MASS的同一作者。这篇文章的亮点是：将两种经典的预训练语言模型（MaskedLanguage Model, Permuted

2020-11-02 15:09:36

2334

AI下个大突破之前奏：研究人员正在教大型语言模型

GPT-3 自动生成的语言竟然能和人类差不多，堪称奇迹。但在很大程度上，GPT-3 也不过是个噱头。判断方法也很简单。若提问 GPT-3：羊是什么颜色？它会说白色，还会说黑色，频次一样

2022-07-10 15:25:08

1366

和AI聊天，自然语言模型 GPT-2可能会推出个人信息

Stroudsburg……” 自然语言模型 GPT-2就像是收到了某种暗号，立刻“送出”一套个人信息：姓名、电话号码，还有地址、邮箱和传真（部分信息已打码）。这可不是GPT-2瞎编的，而是真实存在的个人信息！这些个人信息，全部来自于网上。原来是因为GPT-2靠网上扒取的数据来训练。本以为

2021-01-02 09:22:00

2138

史上最大AI模型GPT-3强势霸榜Github

最近，GPT-3火了！相信你已经在网上看到各种有关GPT-3的演示。这个由OpenAI创建的大型机器学习模型，它不仅可以自己写论文，还会写诗歌，就连你写的代码都能帮你写了。下面还是先让你看看

2021-01-06 17:06:16

2148

如何使用较小的语言模型，并用少量样本来微调语言模型的权重

景中落地，难度着实不小。现在，针对这个问题，普林斯顿的陈丹琦、高天宇师徒和MIT博士生Adam Fisch在最新论文中提出，使用较小的语言模型，并用少量样本来微调语言模型的权重。并且，实验证明，这一

2021-01-07 14:27:36

1850

谷歌训练开发一个万亿参数的AI语言模型

参数是机器学习算法的关键。它们是从历史训练数据中学到的模型的一部分。一般来说，在语言领域，参数的数量和复杂性之间的相关性非常好。例如，OpenAI的GPT-3是有史以来训练了1750亿个参数的最大语言模型之一，它可以进行原始类比、生成配方，甚至完成基本代码。

2021-01-18 16:19:54

1630

谷歌推出1.6万亿参数的人工智能语言模型，打破GPT-3记录

古谚道：“熟读唐诗三百首，不会作诗也会吟。” 这句话放在目前的人工智能语言模型中也非常适用。此前，OpenAI 的研究人员开发出 “GPT-3”，这是一个由 1750 亿个参数组成的 AI

2021-01-18 17:16:07

2111

微软视觉语言模型有显著超越人类的表现

最近开发了一种新的图像编码对象属性检测模型，称为VinVL（Visual features in Vision-Language），有着显著超越人类的表现。

2021-01-19 14:32:09

1476

谷歌开发出一个新的语言模型，包含了超过1．6万亿个参数

的AI模型GPT-3。GPT-3就是在570 GB的文本数据上训练的语言模型，因此，就训练数据和生成能力而言，GPT-3截至2020年都是最庞大的公开发布的语言模型。此外，OpenAI的GPT-3一反之前死守基础研究的思路，将 GPT-3 做成了一个服务，提供可以调用的 OpenAI API，并且

2021-01-19 15:29:31

1719

GPT系列的“高仿” 最大可达GPT-3大小自主训练

版GPT-3的DALL·E模型刚出，来自康奈尔大学的 Philip Wang就开始复现了。但此前，还没人能复现出GPT-3大小的大语言模型来。不过，已经有人开始尝试了。这是一个名为 GPT-Neo的项目

2021-02-13 09:24:00

2646

谷歌开发出超过一万亿参数的语言模型，秒杀GPT-3

继GPT-3问世仅仅不到一年的时间，Google重磅推出Switch Transformer，直接将参数量从GPT-3的1750亿拉高到1.6万亿，并比之前最大的、由google开发的语言模型

2021-01-27 16:26:56

1857

Eleuther AI：已经开源了复现版GPT-3的模型参数

GPT3终于开源！不过，不是官方开的（别打我 Eleuther AI推出的名为GPT-Neo的开源项目，于晨4点于twitter正式宣布：已经开源了复现版GPT-3的模型参数（1.3B和2.7B级别

2021-03-31 17:46:28

2871

超大Transformer语言模型的分布式训练框架

大模型的预训练计算。大模型是大势所趋近年来，NLP 模型的发展十分迅速，模型的大小每年以1-2个数量级的速度在提升，背后的推动力当然是大模型可以带来更强大更精准的语言语义理解和推理能力。截止到去年，OpenAI发布的GPT-3模型达到了175B的大小，相比2018年94M的ELMo模型，三年的时间整整增大了

2021-10-11 16:46:05

2226

基于OpenAI的GPT-2的语言模型ProtGPT2可生成新的蛋白质序列

人类语言与蛋白质有很多共同点，至少在计算建模方面。这使得研究团队将自然语言处理（NLP）的新方法应用于蛋白质设计。其中，德国Bayreuth大学Birte Höcker的蛋白质设计实验室，描述了基于OpenAI的GPT-2的语言模型ProtGPT2，以基于自然序列的原理生成新的蛋白质序列。

2022-09-08 16:24:23

1407

应用语言模型技术创作人工智能音乐

诸如 NVIDIA Megatron LM 和 OpenAI GPT-2 和 GPT-3 等语言模型已被用于提高人类生产力和创造力。具体而言，这些模型已被用作编写、编程和绘制的强大工具。相同的架构

2022-10-11 09:32:28

683

介绍大模型高效训练所需要的主要技术

随着BERT、GPT等预训练模型取得成功，预训-微调范式已经被运用在自然语言处理、计算机视觉、多模态语言模型等多种场景，越来越多的预训练模型取得了优异的效果。

2022-11-08 09:57:19

3714

FasterTransformer GPT介绍

GPT 是 Decooding 模型的一种变体，没有 Encoder 模块，没有交叉多头注意力模块，使用 GeLU 作为激活函数。

2023-02-07 09:32:25

1985

【AI简报第20230217期】超越GPT 3.5的小模型来了！AI网恋诈骗时代开启

嵌入式 AI AI 简报 20230217 期 1. 超越GPT 3.5的小模型来了！原文：https://mp.weixin.qq.com/s/gv_FJD0aIpDNbky54unj2Q 论文

2023-02-18 04:05:07

1795

ChatGPT引领AI技术变革，带动服务器需求增量

从 2018 年 OpenAI 开发出 GPT-1 开始，GPT 模型的智能化程度不断提升，ChatGPT 是从 GPT3.5 系列中的模型进行微调而诞生的，此前 OpenAI 还设计了GPT

2023-02-23 10:50:56

1861

ChatGPT/GPT的原理 ChatGPT的技术架构

ChatGPT 是基于GPT-3.5（Generative Pre-trained Transformer 3.5）架构开发的对话AI模型，是InstructGPT 的兄弟模型。 ChatGPT很可能是OpenAI 在GPT-4 正式推出之前的演练，或用于收集大量对话数据。

2023-02-24 10:05:13

1421

GPT/GPT-2/GPT-3/InstructGPT进化之路

在预训练阶段，GPT 选择 transformer 的 decoder 部分作为模型的主要模块，transformer 是 2017年 google 提出的一种特征抽取模型，GPT 以多层 transformer 堆叠的方式构成了整个预训练模型结构。

2023-03-03 11:14:37

3018

详细介绍ChatGPT技术原理和架构

模型选择：ChatGPT 的开发人员选择了 GPT-3.5 系列中的预训练模型，而不是对原始 GPT-3 模型进行调优。使用的基线模型是最新版的 text-davinci-003（通过对程序代码调优的 GPT-3 模型）。

2023-03-08 09:28:00

352

ChatGPT升级　OpenAI史上最强大模型GPT-4发布

-4 是 Generative Pre-trained Transformer 4 的缩写，即生成型预训练变换模型 4，是一个多模态大型语言模型。根据OpenAI的描述，GPT-4 支持接受图像并理解图像

2023-03-15 18:15:58

2363

GPT-4多模态模型发布，对ChatGPT的升级和断崖式领先

而且 GPT-4 是多模态的，同时支持文本和图像输入功能。此外，GPT-4 比以前的版本“更大”，这意味着其已经在更多的数据上进行了训练，并且在模型文件中有更多的权重，这也使得它的运行成本更高。

2023-03-17 10:31:07

2930

GTC 2023主题直播：NVIDIA Nemo构建定制的语言文本转文本

NVIDIA Nemo用于构建定制的语言文本转文本，客户可以引入自己的模型，或从Nemo涵盖了GPT-8、GPT-43到GPT-530等数十亿参数的从创建专有模型到运营，NVIDIA AI专家将全程与您合作。

2023-03-22 11:22:25

497

浅谈ChatGPT的最新“升级版本”——GPT4模型

北京时间3月15日凌晨，OpenAI发布了ChatGPT的最新“升级版本”——GPT4模型，OpenAI在官网表示，GPT4是一个能接受图像和文本输入，并输出文本的多模态模型，是OpenAI在扩展

2023-03-22 22:26:18

2511

各种大语言模型是彻底被解封了

基础 LLM 基本信息表，GPT-style 表示 decoder-only 的自回归语言模型，T5-style 表示 encoder-decoder 的语言模型，GLM-style 表示 GLM 特殊的模型结构，Multi-task 是指 ERNIE 3.0 的模型结构

2023-04-20 11:25:44

1071

AI大语言模型的原理、演进及算力测算专题报告

GPT是基于Transformer架构的大语言模型，近年迭代演进迅速。构建语言模型是自然语言处理中最基本和最重要的任务之一。GPT是基于Transformer架构衍生出的生成式预训练的单向语言模型，通过对大量语料数据进行无监督学习

2023-04-28 10:01:59

585

华硕发布“福尔摩斯大模型”，提供多样式AI解决方案

大型语言模型“福尔摩斯大模型”。这款模型以1760亿个参数打造，能够和OpenAI的GPT-3.5模型相媲美。而实际上，华硕的AI工程团队早在2018年就与英伟达合作，参与杉二、三、四号超级计算机开发工作，并于2021年投资成立台智云，也成为亚洲地区唯一提供商用AI超算

2023-05-23 11:32:04

442

可商用多语言聊天LLM开源，性能直逼GPT-4

在针对英语、中文、法语、阿拉伯语、西班牙语、印度语这 6 种语言的评测中，GPT-4 的胜率为 54.75%，BLOOMChat 的胜率为 45.25%，稍弱于 GPT-4。但与其它 4 种主流的开源聊天 LLM 相比

2023-05-25 11:14:40

681

State of GPT：大神Andrej揭秘OpenAI大模型原理和训练过程

你可以看到，Llama 的参数数量大概是 650 亿。现在，尽管与 GPT3 的 1750 亿个参数相比，Llama 只有 65 个 B 参数，但 Llama 是一个明显更强大的模型，直观地说，这是

2023-05-30 14:34:56

642

华为版ChatGPT将7月发布或已接近GPT-3.5

华为版ChatGPT将7月发布或已接近GPT-3.5 在AI赛道华为即将披露大动作。市场传言华为ChatGPT将在7月份正式发布，具体发布时间或者在7月7日的发布会上，也就是7月7日的华为云开发者

2023-06-06 12:47:02

2350

浅析AI大型语言模型研究的发展历程

大型语言模型研究的发展有三条技术路线：Bert 模式、GPT 模式、混合模式。其中国内大多采用混合模式，多数主流大型语言模型走的是 GPT 技术路线，直到 2022 年底在 GPT-3.5 的基础上产生了 ChatGPT。

2023-06-09 12:34:53

3162

GPT总设计师：大型语言模型的未来

他预计，深度学习和大型语言模型会继续发展：这个领域的未来可能会有一小部分重大突破，加之许多细微改进，所有这些都将融入到一个庞大而复杂的工程体系。他还给出了一些有趣、可执行的思想实验。

2023-06-12 16:38:48

262

一文读懂大语言模型

本文旨在让没有计算机科学背景的人对ChatGPT和类似的人工智能系统(GPT-3、GPT-4、Bing Chat、Bard等)的工作原理有一些了解。ChatGPT是一种基于*大语言模型(Large Language Model)* 的对话式AI聊天机器人。

2023-06-16 09:59:04

1036

GPT-4处于一个什么样的编码地位

面试环节第一步——回答问题，写软件需求面试环节第二步——上手写代码测试用例比 ChatGPT 背后 GPT-3.5 更为强大的模型 GPT-4，已正式对外发布。在 OpenAI 官方

2023-06-16 10:42:22

392

DeepSpeed结合Megatron-LM训练GPT2模型笔记

本文基于DeepSpeedExamples仓库中给出的Megatron相关例子探索一下训练GPT2模型的流程。主要包含3个部分，第一个部分是基于原始的Megatron如何训练GPT2模型，第二个部分

2023-06-19 14:45:13

1717

GPT-4已经会自己设计芯片了吗？

穿梭机上成功流片（tapeout）。这项成就，堪称史无前例。这意味着，在大语言模型的帮助下，芯片设计行

2023-06-20 11:51:12

548

AI大模型网络如何搭建

都知道，AIGC大模型的入局门槛是很高的。玩AI的三大必备要素——算力、算法和数据，每一个都意味着巨大的投入。以算力为例。ChatGPT的技术底座，是基于微调后的GPT3.5大模型，参数量多达1750亿个。为了完成这个大模型的训练，微软专门建设了一个AI超算系统，

2023-06-27 11:28:42

1784

态势感知与GPT

　GPT是一种基于Transformer的预训练语言模型，可以用于自然语言处理中的各种任务。在态势感知中，GPT可以用来对文本进行分类和情感分析，从而帮助用户了解当前的舆情和社会热点。例如，在某个

2023-07-07 11:23:29

323

微软韦青：“大语言模型”之于人类，新启蒙时代的思考

日前，由微软和湛庐合办的以 GPT 将如何改变世界为主题的新书共读会上，有关以 GPT 为代表的大语言模型提升社会生产力，打破传统人机交互模式的话题引起了与会者的广泛思考。作为一种重要的推动力

2023-07-12 00:10:01

382

语言模型的发展历程基于神经网络的语言模型解析

简单来说，语言模型能够以某种方式生成文本。它的应用十分广泛，例如，可以用语言模型进行情感分析、标记有害内容、回答问题、概述文档等等。但理论上，语言模型的潜力远超以上常见任务。

2023-07-14 11:45:40

454

警惕邪恶版GPT！

WormGPT 基于 2021 年开源的 LLM GPT-J 模型开发，也是对话聊天机器人，可以处理人类自然语言提出的要求，并输出所需的任何内容，并且不承担相应的法律义务。

2023-07-29 16:35:29

1184

GPT-3.5 vs GPT-4：ChatGPT Plus 值得订阅费吗国内怎么付费？

每月20美元）更智能、更准确。 OpenAI将GPT-4描述为“比其前身GPT-3.5先进10倍”。自从OpenAI的大语言模型(LLM)GPT-4发布以来，我一直在使用它的最新版本。通过

2023-08-02 12:09:35

2712

OpenAI已为GPT-5申请商标，GPT-5要来了？

OpenAI 此前曾在前几代模型（例如 GPT-4 和 GPT-3.5）的商标申请中，使用过同样的“用于使用语言模型的可下载计算机软件”这一描述。但很遗憾，最新申请文件中透露的唯一关键细节就只有“GPT-5”字样，并不代表 OpenAI 会在今年年内发布新版本。

2023-08-02 15:51:36

448

chatGPT和GPT4有什么区别

chatGPT和GPT4有什么区别 GPT（Generative Pre-trained Transformer）系列模型由OpenAI公司开发，是一组用于自然语言处理（NLP）任务的人工智能模型

2023-08-09 15:18:56

1603

GPT-4没有推理能力吗？

今年三月，OpenAI 重磅发布了 GPT-4 大模型，带来了比 ChatGPT 背后 GPT-3.5 更强的推理、计算、逻辑能力，也引发了全民使用的热潮。在各行各领域研究人员、开发者、设计师的使用过程中，「GPT-4 是最为领先的大模型」似乎已成为了公认的结果。

2023-08-11 14:20:37

634

OpenAI开放大模型微调功能　GPT-3.5可以打造专属ChatGPT

OpenAI开放大模型微调功能 GPT-3.5可以打造专属ChatGPT OpenAI开放大模型微调功能，这意味着GPT-3.5 Turbo支持自定义微调；可以打造出专属自己的ChatGPT。同时

2023-08-23 19:34:02

703

华为盘古大模型和GPT的区别

华为盘古大模型和GPT的区别随着人工智能技术的不断进步，机器学习领域的研究也越来越深入。在这其中，以自然语言处理技术为主要研究方向的人工智能算法受到了广泛关注。在这个领域中，华为盘古大模型

2023-08-30 17:38:05

3081

盘古大模型和GPT3有哪些不同

几个方面来探讨盘古大模型和GPT-3的不同之处。一、概念定义差异盘古大模型，简称PGM，是中国科学院计算机网络信息中心所研发的一种大规模中文自然语言处理预训练模型，它是以一种全新的方式来进行中文自然语言处理的。它可以像英文NLP预训练模型

2023-08-30 18:28:32

1201

FPGA加速器支撑ChatGPT类大语言模型创新

，大型语言模型（Large Language Models，LLM）彻底改变了自然语言处理领域，使机器能够生成类似人类的文本并进行有意义的对话。这些模型，例如OpenAI的GPT，拥有惊人的语言理解和生成能力。它们可以被用于广泛的自然语言处理任务，包括文本生成、翻译、自动摘要、情绪分析等

2023-09-04 16:55:25

345

腾讯发布混元大语言模型

腾讯发布混元大语言模型腾讯全球数字生态大会上腾讯正式发布了混元大语言模型，参数规模超千亿，预训练语料超2万亿tokens。作为腾讯自研的通用大语言模型，混元大语言模型具有中文创作能力、任务执行

2023-09-07 10:23:54

815

一文详解GPT tokenizer 的工作原理

语言大模型（如 GPT-3/4、LLaMA 和 PaLM）使用 token 作为基本单位进行工作。它们接受文本作为输入，将其转换为 token（整数），然后预测接下来应该出现哪些 token。通过操作这些 token，可以更好地了解它们在语言模型内部的工作原理。

2023-09-15 11:13:04

383

大语言模型（LLM）预训练数据集调研分析

大语言模型涉及数据的通常有有多个阶段（Aligning language models to follow instructions [1] ）：pre-train、sft（supervised

2023-09-19 10:00:06

506

OpenAI最新大模型曝光！剑指多模态，GPT-4之后最大升级！

目前为止，OpenAI还没有对爆料中的传闻做出回应，但此前发布过多模态模型测试。CEO奥特曼在回应有关GPT-5的传闻时，也暗示过GPT-4“正在增强”。

2023-09-20 17:34:41

799

实现移动版GPT有哪些方法？

管至少一个子集的大型语言模型（LLM）是有实际原因的，尤其是在大大改进自然语言处理方面。与此同时，这些模型通常与大型云平台相关联，其庞大的规模给任何将 LLM 移至边缘设备的尝试带来了挑战。向移动 GPT 过渡需要一些重大创新。

2023-09-21 11:31:46

177

ChatGPT Plus怎么支付 GPT4得订阅吗？

，GPT-3.5 和 GPT-4 模型的答案是否明显不同？OpenAI 的网站上写道：“GPT-4 擅长于需要高级推理

2023-10-10 12:16:28

1324

阿里云发布通义千问2.0，性能超GPT-3.5

在过去的6个月里，通义千问2.0与4月份推出的1.0版本相比，在复杂的命令理解、文学创作、通用数学、知识记忆、幻觉抵抗力等方面有了很大的提高。目前，通义千问的千托综合性能已经超过gpt-3.5，正在快速赶上gpt-4。

2023-11-01 09:57:49

390

ChatGPT重磅更新　OpenAI发布GPT-4 Turbo模型价格大降2/3

ChatGPT重磅更新 OpenAI发布GPT-4 Turbo模型价格大降2/3 目前OpenAI算是全球大模型的引领者，一举一动都牵动着大家的关注，现在ChatGPT迎来重磅更新。 OpenAI

2023-11-07 18:20:03

2076

大语言模型简介：基于大语言模型模型全家桶Amazon Bedrock

本文基于亚马逊云科技推出的大语言模型与生成式AI的全家桶：Bedrock对大语言模型进行介绍。大语言模型指的是具有数十亿参数（B+）的预训练语言模型（例如：GPT-3, Bloom, LLaMA)。这种模型可以用于各种自然语言处理任务，如文本生成、机器翻译和自然语言理解等。

2023-12-04 15:51:46

356

大规模语言模型的基本概念、发展历程和构建流程

文本进行训练。自 2018 年以来，Google、OpenAI、Meta、百度、华为等公司和研究机构都相继发布了包括 BERT，GPT 等在内多种模型，并在几乎所有自然语言处理任务中都表现出色。2019

2023-12-07 11:40:43

1141

周鸿祎：长期看谷歌赶上GPT-4绰绰有余

从长远来看，谷歌可以超越gpt-4。毕竟他是搜索出身，有数据优势，有大量的知识积累和沉淀。如果将搜索和大模型相结合，大模型将变得更实时、更全面、更准确，搜索本身也更智能。

2023-12-11 09:44:14

308

ChatGPT plus有什么功能？OpenAI 发布 GPT-4 Turbo 目前我们所知道的功能

截止、扩展的上下文窗口、预算友好的定价等。什么是GPT-4 Turbo？ GPT-4 Turbo是现有GPT-4大语言模型的更新。它带来了一些改进，

2023-12-13 09:19:37

460

Mistral中杯代码能力完胜GPT-4，成本暴降2/3

这个开源模型尽管尺寸不大，小到足以在一台内存100GB以上的电脑上运行，然而在某些基准测试中却能和GPT-3.5打平，因此迅速在开发者中赢得了一片称赞。

2023-12-18 16:55:08

350

大语言模型概述

在科技飞速发展的当今时代，人工智能技术成为社会进步的关键推动力之一。在广泛关注的人工智能领域中，大语言模型以其引人注目的特性备受瞩目。大语言模型的定义及发展历史大语言模型是一类基于深度学习技术

2023-12-21 17:53:59

555

大语言模型使用指南

在信息爆炸的时代，我们渴望更智能、更高效的语言处理工具。GPT-3.5等大语言模型的崛起为我们提供了前所未有的机会。这不仅是技术的进步，更是人与机器共舞的一幕。本篇文章将带你走进这个奇妙的语言王国

2023-12-29 14:18:59

276

OPPO推出GPT大模型手机搭载天玑9300卷天卷地卷大模型

OPPO推出GPT大模型手机？是的，只能说生成式 AI 实在是太爆火了，智能手机市场的竞争都只能继续卷。今天OPPO推出 GPT 大模型手机 Find X7 系列。Find X7 系列的外观设计

2024-01-08 18:52:15

648

科大讯飞星火认知大模型V3.5发布

近日，科大讯飞举办了星火认知大模型V3.5升级发布会。在发布会上，科大讯飞董事长刘庆峰和研究院院长刘聪共同宣布了基于首个全国产算力训练的讯飞星火V3.5的全新升级。

2024-01-31 17:28:05

855

全球最强大模型易主：GPT-4被超越，Claude 3系列崭露头角

近日，人工智能领域迎来了一场革命性的突破。Anthropic公司发布了全新的Claude 3系列模型，该系列模型在多模态和语言能力等关键指标上展现出卓越性能，成功超越了此前被广泛认为是全球最强AI模型的GPT-4，树立了新的行业标杆。

2024-03-05 09:42:51

188

Anthropic发布Claude 3系列，超越GPT-4和Gemini Ultra

人工智能领域的领军企业Anthropic宣布推出全新的Claude 3系列模型，包括Claude 3 Opus、Claude 3 Sonnet和Claude 3 Haiku。据该公司称，这一系列模型不仅在速度上超越了之前的所有模型，更在功能上实现了重大突破，成为迄今为止最强大的人工智能模型。

2024-03-05 09:43:47

154

全球最强大模型易主，GPT-4被超越

近日，AI领域的领军企业Anthropic宣布推出全新的Claude 3系列模型，其中包括最强版Claude 3 Opus。据该公司称，Claude 3系列在推理、数学、编码、多语言理解和视觉方面全面超越了包括GPT-4在内的所有大型模型，重新树立了行业基准。

2024-03-05 09:58:03

207

OpenAI推出ChatGPT新功能：朗读，支持37种语言，兼容GPT-4和GPT-3

据悉，“朗读”功能支持37种语言，且能够自主识别文本类型并对应相应的发音。值得关注的是，该功能对GPT-4以及GPT-3.5版本的ChatGPT均适用。此举彰显了OpenAI致力于“多模态交互”（multimodal capabilities）的方向

2024-03-05 15:48:33

195

Anthropic 发布 Claude 3 系列大模型和 AI 助手

中的表现超越了 GPT-4/3.5 和 Gemini 1.0 Ultra/Pro。目前Opus 和 Sonnet 已可通过 claude网站和 Claude API 使用,而 Haiku 将在未来几周内推出。 Claude 3 的主要改进增强的多语种处理能力对西班牙语

2024-03-08 12:29:16

162

微软Copilot全面更新为OpenAI的GPT-4 Turbo模型

起初，Copilot作为Bing Chat AI助手推出，初期采用GPT-3.5模型，随后升级至GPT-4取得显著进步，如今再次更新至性能卓越的GPT-4 Turbo模型，这无疑将使得Copilot功能再上新台阶。

2024-03-13 13:42:37

129

GPT-4发布！多领域超越“人类水平”，专家：国内落后2-3年

排队申请内测。对于GPT-4的性能，很多国外网友的描述都是“GPT-4，起飞！” 多模态大型语言模型GPT-4 GPT-4被定义为OpenAI发展的另一里程碑，其相较于上一代产品GPT-3.5

2023-03-16 01:58:00

3977

周鸿祎：国产大模型追赶GPT-4的速度远超想象！AI数字人是大模型的重要应用入口！

安全卫士、360安全浏览器、360搜索。同时，360AI数字人也正式发布。在发布会现场，360创始人周鸿祎针表示，国产大模型在许多方面已经赶上GPT3.5，追赶GPT4的速度远超想象。在他看来，当前国内各家企业的大模型基础能力相差不大，接下来真正比拼的将是应用落地能力

2023-06-15 01:07:00

1975

已全部加载完成

搜索历史

超越GPT 3.5的小型语言模型案例概述

评论