如何确定语言模型应该有多大？

在这个全民 LLM 的狂欢里，想测测你拿到的预算够训一个多大的模型吗？本文会给你一个答案，至少给你一个计算公式。

在自然语言处理领域，有时候我们恍惚觉得大家是为了搏头条而在模型尺寸上不断进行军备竞赛。1750 亿参数无疑是一个很抓眼球数字！为什么不考虑高效地去训一个小一点的模型？其实，这是因为深度学习领域有一个挺惊人的缩放效应，那就是: 大神经网络计算效率更高。这是以 OpenAI 为代表的团队在像神经语言模型的缩放定律这样的论文中探索出的结论。本文的研究也基于这一现象，我们将其与 GPU 速度估计相结合，用于确保在进行语言模型实验时，我们能根据我们算力预算来设计最合适的模型尺寸 (剧透一下，这个大小比你想象的要大！)。我们将展示我们的方法是如何影响一个标准的语言建模基准的架构决策的: 我们在没有任何超参优化的前提下，仅使用了原论文 75% 的训练时间，复现了 Zhang 等人的 Transformer-XL 论文中的 14 层模型的最佳结果。我们还估计来自同一篇论文的 18 层模型其实仅需要比原论文少一个数量级的步数就能达到相同的结果。继续阅读之前想先玩玩我们的演示吗？只需阅读原文，查看交互式示例！

“1750 亿参数”出处论文:
https://arxiv.org/abs/2005.14165

神经语言模型的缩放定律论文:
https://arxiv.org/abs/2001.08361

Transformer-XL 论文:
https://arxiv.org/pdf/1901.02860.pdf

1. 停止训练的最佳时间 (比你想象的要早)

我们先观察一些损失曲线 (loss curve)。我们使用的任务是在 Wikitext-103 上训练 Transformer-XL 语言模型，Wikitext-103 是一个标准的中等体量的测试基准。GPT-2 在此等体量的数据集上表现不佳。随着训练的进行，我们来观察计算成本 (通过浮点运算数来衡量) 与模型性能 (通过验证集上的损失来衡量) 的联动关系。我们做点实验吧！在下图中，不同颜色的线段表示不同层数和大小的 Transformer-XL 模型运行 200000 步的数据，这些模型除了层数与大小外的所有其他超参数都相同。模型参数量范围从几千到一亿 (不含嵌入)。越大的模型在图中越靠右，因为它们每一步需要的计算量更大。本图是交互式的，你可以玩一玩！

体验地址: https://hf.co/calculator/

与缩放定律一文中的做法一样，我们的横轴为非嵌入浮点运算数 (non-embedding FLoating Point Operations, neFLOs)，纵轴为验证集损失。对于给定的 neFLOs 预算，似乎存在一个任何模型都没法越过的性能边界，我们在图中用红色线段表示。在缩放定律一文中，它被称为计算边界 (compute frontier)。我们可以看到，在所有的实验中，几乎每个实验都能在经过初始若干步的损失迅速降低后达到或接近该计算边界，随后又在训练接近尾声时，因训练效率降低而偏离该计算边界。这个现象有其实际意义: 给定固定的浮点运算预算，为了达到最佳性能，你应该选择一个模型尺寸，使得在浮点运算预算见顶时正好达到计算边界，然后我们就可以在此时停止训练。此时离模型收敛所需的时间还很远，模型收敛还需要 10 倍左右的时间。事实上，如果此时你还有额外的钱可用于计算，你应该把大部分用到增大模型上，而只将一小部分用于增加训练步数。[ 译者注: 这是因为性能边界本质上度量了每 neFLOs 带来的 loss 的降低是多少，到达计算边界后，后面的每 neFLOs 能带来的 loss 的降低变小，不划算了。我们应该转而去寻求增大模型所带来的接近计算边界的高回报，而不应该卷在增加训练步数带来的低回报上。 ]

在缩放定律一文中，OpenAI 团队用幂律函数拟合了一个 GPT-2 训练的计算边界。这似乎也适用于我们的任务，我们也拟合了一个以预算为自变量，最适合该预算的模型参数量为因变量的幂律函数。如下图所示。

体验地址: https://hf.co/calculator/

由于好的模型的 neFLOs- 损失曲线往往会与计算边界相切比较长时间，因此最终的拟合函数会存在一些噪声。然而，这恰恰也意味着基于该拟合函数的估计的容忍度会比较好，即使我们预测尺寸有点偏差，其结果仍然会非常接近最优值。我们发现，如果将算力预算乘以 10，最佳模型尺寸会随之乘以 7.41，而最佳训练步数仅乘以 1.35。将此规则外推到 Tranformer-XL 论文中的那个更大的 18 层最先进模型，我们发现其最佳训练步数约为 25 万步。即使这个数字由于模型尺寸的变化而变得不那么精确，它也比论文中所述的收敛所需的 400 万步小得多。以更大的模型、更少的训练步数为起点，在给定的 (庞大的) 预算下我们能训到更小的损失。

2. GPU 针对大而宽的模型进行了优化

我们现在有了一个将性能和最佳模型尺寸与 neFLOs 联系起来的规则。然而，neFLOs 有点难以具象化。我们能否将其转化为更直观的指标，如训练时间？其实，无论你是有时间上的限制还是财务上的限制，主要关注的都是 GPU 时间。为了在 neFLOs 和 GPU 时间之间建立联系，我们在谷歌云平台上用 4 种不同 GPU 实例以及各种不同大小的 Transformer-XL 模型进行了数万次的基准测试 (包括混合精度训练测试)。以下是我们的发现:

速度估计

每秒 neFLOs (即公式中的 speed) 可以建模为由模型宽度 (每层神经元数) 、深度 (层数) 和 batch size 三个因子组成的多变量函数，这三个因子的重要性递减。在我们的实验中，观察到的最大预测误差为测量值的 15%。

宽度

GPU 针对宽 transfomer 模型的大型前馈层进行了优化。在我们所有的实验中，每秒 neFLOs 与模型宽度呈 1.6 次方的幂律关系，这意味着两倍宽的模型需要 4 倍的操作。然而执行这些操作的速度也提高了大约 3.16 倍，几乎抵消了额外的计算成本。

深度

每秒 neFLOs 也与深度正相关。我们目前发现的最佳关系是每秒 neFLOs 与成正比。这与 transformer 模型必须串行地处理每一层的事实是一致的。从本质上讲，层数更多的模型其实并不会更快，但它们似乎表现出更快，其原因主要是它们的均摊开销更小。公式中的常数就代表这一开销，在我们的实验中该常数一直在 5 左右，这其实意味着 GPU 加载数据、嵌入和 softmax 这些操作的耗时大约相当于 5 个 transfomer 层的时间。

Batch size

Batch size 发挥的作用最小。Batch size 较小时，其与速度呈正相关关系，但这个关系很快就饱和了(甚至在 V100 和 P100 上 batch size 大于 64 后、在 K80 和 P4 batch size 大于 16 后，速度比小 batch size 时还有所降低)。因此，我们将其对速度的贡献建模为对数函数以简化计算，它是 3 个因子中最弱的。因此，最终我们所有实验都是在单 GPU 上用 batch size 64 运行出来的。这是大模型的另一个好处: 因为更大的 batch size 似乎没有多大帮助，如果你的模型太大而无法塞进 GPU，你可以只使用较小的 batch size 以及梯度累积技术。

2 的幂在 2020 年仍然很重要！

最后，一个令人惊讶的收获是宽度或 batch size 设置为 2 的幂的话其最终性能会比设为其他值高。有或没有 Tensor Core 的 GPU 都是如此。在像 V100 这样的 Tensor Core GPU 上，NVIDIA 建议张量形状设置为 8 的倍数; 然而，我们试验过将其不断加倍至 512 的倍数，性能还会继续提高。但是，在最终拟合时我们还是只选择拟合 2 的幂的数据，因为拟合所有数据点意味着拟合质量会变差，而且最终的拟合结果会对采用 2 的幂情况下的速度估计得过于乐观。但这不妨碍你去选择最快的形状参数。

最终，我们得到运行速度的估算公式如下:

例如，在未使用混合精度的 V100 GPU 上，k=2.21 × 10^7、a=1.66、b=5.92、c=1.33。不同的 GPU 具有不同的乘性系数，但结果很接近。

3. 语言建模任务演示: Wikitext-103

现在我们已经知道了模型尺寸和训练速度之间的关系，我们可以依此预测: 对于给定的 GPU 时间或预算，适合目标任务的最佳模型尺寸及其能达到的性能。

这里使用的价格是 Google 云平台 (Google Cloud Platform，GCP) 的价格。我们使用了 Peter Henderson 的 Experiment impact tracker 来估算能源消耗，并使用了 Electricity map 的荷兰数据 (Google 的欧洲服务器所在地) 来估算 CO2 排放量。尽管巨大的训练成本常常博得头条，但事实上，我们仍然有可能以 30 美元的价格在中等规模的数据集上复现最先进的结果！对于一个恰当优化过的训练方案而言，V100 已经算一个强大的武器了。

Experiment impact tracker:
https://github.com/Breakend/experiment-impact-tracker

Electricity map:
https://www.electricitymap.org

图中所示的数据的测例为在 Wikitext-103 上使用 batch size 60 以及单 GPU 训练一个 Transformer-XL 模型，模型的目标长度 (target length) 和记忆长度 (memory length) 为 150，测试基于 CMU 的 Transformer-XL 代码库。为了充分利用 V100 的 Tensor Core 功能，我们在该 GPU 上把 batch size 设为 64，序列长度设为 152。在我们的模型尺寸 - 速度预测公式中，我们假设内部前馈层维度与嵌入和注意力维度相同，并且宽深比是恒定的。Reformer 表明，这种设置有利于节省内存。虽然缩放定律一文表明: 形状不会显著影响 GPT-2 的性能。然而，对于大模型而言，我们还是发现具有更大前馈层的更浅的模型的性能会更好，因此我们在图中给出了两种候选的模型形状: 一个宽而浅，一个窄而深。

为了复现中型 Transformer-XL 预训练模型 (损失为 3.15) 的结果，我们调整了原模型的大小以增加的前馈维度并使之为 2 的高次幂，同时保持相同参数量。我们最终得到了一个 14 层的模型，隐藏层维度为 768 且前馈层维度为 1024。相比之下，原文中的模型是通过激进的超参数搜索搜得的 16 层模型，形状也很奇怪，隐藏层维度为 410 且前馈层维度为 2100。我们的实验表明，由于我们的形状是 2 的高次方，并且是一个更浅、更宽的模型，因此它在 NVIDIA RTX Titan 上每 batch 的速度比原模型提高了 20%。对于该模型，CMU 团队提供的脚本已经非常接近最佳停止时间。最终，我们获得了相同的性能，同时减少了 25% 的训练时间。最重要的是，原模型使用超参数搜索得到了对它而言更优形状，而我们什么也没调，甚至连随机种子也是直接复用的他们手调的随机种子。由于我们使用了较小规模的训练来拟合缩放定律，并依此缩放定律计算所需的模型超参，因此节省参数搜索实际上可能是我们获得的另一个也是更大的一个收益。

编辑：黄飞

阅读全文

神经网络(98386) 神经网络(98386)
gpu(126255) gpu(126255)
深度学习(119798) 深度学习(119798)
自然语言处理(13090) 自然语言处理(13090)

iPhone 5有没有可能双屏

如果苹果真的解决了iphone屏幕过小的问题，抛开单纯加宽加大所造成的尺寸问题，应该有三个办法

2012-08-09 14:17:33

727

无人驾驶汽车应该有的样子

谈到无人驾驶汽车，既有人对此感到兴奋又有人为此感到担忧，还有人保持中立。尽管无人驾驶汽车能够有效减少人为错误，降低每年因交通事故而造成的伤亡，但人们对此并不熟悉。我们最想知道的是，无人驾驶汽车究竟能做些什么？它又具备哪些智能特点和功能呢？自从几年前谷歌开始研发无人驾驶汽车以来，我们对其所用的技术已经有了一定的了解。

2015-08-11 09:06:16

973

这款机器人上岗了，听说“月薪”比大学毕业生还高

软银和Aldebaran也正在与IBM的Watson合作，通过合作的方式来教导Pepper如何理解英语和日语等语言的含义和语境。这个技能应该有助于Pepper更有效地回答问题。

2016-07-28 09:54:09

586

如何利用Transformers了解视觉语言模型

将模型称为 “视觉语言” 模型是什么意思？一个结合了视觉和语言模态的模型？但这到底是什么意思呢？

2023-03-03 09:49:37

665

如何训练这些神经网络来解决问题？

在神经网络建模中，经常会出现关于神经网络应该有多复杂的问题，即它应该有多少层，或者它的滤波器矩阵应该有多大。这个问题没有简单的答案。与此相关，讨论网络过拟合和欠拟合非常重要。过拟合是模型过于复杂

2023-11-24 15:35:47

237

430中断头应该怎么写呢？

MSP430的中断头应该怎么写呢？手册上也没个说法啊，不看例程就不知道怎么写中断了，比如定时器A的中断，#pragma vector = TIMERA1_VECTOR__interrupt void Timer_A(void) 就是这两行，感觉应该有个格式的，请大侠指点迷津，多谢多谢。{ //处理中断}

2013-03-25 14:44:20

定语从句的练习和用法

定语从句的练习和用法  定语从句:  在复合句中修饰名词或代词的句子在复合句中充当定语，所以叫作定语从句。先行词：  定语从句所修饰的名词或代词

2008-06-26 09:36:42

应该有二手交易专区

交易专区必须要有，自己闲置的东西可以在别人那里发挥作用，何乐而不为？？？

2013-01-03 14:21:28

C语言和单片机有什么关系？

。现在的大赛应该有所改动。我选择的是软件类，选择这个的原因是我觉得这个更加的神秘，就是这个神秘感让我对软件更加的有兴趣。刚开始真的是一窍不通，我买了一本C语言书，独自学习了2个月，做了3本笔记，然后又学习了1个月的数字电路，到这个时候，我都快奔溃了，3个月过去了，...

2021-07-14 06:24:19

MIC电路为什么要加电阻？应该选择多大的电阻?

2021-10-12 07:40:22

S32K3是否应该有任何兼容的booloader解决方案？

我正在评估新处理器 s32k344 mqfp172 评估板。我正在尝试通过 CAN 总线刷新新固件。该硬件是否应该有任何兼容的booloader解决方案？请帮我指出这方面的任何文件。

2023-04-11 06:40:33

SMD原件的焊盘应该设计为多大？

如题SMD电阻0402、0603、0805等，SMD电容0402、0603、0805等贴片期间的焊盘应该设计为多大最为合适？

2013-05-09 10:19:49

ch376的固件版本，初始化，数据缓冲区有多大？

,不知道什么问题，没办法又买了三个U盘，结果成功了一个，为什么？3、376内部数据缓冲区有多大？希望有人帮忙！！这里应该有沁恒的工程师吧

2022-07-14 07:35:55

h文件有何作用？应该在那儿包含h文件？

h文件有何作用？h文件里应该有什么？h文件不应该有什么？应该在那儿包含h文件？

2021-07-15 09:36:12

一个老板应该有什么修养

自己那套设备自己要会修。几十万的设备，交给别人你还真放心哟。确实，有的普工也懂，但是我事先说明，普工在合同上是不包括修机的，修坏了不负法律责任。

2023-06-13 19:19:46

停止上传到云端的数据，应该有效地使用云端

更为密集的数据分析，用于获取更多生物标志物和趋势。这就是为什么应该有效地使用云端（不必花几个小时等待水壶里的水沸腾……）

2018-08-07 08:05:34

在电路设计中，如何确定电阻，电容，电感，应该用多大的，这个问题困惑已久

2017-04-07 07:59:07

基于AR模型的参数及阶数估计的MATLAB源代码免费下载

网友编写的R模型的参数及阶数估计，利用的是L-D算法解Y-W方程法，里面有相关注释。对学习随机信号的同学，应该有用[hide] [/hide]

2012-02-29 15:47:39

基于FPGA的冲击力采集，应该包括哪些模块

毕业设计用到了，不知道应该有哪些模块

2012-05-14 12:23:40

如何确定运放电源需要多大的电流？

如何确定运放电源需要多大的电流？比如这个-6V只是专门给运放供电的，那么如何确认这个运放对于-6V电源的电流的需求呢？

2019-09-18 10:14:55

如何使用Memtool 2021通过FTDI闪存AURIX™？

我想通过从 PC USB 到 JTAG 的基本 FTDI 连接来MULTICH_CONNECT_PCB并刷新AURIX™目标，为此我将使用 Infineon MemTool 2021，我在“目标”-“设置 ..”下看到一些选项，但不确定我是否需要调整配置或默认设置应该有效。

2024-03-06 06:12:04

如何配置POWERSTEP01 ocd_th和stall_th？

，v_stall = 30mOhm*1.8A = 0.054V，这导致 stall_th 寄存器值为 1，即 31.25mV。这样对吗？一般来说，步进电机的失速值和过流值大约应该有多大？

2023-01-13 08:09:23

开发集和测试集应该有多大？

% 的提升，因为这将直接影响到公司的利润。在这种情况下，开发集规模可能远超过 10,000 个样本，从而有利于检测到那些不易察觉的效果提升。那么测试集的大小又该如何确定呢？它的规模应该大到使你能够

2018-12-10 10:23:47

开始学习51单片机，想买个开发板，应该注意哪些？求推荐

刚接触51单片机，想买个开发板边学边做，故想要买个开发板，请问各位开发板上应该有哪些附件，要注意些什么？？有什么好的教学视频呢？求推荐~~~~~~

2012-02-21 15:24:51

技术贴【关于模型仿真】

里面的元件都有库模型和仿真模型，库文件就在library文件夹里面，仿真模型就在model文件夹里面。这里大家应该有思路了吧，没错我们只要把自己想要的元件的dll文件找到就可以。but。。。呵呵，dll

2013-07-05 15:49:31

教你在ABBYY FineReader 12创建语言组

经常使用ABBYY FineReader 12的小伙伴肯定知道，如果经常使用特定语言的组合，可在FineReader中建立语言组以便于今后使用。那么，小编在本文将教新手小伙伴们如何在ABBYY

2017-10-20 11:31:42

有人知道IO时钟边沿和DIVCLK边沿之间应该有多少延迟，以确保我们从Virtex 6 ISERDES中获得明确定义的字

嗨，有没有人知道IO时钟边沿和DIVCLK边沿之间应该有多少延迟，以确保我们从Virtex 6 ISERDES中获得明确定义的字？换句话说，如果我在1：4 serdes中计时4位，那么DIVCLK

2020-06-15 12:10:39

构建词向量模型相关资料分享

向量就是词向量; 词向量的计算应该有意义, 需要尽可能保留原来的语言特征, 把语素编码到连续的、能反映语素间关系的连续的向量空间的操作叫词嵌入.(本文包含尝试和其他实验的笔记, 篇幅较长, 如果不想看细节的话可以直接跳到按手册说明调用word2vec节或者总结部分.)

2021-09-17 07:17:12

用matlab做上位机怎么样

没有学vb，用c语言好像很麻烦，用matlab做上位机怎么样？matlab里面应该有工具箱很方便做上位机吧？具体应该学什么内容呢？新手求教~

2013-07-15 23:01:19

程序世界：线性代数是一种特定语言

可以在MATLAB、Mathematica等数学软件上进行线性代数编程所以，从应用的角度看，线性代数是一种人为设计的领域特定语言(DSL)，它建立了一套模型并通过符号系统完成语法和语义的映射。实际上

2021-04-22 06:30:00

组成微型计算机主机的两个主要部件是什么

组成微型计算机“主机”的两个主要部件是微处理器和()。更多相关问题在地形图的外图廓线以外，应该有接图表、图名、图号、平面坐标系、高程系统、比例尺、测绘日期、测绘单位、图式版本、测绘人员名单等内容

2021-09-15 09:21:06

自然语言处理的语言模型

自然语言处理——53 语言模型（数据平滑）

2020-04-16 11:11:25

请问STM32系统时钟初始化函数的流程怎么确定？

的值，但什么时候操作哪个寄存器，总应该有个顺序吧？好像资料上看不到什么地方讲到这个顺序的问题哦？我在QQ群上问，没人理我，根据你的指示，就来到这里问了，希望指点一二！

2019-02-27 05:23:57

请问labview肢体比对的话，大概应该有哪几个方面？

labview肢体比对的话，大概应该有哪几个方面啊，感谢大佬

2019-10-16 21:42:00

请问ucos iii如何确定任务堆栈应该选多大？

ucos iii如何确定任务堆栈应该选多大

2020-05-15 01:46:18

请问如何判断MCU可以跑多大的模型？

如何判断我的MCU可以跑多大的模型？靠看ram占用？实际测试执行效率？

2022-04-26 09:26:14

请问有人用过F28335的Q30格式吗？按照文档，应该有10位有效数字，为什么我的只有7位？

有人用过q格式定点运算吗，为什么我转换的数不准？比如_IQ30(-1.903162068687379)，结果是-1.903162122；按照官方文档，应该有10位有效数字，为什么我的只有7位？请各路大神各显神通，感激不尽！

2018-04-22 21:41:43

请问栈应该设置成多大？

各位大神：你们好，这是我第4次在论坛提问了，感谢各位大神的帮忙，又要麻烦你们。（/(ㄒoㄒ)/~~）请问我在写dsp c6748中的 cmd文件时候，栈应该设置成多大？堆应该设置多大？有没有

2019-08-12 11:25:18

一些关于高速设计的文章.

好多,总应该有对你有用的吧,好好看看拉

2006-03-28 00:28:20

日光灯电子镇流器电原理图(40W)

日光灯电子镇流器电原理图(40W) 此电路图非常的全面又简单，对你应该有帮助。

2007-12-08 09:06:20

3657

自制投影的成本控制技巧

自制投影的成本控制技巧液晶已经做出彩投的朋友应该有些总结，

2010-02-06 09:42:52

904

变频器固定语言报警电路图

变频器固定语言报警电路图

2010-04-10 13:40:39

736

电路分析基础第四版上册课后习题答案

只有部分习题的答案，解题过程还算详细，应该有用

2015-11-19 10:46:33

2013年全国大学生电子设计竞赛训练教程（最新资料）

全国大学生电子设计竞赛的资料，对参加电赛的你应该有帮助

2016-02-29 16:35:52

iphone7概念机渲染图曝光，有买的冲动吗？

该组图确定了iPhone 7将搭载双摄像头和无边框设计，机身明显软润，背部logo将采用能发光，看机身情况应该有做生活防水的处理。

2016-08-10 20:22:10

646

浅谈领域特定语言

在定义DSL是什么的问题上，Flowler认为目前经常使用的一些特征，例如“关注于领域”、“有限的表现”和“语言本质”是非常模糊的。因此，唯一能够确定DSL边界的方法是考虑“一门语言的一种特定用法”和“该语言的设计者或使用者的意图”

2017-12-12 08:53:10

3804

自然语言处理常用模型解析

自然语言处理常用模型使用方法一、N元模型二、马尔可夫模型以及隐马尔可夫模型及目前常用的自然语言处理开源项目/开发包有哪些？

2017-12-28 15:42:30

5382

集成功率放大器的设计开题报告pdf下载

开题报告，应该有人能用到

2018-01-10 16:24:01

PLC的完整设计选型技巧详解

在plc系统设计时，首先应确定系统方案，下一步工作就是PLC的设计选型。选择PLC，主要是确定PLC的生产厂家和PLC的具体型号。对于系统方案要求有分布式系统、远程I/O系统，还需要考虑网络化通讯的要求。那么具体应该如何选择PLC呢?笔者认为应该有以下几方面的内容。

2018-02-05 10:28:35

5204

AI领域的10大里程碑

“如果为了各种实用性的目的，机器在外形上向人类靠拢，并模仿人类的行为，那么我们仍然应该有两种非常确定的方法来辨识出它们不是真人。”

2018-04-24 17:49:40

4111

最全的PLC选型总结拿走不谢

2018-08-04 09:00:04

25866

为什么饶毅教授会呼吁柯林斯“应该有脊梁”？

公开信中柯林斯称，NIH意识到一些外国机构已经建立了系统的项目来影响NIH的研究人员和同行评审员，并利用了NIH长期以来对所支持的研究活动的信任、公平和卓越的传统。

2018-09-17 08:51:02

3189

宜百利：你将见证一台好空调应该有的样子

说起空调脑海中第一个词会是什么冬暖夏凉四个字应该是首选吧炎炎酷暑中空调可以送来凉风而到了寒冬空调又可以供暖作为不可或缺的家电之一空调市场上难免出现参差不齐的情况不是说，选空调就像谈恋爱吗制冷制热功能

2018-12-10 19:02:15

100

Google 产品的消亡史！

Google的产品支持已沦为一个笑话，为此，Google是时候应该有所关注了。

2019-04-08 13:48:34

2759

城市照明翻转力——城市照明3.0时代来临

一个城市的成熟或者是他的美，在于他应该有一个属于自己的个性。

2019-05-16 09:09:42

2733

丹佛斯变频器故障判断

将红表棒接到P端，黑表棒分别接U、V、W上，应该有几十欧的阻值，且各相阻值基本相同，反相应该为无穷大。将黑表棒接到N端，重复以上步骤应得到相同结果，否则可确定逆变模块故障。

2019-06-03 15:12:04

4503

人工智能应该有道德意识吗

人工智能的道德观，这个问题并不是空想，不仅重要，甚至越来越迫切的问题。这个问题背后，不仅涉及算法以及道德问题，更是知识边界拷问的问题。

2019-06-26 10:10:51

1045

树莓派气象站的制作教程

祝贺你，你已经完成了！你现在应该有一个漂亮的RPi气象站坐在你的桌子上，并告诉你有用的天气信息。

2019-09-04 15:50:57

4131

怎样制作9针串口转以太网电缆

移除大约2英寸切割端的电缆覆盖物使用剥线钳暴露内部电线（应该有4对双绞线）。

2019-11-07 11:36:33

3966

变频器维修检测与基本经验技巧

将红表棒接到P端，黑表棒分别接U、V、W上，应该有几十欧的阻值，且各相阻值基本相同，反相应该为无穷大。将黑表棒接到N端，重复以上步骤应得到相同结果，否则可确定逆变模块故障

2020-01-07 08:53:29

2203

18000w应该用多大的电表

18000w用多大的电表，跟分租户用多少电，和总表对不上数，没真直接关系，跟实际用电量，和电表灵敏度有关系，现在给你算下应该用多大表，电流］=P功率18000÷电压220二81A，通过计算，如果是卤面桶是使电压220V供电的话，电表你应该使用100A电表，

2020-02-14 12:04:00

5461

Google应该有足够的时间来修补该问题

由于这是黑客可以很容易利用的一项重大利用，因此，谷歌还没有找到时间对其进行修补，这是一个很大的惊喜。显然，现在众所周知的漏洞已被Linux服务器恶意利用，以便不受信任的用户可以获得“ root”特权。

2020-04-22 09:40:48

1801

一个机器人进行自动化升级改造,应该加一些什么设备呢?

如果想在两个手动工位间加入一个机器人进行自动化升级改造,应该加一些什么设备呢?头脑风暴一下,应该有安全门,围栏,SICK光电,机器人,机器人E2钥匙门盒,PN/PN耦合器,这样在不添加CPU的情况下应该是最相对合理的.

2020-06-12 09:56:26

3429

常规的PCB应该有多少层

单面PCB主要用在非常简单的消费电子产品上的，毕竟工艺简单，现在还用原始电路板材料便宜（FR-1或FR-2）和薄铜包层。

2020-06-17 10:56:12

7620

好的机器视觉照明应该有什么特点呢？

当选择两种光源的时候，最佳的选择是选择更亮的那个。当光源不够亮时，可能有三种不好的情况会出现。第一，相机的信噪比不够；由于光源的亮度不够，图像的对比度必然不够，在图像上出现噪声的可能性也随即增大。

2020-11-17 16:00:24

1741

运营商美股退市是早应该有预期的

新年伊始，一则关于运营商的消息就成为了热点，三家中国的通信运营商要被迫在美股退市，有些媒体还煞有介事的“突发”。实际上，运营商在美股退市不退市，完全不是社会关心的热点，对于运营商的员工们来说，更是不如年终奖拿了多少更重要也更关注。据报道，当地时间2020年12月31日，纽交所宣布，将对中国移动有限公司、中国电信股份有限公司、中国联通（香港）有限公司进行退市处理，三家公司将在1月7日至1月11日期间退市。这事情是

2021-01-05 09:55:21

1507

做为一个合格单片机工程师，你应该具有这7种能力

正确估计单片机的能力，知道单片机能做什么，最大程度的挖掘单片机的潜力对一个单片机系统设计者来说是至关重要的。我们应该有这样一个认识，即单片机的处理能力是非常强大的。

2021-01-20 14:50:11

880

做为一个合格单片机工程师，你应该具有这7种能力！

2021-01-25 08:04:05

一个使用YoloV5的深度指南，使用WBF进行性能提升

YoloV5期望你有两个目录，一个用于训练，一个用于验证。在这两个目录中，你需要另外两个目录，“Images”和“Labels”。Images包含实际的图像，每个图像的标签都应该有一个带有该图像标注的.txt文件，文本文件应该有与其对应的图像相同的名称。

2021-04-18 10:05:36

6115

空调业不能只给用户廉价的产品，还应该有贴心的服务

，价格太低势必会在质量和服务上打折扣。难道空调行业只剩下价格战？其实，空调业不能只给用户廉价的产品，还应该有贴心的服务。9月下旬，海尔空调在全国启动“全民洗空调”活动，活动范围从一二线城市到乡镇，覆盖全国15000个

2021-09-30 10:00:49

298

选择plc的技巧，具体应该如何选择PLC

。那么具体应该如何选择PLC呢？笔者认为应该有以下几个方面。一、可编程控制器制造商的选择确定PLC的生产厂家，主要考虑设备用户的要求、设计人员对不同厂家PLC的熟悉程度和设计习惯、配套产品的一致性、技术服务等因素。考虑到PLC本身的可靠性，原则上

2021-12-31 17:24:52

2001

一种基于乱序语言模型的预训练模型-PERT

由于乱序语言模型不使用[MASK]标记，减轻了预训练任务与微调任务之间的gap，并由于预测空间大小为输入序列长度，使得计算效率高于掩码语言模型。PERT模型结构与BERT模型一致，因此在下游预训练时，不需要修改原始BERT模型的任何代码与脚本。

2022-05-10 15:01:27

1173

运用JNI连结OpenCV开发C++并打包成aar lib的使用教学

本身是作影像视觉相关的工作，多数时候都使用 Python 作为开发语言，但OpenCV 本身是C++开发，学 C++ 应该有帮助。

2022-08-15 09:24:08

1006

当人工智能推理模型不确定时，计算环境应该是什么样子？

自动驾驶可能是最好的例子，改进的人工智能模型研究正以疯狂的速度进行。当人工智能推理模型不确定时，计算环境应该是什么样子？

2022-10-26 11:53:48

341

UltraEdit：什么是Markdown？为什么你应该使用它？

Markdown是一种纯文本格式语法，旨在使互联网写作更容易。Markdown背后的理念是：纯文本文档应该是可读的，没有标签捣乱，但仍然应该有方法添加文本修饰符，如列表、粗体、斜体等。它是WYSIWYG（所见即所得）编辑器的替代品

2022-11-28 11:26:47

1184

大型语言模型有哪些用途？

大型语言模型能识别、总结、翻译、预测和生成文本及其他内容。 AI 应用在大型语言模型的帮助下，可用于解决总结文章、编写故事和参与长对话等多种繁重工作。大型语言模型（LLM）是一种深度学习算法，可以

2023-02-23 19:50:04

3887

ChatGPT等大模型的发展，对GPGPU有怎样的性能要求？

具体来看，在AI框架方面，OpenAI能够推出能力如此强大的ChatGPT，它应该有自己专门的框架。现在各种商用的框架，包括国产的飞桨paddlepaddle，以及Tensorflow或者Pytorch,其实更多是用于常规模型

2023-03-10 09:51:50

604

李彦宏：大模型即将改变世界

李彦宏认为，未来，所有的应用都将基于大模型来开发，每一个行业都应该有属于自己的大模型。大模型会深度融合到实体经济当中去，赋能千行百业，助力中国经济开创下一个黄金30年。

2023-06-02 15:34:56

898

我们应该有一台示波器

想象一下你在医院里，坐在重症病床边，一旁是一台心率检测仪。你看着机器上的画面，一条线一上一下的摆动过去，你害怕那条线变成直线，因为正如电视上放的，那样就意味着患者的死亡。当我爸妈问我是做什么工作的时候，这就是我向他们解释示波器的方式。医院的心率检测仪显示的是病人的心跳，而示波器显示的是电器设备信号的心跳。示波器帮助我们对电子设备是否正常运行有方方面面的了解，让我们可以进一步检查被测设备的“生命体征

2021-11-12 09:33:35

542

载波泄露也会影响信号的EVM？

载波泄露，大概的意思是，在信号上不应该有本振信号的，但是你却有了，是不小心泄露出来的。

2023-06-30 09:29:48

576

载波泄露和本振相噪对信号EVM的影响

载波泄露，大概的意思是，在信号上不应该有本振信号的，但是你却有了，是不小心泄露出来的。

2023-07-04 10:30:14

1360

电机的轴电流从哪里来？

理论上分析，电机的轴不应该带电，自然地轴上不应该有电流通过；

2023-07-11 09:45:56

457

语言模型的发展历程基于神经网络的语言模型解析

简单来说，语言模型能够以某种方式生成文本。它的应用十分广泛，例如，可以用语言模型进行情感分析、标记有害内容、回答问题、概述文档等等。但理论上，语言模型的潜力远超以上常见任务。

2023-07-14 11:45:40

454

一台恒温恒湿试验箱应该有的好“素质”

一台恒温恒湿试验箱应该有的好“素质”

2023-09-03 14:17:41

298

腾讯发布混元大语言模型

腾讯发布混元大语言模型腾讯全球数字生态大会上腾讯正式发布了混元大语言模型，参数规模超千亿，预训练语料超2万亿tokens。作为腾讯自研的通用大语言模型，混元大语言模型具有中文创作能力、任务执行

2023-09-07 10:23:54

815

领先的组串式光伏逆变器应该有的优点知多少?

降低度电成本、提质增效、多行业融合是现代光伏行业的发展趋势，这对包括光伏逆变器在内的光伏产品性能提出更高要求。逆变器虽然在初始投资方面占比小，但作为连接电网和光伏发电单元的桥梁，其作用不可小视。逆变器是光伏电站的核心设备，通过电力电子逆变技术，将光伏组件产生的直流电转换为可并入电网的交流电。在光伏逆变器领域，组串式、集中式、集散式三大主流技术各领风骚。其中，

2023-09-16 08:20:41

471