大模型评测难度大吗大模型的评测应该怎么弄？

大模型的评测应该怎么弄？

之前在Baichuan 7B的时候，有个哥们在github发布了一个issue，说这个模型有C-eval测试集泄漏的问题，具体证据为：

当然，百川也不避讳，让大家充分讨论这个问题。

官方给出了一个解释：

其实没什么毛病，另外我在刚发布的13B模型上测试了这个，还是存在同样的问题。另外我尝试了用13B的base模型让模型续写，一看就是训练了不少题库。。

首先C-eval本身题目是公开的离线测试，答案是不可见在线提交的形式来评测，这样能一定程度上规避泄漏的问题。

但由于大模型的特殊性，其训练数据讲究大而全，巴不得全网的数据都塞进去。

目前评测大模型的方法，除了手动体验，人工评测，其他都是数据集题目的形式。

数据集旨在考察大模型的百科全书式的知识理解程度，为了好评测，把他们转化成客观选择题的形式。

这样的排行榜会存在一个很尴尬的问题，那就是一众中文大模型在排行榜上吊打GPT3.5甚至GPT4，实际体验却不尽人意。

比如经典的C-eval排行榜目前是这样的：

但大家心里都有一杆秤，几斤几两都门儿清。

这就是为什么现在卖数据最火的是题库数据，仔细想想，这就跟高考刷题一样。

这里引用下八友科技CEO（国内著名数据提供商，大模型数据市占率50%）的观点：

我认为大模型的主战场分3个阶段。

第一个阶段是重点突破“有正确答案”的领域。比如中高考，这个通过简单的得分情况，可以让模型的能力进行比较，这一步非常关键。现在教辅类数据非常关键，也就在于此。

除了这个，还有就是场景结合的，这个因为有场景优势的企业有独家数据，有独家业内人士，也就是有正确“答案”，可以判断好坏，因此这也是一个重点战场。

第二个阶段是重点突破“没有正确答案”的领域。这个阶段评价遇到了困难，但是基于第一个阶段，且有了足够多数据，可以认为大模型给出的预测，或者判断，理解是具有高水平的，只是这个没法或者很难给出标准答案，这个领域更加艺术的感觉，你会觉得大模型给出的回答更好，但是你也不知道最好是什么样子的。

第三个阶段是重点突破涉及生产力相关的领域，也就是跳过了第一阶段证明阶段，和第二阶段的炫耀阶段，直接推动社会生产力发展。

目前数据提供商最值钱的数据就是题库了，国内大模型很懂得投机取巧，反正你是知识类客观题评测，我把全网的题库数据都塞进去。

实在买不到买不全的数据，我还可以用测试集的每一道题目去反向爬取互联网相关内容，爬不到原题也能找到差不多的数据，再把他们都塞进去，针对性刷题。

这就是离线测试集问题的所在了，这对大模型来说，相当于开卷考试。

真正的考试连题干也不能让你看到。

所以针对客观题的大模型评测应该怎么做呢？

我们设想大模型参与的闭卷考试。

作为一个kaggle老玩家，这里推荐一个kaggle比赛，昨天刚上新的热乎的数据，https://www.kaggle.com/competitions/kaggle-llm-science-exam/ ，数据来自于参考维基百科话题，用gpt生成+人工过滤的科学领域多选题，附带参考训练集，测试集隐藏不可见，提交模型在线推断，最高支持10B左右模型推断。

众所周知，kaggle是谷歌家的，谷歌这是在众筹大模型了。。。

抛开数据本身质量不管，这个模式也存在一个问题，对发起方的经济实力有一定要求，比如上百B的模型咋推断？

另外如果模型对部署有特定要求怎么办？

还有就是提交模型和推断代码，无疑于把自己的核心科技提供给第三方了，所以这里存在一个信任的问题。

另外考察数据的话，kaggle上这个评测领域也过于局限了，不够全，更像是一个大榜单中小数据。

评测的数据本身要注意什么呢？这里引用了的一些思考：

原文:https://mp.weixin.qq.com/s/Q4IU6dbwy5U-iQ0ah_TGBA

大模型评测其中四点比较重要：能力边界、case边界、指令形式、自动化量化。

能力边界

在今天这个大模型效果目前，我们需要测它的哪些能力？听到比较多的有代码能力，推理能力，写作能力，多轮对话能力等等，这些能力字面意思很好理解，但是如果我们想真真整理出一个好的技能树也是比较困难的，比如说文本分类和阅读理解这个归纳到哪个能力？有的会说放到NLP基本任务，那有的阅读理解case（比如先需要在文本中找到对应的信息，然后进行一定的加减等逻辑运算才能得到结果）需要很强的推理能力，这个是该放到阅读理解还是放到推理能力？

所以划分的能力是否具有一个很好的覆盖性和正交性是这里需要考虑的点。

case边界

假设当前我们在测两个模型的数学能力，极端情况下，测试的100道case都是类似 “1+1等于几？”，我们拿这些case同时问gpt4和市面上一个其他的模型，得到的回答都是2，于是我们得出结论：两个模型数学能力接近。这显然不靠谱！！！

又或者我们现在在测试写作能力，测试case是“帮我写一个悬疑故事”，结果两个模型都写出来了，都是有点悬疑的，那么得到结论写作能力接近，这结论显然也不靠谱。

为什么不靠谱呢？假设我们现在同样是在考察数学能力和写作能力，但是case分别是：(104+903)*2-18^2-10、帮我写一个悬疑故事，故事背景发生在唐朝，主人公是一名锦衣卫，故事的开头要是从一件很小的事带入然后发现了更多背后的故事。写出前三章故事。

还有各种各样的复杂指令，比如中英混着问，就能更好的测评模型的双语能力。

随着测试的case变得复杂后模型所能cover的能力可能机会看出明显的差距，自然也就得到不同的结论了，起码不会草率的得出比如数学能力一样。

所以测试的case是否具有多样性和复杂性是这里需要考虑的点。

指令形式

这里单独把指令形式拿出来，是想提一下prompt engineering这件事。

我们知道如今这些大模型对prompt很是敏感，同一个问题回答错了，可能换种问法比如加个“一步步推理”引导语他就又能回答对了，又比如通过few-shot这种形式先给它几个例子然后再问类似的问题，就能很好的回答。

每个模型对prompt的敏感度又不一样，对于同一个问题，同一个模型得到的结论可能都是不一样的，那怎么办呢？

这里笔者的建议是不要本末倒置，我们现在做的事情是测评，尤其是在做多个模型之间的对比，那么prompt就应该是符合人提问习惯的指令形式，对于某个问题人类怎么喜欢问就怎么来，如果模型不能get到，那就是你的指令对齐或者泛化做的不好，而不是说要花很大力气去写prompt迎合各个模型。

那么返回头来说，如果现在的工作是在测当前这个模型到底有没有这个知识，举个不太恰当的例子，假设你正在研发一个大模型，发现问“中国的capital是哪里？”他居然回答是苹果，那这个时候需要定位这个问题，你就可以先用中文问问“中国的首都是哪里？”看看能不能回答对，又或者先举几个类似的例子告诉模型，然后再问它，如果能够回答说吗模型本身是有“北京是中国的首都”这个通用知识的，可能是英文或者双语能力不行，所以这里通常的做法是，会用few-shot的指令形式去测底座模型，先看看底座模型是否有这个能力，如果没有，那后面训练什么的都是很难。又比如你是一个运营工作人员，现在也只能用A这个模型来完成某一件事，那就可以花点时间来做prompt engineering，来使得输出最大化的满足你的需求。

所以作为测评，指令设计不应该特意过多的去迎合模型（除非有如上的特殊目的等等），甚至应该像上一节说的，要多样性，才能更好的探究到模型的理解能力

自动化量化

最后的评估都需要有一个量化的结论，理论来说，人工评估是最保险的，甚至一些能力需要一些专业人员（代码能力、各个学科的题目等等），但是这样效率过于低下且成本过高，尤其是对于模型的迭代。目前业界的做法通常是chatgpt或者gpt4去打分，所以这里的难度就变成了打分prompt怎么写，它需要考虑的点有两个，一个是怎么写使得gpt4能够更好的理解当前的，另外一个是怎么约束好输出，方便我们直接可以根据输出进行量化，比如做选择题等等。

怎么评价一个模型的好坏，不仅困难，而且十分重要，绝对是一个核心的科技，这现在也是除了oepnai各家没怎么搞定的一个问题。

这个问题很关键，是因为基座大模型的训练耗时耗力，如果不能想出很好的提早检验方式的话，做实验的速度会慢特别多，所有的时间成本都可以折合成算力上。

所以你做实验慢了，相当于比别人少了GPU，足够触目惊心吧。

openai不仅仅卡多，还有实验效率倍增的buff，相当于卡 * 效率倍数。

我们从公开的资料能了解到，openai是通过小模型来推演大模型，训练的部分阶段推演全部阶段，从而预测最终大模型的好坏。

具体的技术细节openai也没有透露特别多，是核心科技之一，大模型评测是非常重要和有影响力的一个方向，建议大家持续关注。

编辑：黄飞

阅读全文

gpu(126255) gpu(126255)
人工智能(229987) 人工智能(229987)
大模型(810) 大模型(810)

360超级充电器拆解与评测

39元超值！360超级充电器拆解与评测 39元超值！360超级充电器拆解与评测posted on 2016-08-29 07:38lexus 阅读(...)...

2021-09-14 07:54:57

模型预测控制介绍

是model-based。有人会问，我这个系统的模型怎么来呢？我想到两点解决方法：1. 文献上去找别人已经建好的，公认的模型；2. 首先进行系统辨识，再进行建模。（难度太大，不建议）下面给上经...

2021-08-18 06:21:11

AD09汉化怎么弄

本帖最后由可爱的阿飘于 2015-7-24 14:45 编辑 AD09破解已经完成，谢谢各位的一些帖子指点，现在就还有汉化该怎么弄，哪位大侠知道的教我下，谢谢

2015-07-24 13:06:53

Arm调试使用模型和追踪配置

发展成为广泛的调试和跟踪功能组合。支持丰富的应用程序软件平台，特别是支持自托管调试以及性能评测，这是最近在ARMv6和ARMv7中增加的功能。本文档描述了这些类型调试的使用模型，并描述了硬件和软件在实现这些使用模型时的责任

2023-08-08 06:41:13

Cortex-M7 MPCore处理器循环模型9.6.0版用户指南

Cortex-M7硬件的以下功能在Cortex-M7循环模型中完全实现： ·Cortex-M7整型内核·NVIC嵌套矢量化中断控制器·WIC-唤醒中断控制器接口支持(仅支持接口)。 ·AXI4

2023-08-12 07:01:53

GPU编程的平台模型、执行模型、内存模型及编程模型

GPU编程--OpenCL四大模型

2019-04-29 07:40:44

Labview图片至像素图的转化怎么弄呀

Labview图片至像素图的转化怎么弄呀求大神呀

2012-11-23 22:03:52

MRAS模型和可调模型参考

1、简写MRAS参考模型和可调模型参考模型和可调模型方程：简写为如下形式：参考模型：可调模型：定义广义误差为，将上述两个方程做差可以得到如下误差方程。2、改写为标准前向环节将上式改写为标准前向环节

2021-08-27 06:44:48

PSpice模型怎么转换为spice模型

2014-12-20 00:12:54

SPICE模型有什么优缺点？如何合理的使用SPICE模型？

请问SPICE模型有什么优缺点？如何合理的使用SPICE模型？

2021-04-13 06:59:06

ZigBee和wifi之间的网关怎么弄？

大神们请问一下ZigBee和wifi之间的网关怎么弄？从哪些地方着手呢怎样实现zigbee发送的数据通过wifi再传到interntet或者传到手机上呢？{:2:}

2013-05-22 16:03:43

labview做数据传输怎么弄啊？

labview做数据传输怎么弄啊？？？大体是这样的，就是用labview做一个数据可以显示波形，然后由通信口，另外一个VI可以接收到这个VI的随机数波形也显示出来？？那个大牛给点思路？？谢谢关键是那个两个VI的通信我不会弄

2014-05-19 20:44:59

matlab的模型变换、模型简化、模型实现以及模型特性命令

matlab的模型变换、模型简化、模型实现以及模型特性命令模型变换 C2d 变连续系统为离散系统 C2dm 利用指定方法变连续为离散系统 C2dt 带一延时变连续为离散系统 D2c 变离散为连续系统

2009-09-22 15:58:13

pads里PCB上不要丝印层怎么弄啊

pads里PCB上不要丝印层怎么弄啊

2015-01-23 10:13:29

pspice 逻辑门怎么样修改模型参数？

请问大家，pspice的逻辑门模型，比如说与门7408，该怎样修改其参数？我想修改7408的延迟时间，输出电平等等，怎么弄？关于右键点击然后edit pspice model的方法，我试过，只是出来

2014-06-24 10:09:17

【EVB-335X-Ⅱ试用体验】之开箱评测

`首先为这份迟来的报告说声抱歉，忙了一周的考试，刚刚才开始评测。当时去领快递就没想到会是这么大气的包装，很是惊喜，拆开包装，里面装的很细致，用得着的也应有尽有，字不重要，看图。接下来就是拆封了，七寸

2016-07-02 08:14:36

【MM32F103试用体验】+开箱评测

前段时间收到开发板，发了一次贴，最近，一看帖子发错地方了，第一次试用还望见谅，下面，我把链接附上，做平衡车买的原件也到了，剩下几天就开始陆续更新了，希望大家多提宝贵意见开箱评测链接：https://bbs.elecfans.com/forum.ph ... d&tid=911467&extra=

2016-07-28 11:05:55

【MM32F103试用体验】开箱评测

网上申请了MM32F103评估套件，今天终于到了，开箱评测果然高大上，除了开发板，还有调试板，下载线，和LED屏，真心不错：官网下载文档资料和工程实例代码，载入Blink工程，设置调试信息，选择CMSIS-DAP下载：连接好硬件，编译通过下载代码：实际效果图：下载串口工程效果图：总体来说，上手不难，继续学习中

2016-10-18 00:13:00

【MYD-Y6ULX试用体验】开箱评测

本帖最后由 moreStrong 于 2018-2-22 21:54 编辑拿到开发板有一段时间了，假期结束，赶快补上评测！盒子挺大的，霸气！发货清单：开发板1个、电源1个、MicUSB数据线

2018-02-22 21:54:59

【MiCOKit试用体验】开箱评测

.....是不是得自己买的?下层的PCB，电源部分，主角WIFI3288，然后串口IC，FLASH......总体感觉小巧玲珑，用料十足，另外盛赞一下上层板子的设计，板子那块大大RGB避免了摔下去时毁坏其他东西。这次评测到此为止：）

2015-09-09 23:05:38

【NXP LPC54110试用申请】NXP单片机评测

项目名称：NXP单片机评测试用计划：本人所在公司使用的单片机型号为stm32，PIC，想对NXP进行一下评测，主要和stm32性能，稳定性以及上手开发难易成度进行评估，如果有优势，后期会逐渐更换为NXP。希望得到此款开发版，缩短评测周期。

2017-09-18 16:17:56

【书籍评测活动NO.21】运算放大器参数解析与LTspice应用仿真

本期评测活动名单如下： @jf_39110170 @杨旭 @jf_1137202360 管理员已通过私信联系以上评测者，请评测者于5个工作日内添加管理员微信进行登录，逾期视为自动放弃主要内容本书

2023-08-22 14:31:34

【书籍评测活动NO.30】大规模语言模型：从理论到实践

，应该做什么？拥抱技术变革，理解产业市场，找到适合自己的位置。大模型市场可以分为通用大模型和垂直大模型两大类。大模型的代表ChatGPT是通用大模型，也是许多国内厂家对标的大模型，以技术攻克为目的

2024-03-11 15:16:39

【书籍评测活动NO.31】大语言模型：原理与工程实践

上，更重要的是，它在处理多样化任务和复杂场景中的灵活性显著，甚至能在一定程度上模拟人类的思考方式。这种能力的展现，标志着人工智能从专注于单一任务的传统模型向通用人工智能转变，其强大的能力将对千行百业产生

2024-03-18 15:49:46

【大联大世平Intel®神经计算棒NCS2试用体验】使用Intel模型优化器（Model Optimizer）的机器学习理解和测评思路

Optimizer）；2 通过模型优化器生成中间表达（IR），这里选择TensorFlow框架；3 如果选择以自然语言理解的BERT模型为例，利用生成的IR产生相应的推理结果，达到评测目的。下一篇评测就是具体使用模型优化器来完成具体的识别案例。

2020-07-22 22:56:39

【爱芯派 Pro 开发板试用体验】yolov8模型转换

yolov8nsim.onnx --output_dir output --config config.json, 将会得到output/compiled.axmodel文件。开发板上运行模型评测

2023-11-20 12:19:32

【非广告，有奖活动】十万悬赏评测，devstore等你来拿

开发者的福利到了，devstore将拿出十万，悬赏写评测报告的开发者，参与就有奖。太爽了。搜索devstore开发者服务商店，进入官网，点击参与。

2014-04-25 14:53:36

为啥要驱动模型？

为啥要驱动模型驱动模型抽象了啥用户空间访问驱动模型实现

2020-12-28 07:12:13

什么是模型呢？模型给我们带来了什么？

什么是模型呢？什么是关系？怎样确定一个模型？模型给我们带来了什么？

2021-07-02 07:13:30

什么是模型思维？

什么是模型思维？怎样确定一个模型？

2021-09-18 06:41:30

使用bmpaddle转换模型时应该如何参数填写方式

,608,609]\" –model参数到模型所在文件夹那一级；paddle模型有2种：组合式(combined model)和非复合式(uncombined model)；组合式就是__model__

2023-09-19 07:05:28

免费试用丨多款新品任意选，有奖评测赢千元好礼！

产品资料、相关研发干货。被评选为优秀创意方案的用户最终能获得主办方准备的丰厚奖品。一、活动产品：二、时间安排申请阶段： 8月06日- 8月12日评测阶段： 8月15日- 9月09日公布阶段： 9月10日

2020-08-07 11:20:11

公牛迷你USB插座评测

插座还能这么玩！公牛迷你USB插座评测_公牛电源插座评测-泡泡网插座还能这么玩！公牛迷你USB插座评测_公牛电源插座评测-泡泡网posted on 2016...

2021-12-28 06:08:26

关于RISC-V生态开发板评测试用专题活动试用报告及评测视频投稿时间延长的通告

致RISC-V生态开发板评测试用专题活动合作厂商和参与评测的开发者：由于前段时间国内疫情的影响，部分RISC-V厂商受疫情困扰，仓库发货的时间与预计发货时间不一致，从而导致部分开发者收到开发板的时间

2022-06-27 11:26:49

出的单按钮对话框，我想把中间的某个字符字体变大怎么弄？对话框延时自动关闭怎么弄？

弹出的单按钮对话框，我想把中间的某个字符字体变大怎么弄？对话框延时自动关闭怎么弄？对话框弹出的位置可调怎么弄？各位大神

2017-12-23 18:58:47

单片机怎么弄呀

单片机怎么弄呀PCB打样找华强 http://www.hqpcb.com 样板2天出货

2013-04-04 11:15:14

各位大佬屏幕颜色不对怎么弄啊

各位大佬，屏幕颜色不对怎么弄啊？

2022-01-10 06:23:35

各位大侠监控曲线掉电后恢复怎么弄啊！

各位大侠监控曲线掉电后恢复怎么弄啊！

2012-04-02 10:14:46

国家IP核标准符合性评测与认证指南

2012-08-17 10:57:32

图片的动态显示效果怎么弄

前几天做毕业设计已经基本完成（12864动画显示），但老师说太简单，让我再加一点图片的动态显示效果，怎么弄啊，求指点

2014-05-09 09:47:52

基于WEB的分布式在线程序自动评测系统的设计与实现

模型将评测任务分发到评测服务器集群中的各个服务器上,显著提高了评测效率。文章将阐述基于WEB的分布式在线程序自动评测系统的设计与实现过程。【关键词】：在线评测系统;;分布式系统;;计算机辅助教学

2010-04-24 10:00:46

如何评测一款移动电源

请教一下大家怎么才能判别一款移动电源的性能的好坏呢。大概要从哪些方面去评测？？

2012-12-18 15:14:23

如何使用Paddle2ONNX模型转换工具将飞桨模型转换为ONNX模型？

2021-12-29 07:42:18

如何利用准则实现校准图像质量评测？

2021-06-02 06:25:52

如何找到RIO的确切模型?

（模拟我应该从IBIS文件中的模型分配的模型中的RIO PIN），因为IBIS文件中的名称是SSTL135_DCI_HP_IN60_I，这样如何找到RIO的确切模型问候阿吉辛

2020-07-23 07:41:46

将Pytorch模型转换为DeepViewRT模型时出错怎么解决？

我正在寻求您的帮助以解决以下问题.. 我在 Windows 10 上安装了 eIQ Toolkit 1.7.3，我想将我的 Pytorch 模型转换为 DeepViewRT (.rtm) 模型，这样

2023-06-09 06:42:58

已结束-【书籍评测活动NO.17】从编程到应用——从零开始学ARM

活动原贴：https://www.elecfans.com/d/2164310.html 本期评测活动名单如下：jf_83406285KingBoy2016jf_12114301风语者199104luo865306226 管理员已通过私信联系以上评测者，请评测者于5个工作日内添加管理员微信进行登录，逾期视为自动放弃

2023-08-21 14:02:27

开箱图赏与评测---易行丁丁行车记录仪

`图赏与评测开箱图赏与评测 n易行丁丁采用纯白色作为包装盒的主色调，侧面使用银白色显示行车记录仪的主要功能。n开箱，易行丁丁行车记录仪上面有一层塑料包裹，清楚的标明了SIM卡槽、支架接口、电源接口

2016-04-12 22:01:21

怎样去评测一款RISC-V开发板

很长时间没发过板卡评测的文章了，今天我们来评测沁恒的一款RISC-V开发板。提到沁恒这个名字，可能有些朋友感到陌生，但是有一款芯片你肯定知道，那就是CH340——一款USB-TTL串口的转...

2021-12-08 06:08:36

报道一下，E币要怎么弄？

报道一下，E币要怎么弄？

2012-09-06 15:56:24

有关温度测量——做了“真”的，假的那个怎么弄

求助，“假”的那面应该怎么弄求大神提下思路是有关温度测量的

2012-12-18 15:48:08

求助！labview DAQ 怎么弄？

如题我是新手用的是LABVIEW2011那个DAQ 在哪里？ 怎么弄呢？请各位大侠指导指导

2012-08-22 22:45:50

灵犀云智能语音平台的语音评测SDK使用方法

` 灵犀云是中国移动与科大讯飞合作建立的一个为移动应用提供智能语音能力的云平台。近日灵犀云正式对外发布了语音评测能力，各位可以申请灵犀云的SDK，集成到自己APP上实现语音评测功能。这篇指南主要

2015-08-20 10:57:08

爱图仕评测

2016-01-29 16:17:45

用555实现模模转换，怎么弄？？？

用555实现模模转换，怎么弄？？？

2015-08-18 10:38:53

电子大赛怎么弄

电子大赛怎么弄

2013-07-14 17:53:15

至芯科技FPGA入门级开发板评测活动，送开发板

至芯科技FPGA入门级开发板评测活动，送开发板欢迎大家参与，参与地址:至芯科技论坛百度搜索至芯科技论坛，进入论坛顶置帖子即可看到此活动。欢迎大家参与。

2014-03-31 22:36:22

蓝屏这情况怎么弄？

这情况怎么弄啊啊啊

2022-10-22 08:20:43

蓝牙控制的手机APP怎么弄？

蓝牙控制的手机APP怎么弄

2023-10-23 07:19:17

蓝牙模块可以一机多连吗？怎么弄？

蓝牙模块可以一机多连吗？怎么弄？

2023-11-06 06:52:34

请教下labview内计时怎么弄？

做一个程序是这样的：当点运行后开始计时，并把计时的时间进行运算。比如说功率是100W，运行后开始计时，并实时返回用电量（时间*功率）。只要秒就行。请问这种计时功能怎么弄

2012-04-11 21:38:12

请问51蓝牙小车程序怎么弄？

自己做蓝牙小车，程序写好，蓝牙连上，就是不动，也不懂哪里出现问题，求大神们能告诉我怎么做和程序怎么弄

2019-06-03 03:00:17

请问模型编译中是否支持模型的在线编译？

模型编译中是否支持模型的在线编译？

2023-09-18 07:24:28

请问ADAS实际道路在线评测系统需要采集什么数据？

ADAS实际道路在线评测系统需要采集什么数据？

2024-02-01 06:01:22

请问Allegro图中出现这样的情况该怎么弄？

我的这个问题，怎么弄？这个回流地过孔，连不上，断开一截

2019-09-05 05:37:08

请问LWIP DHCP应该怎么弄才不small？

如图，Cannot use this netif with DHCP: MTU is too small，是什么意思，应该怎么弄才不small

2019-10-15 23:03:58

请问stm32f412怎么弄微妙us的延时函数？

用sysclk吗？怎么弄呢？我找到了正点原子的f429 HAL例程，好像时间不对，我弄1秒，实际大约1.5秒。应该怎么弄才对呢？我用stm32CUBE生成的代码，晶振默认用外部16M晶振，SYSCLK是16M。下面是他的2个函数，只用这2个就够吗？需要添加或者修改别的吗？

2018-12-04 08:58:18

请问扭矩模式和限制速度怎么弄？

本帖最后由一只耳朵怪于 2018-6-14 11:50 编辑扭矩模式，限制速度，怎么弄？

2018-06-14 03:29:13

请问点击文件后URL怎么弄的？

论坛里有很多让人下载东西的帖子，我也想分享，可是点击文件后URL怎么弄的？

2019-06-21 02:14:58

这个输出结点要怎么弄啊？

这个输出结点要怎么弄啊？

2014-03-14 12:27:42

选型好参谋采购好助手 ——华强LED网产品评测隆重上线

` 本帖最后由 eehome 于 2013-1-5 10:07 编辑　　“石破天惊处，媒体最强音”　　LED产品评测，一种神奇的模式!它既可以帮助采购人员全面了解每个产品的特点及性能，按需

2012-10-15 16:18:06

防止AI大模型被黑客病毒入侵控制（原创）聆思大模型AI开发套件评测4

在设计防止AI大模型被黑客病毒入侵时，需要考虑到复杂的加密和解密算法以及模型的实现细节，首先需要了解模型的结构和实现细节。以下是我使用Python和TensorFlow 2.x实现深度学习模型

2024-03-19 11:18:16

基于模型的动态测试工具TPT

基于模型的动态测试工具TPTTPT特性PikeTec公司是全球知名的基于模型的嵌入式系统测试工具TPT的软件供应商，总部位于德国柏林，其创始人均在戴姆勒公司拥有十多年的软件测试经验。TPT作为针对

2022-07-25 15:35:26

3D打印高性能材料模型树脂 RE 51 高耐磨高精度无气泡快速打印

3D打印高性能材料模型树脂 RE 51 RE 51 模型树脂RE 51是一款可快速打印的模型树脂材料，具有高精度的材料特性，可使打印模型具有光洁、精细的纹理表面

2023-02-15 14:50:30

无线充电器评测_无线快充评测_车载无线充电器评测

无线充电器评测，以电小二W7100型号无线充电器评测，以三星立式无线快充进行评测，Raphon车载无线充电器评测。

2017-08-24 17:17:57

10297

云计算弹性评测模型的研究与实现

问题，从资源分配、QoS、资源配置时间等多个角度，对云计算的弹性进行较为全面的分析，提出适用于供应商和用户两个角度的评测方法。在已有基础上，提出资源分配、资源配置时间两个方面的计算模型，并对现存的罚金模型进行改进

2017-11-27 14:42:39

魅族PRO7Plus评测低价救不了手机

按照行业惯例，手机评测一般是先介绍外观。但其实我不太想介绍外观，因为在其他媒体的评测各位都应该看过很多。

2018-11-14 11:43:22

21827

插座还能这么玩！公牛迷你USB插座评测_公牛电源插座评测-泡泡网

插座还能这么玩！公牛迷你USB插座评测_公牛电源插座评测-泡泡网插座还能这么玩！公牛迷你USB插座评测_公牛电源插座评测-泡泡网 posted on 2016...

2022-01-06 14:33:00

特斯拉FSD自动驾驶系统在评测中多次撞上假人模型

北京时间8月10日早间消息，根据本周公布的一项非监管评测结果，特斯拉的FSD自动驾驶系统在评测中多次撞上一个儿童大小的人体模型。这项测试由Green Hills Software首席执行官、知名

2022-08-11 08:51:46

710

OpenMMLab 各算法库的评测指标集成

MMEngine 提供了强大灵活的训练引擎，以及常见的训练技术，以满足用户多样的模型训练需求。对于模型评测的需求，MMEngine 也提供了评测指标（Metric）和评测器（Evaluator）模块，下游算法库基于 MMEngine 提供的评测指标基类，实现对应任务所需的评测指标。

2022-11-03 10:16:58

561

FlagOpen大模型技术开源体系，开启大模型时代“新Linux”生态

当时规模最大、性能领先多模态大模型“悟道2.0”。为了推动大模型方向的协同创新，在“科技创新2030”新一代人工智能重大科技项目支持下，2023年初，智源研究院联合30多家产学研单位共同承担的旗舰项目“人工智能基础模型支撑平台与评测技术”全面启动。

2023-03-01 15:10:07

503

国内大模型争霸赛，你最看好哪家？

而最近，中文通用大模型基准（SuperCLUE）评测公布了最新结果，GPT-4 遥遥领先，而国内成绩最好的是科大讯飞的星火认知大模型。这里面文心一言居然排在了最后一名，甚至比ChatGLM-6B的得分还低，实在难以置信。

2023-05-19 16:55:18

3504

悟道·天鹰 Aquila + 天秤 FlagEval，打造大模型能力与评测标准双标杆

为推动大模型在产业落地和技术创新，智源研究院发布“开源商用许可语言大模型系列+开放评测平台” 2 大重磅成果，打造“大模型进化流水线”，持续迭代、持续开源开放。 01 悟道·天鹰（Aquila

2023-06-27 16:37:27

244

AI大模型和小模型是什么？AI大模型和小模型的区别

　　随着人工智能的不断发展和应用，机器学习模型的大小越来越成为一个重要的问题。在机器学习中，我们通常将模型分为两类：大模型和小模型。本文将介绍AI大模型和小模型是什么，并分析它们各自的优缺点以及区别。

2023-08-08 16:55:33

4555

讯飞星火被评为中国“最聪明”的大模型

报告显示，在8个一级大类的600道题目的测试和盲评中，讯飞星火认知大模型V2.0在6个大类中得分率排名第一，在此次评测中表现突出，以 81.5 分（百分制计）的成绩在本次评测中登顶，荣获“最聪明”的国产大模型称号。

2023-08-18 15:26:23

521

大语言模型“书生·浦语”多项专业评测拔头筹

大语言模型评测8月排行榜和中文通用大模型综合性评测基准SuperCLUE 7月评测榜两项业内权威大模型评测榜单中获得优异成绩。 “ FlagEval是知名人工智能新型研发机构北京智源人工智能研究院推出的大模型评测体系及开放平台。 FlagEval大模型评测体系构建了“能力-任务

2023-08-25 13:00:02

315

第一！vivo自研AI大模型位列C-Eval、CMMLU榜首

C-Eval榜单是由清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集，涵盖52个不同学科，共有13948道多项选择题，是目前较为权威的中文AI大模型评测榜单。

2023-10-16 15:51:01

405

“商汤商量”大模型推动行研数字化进程

权威研究机构弗若斯特沙利文（Frost & Sullivan）联合头豹研究院最新发布的《2023年中国大模型行研能力评测报告》给出评价结论。

2024-01-10 10:08:03

216

百川智能发布超千亿大模型Baichuan 3

百川智能近日发布了超千亿参数的大语言模型Baichuan 3，引发了业界的广泛关注。这款模型在多个权威通用能力评测中表现卓越，展现了其强大的语义理解和生成能力。

2024-01-31 14:58:12

357

大模型开源开放评测体系司南正式发布

近日，大模型开源开放评测体系司南（OpenCompass2.0）正式发布，旨在为大语言模型、多模态模型等各类模型提供一站式评测服务。OpenCompass2.0的发布，将为模型技术创新提供重要的技术支撑。

2024-02-05 11:28:12

526

华为云盘古大模型通过金融大模型标准符合性验证

近日，在中国信通院组织的可信AI大模型标准符合性验证中，华为云的盘古大模型表现出色，成功通过了金融大模型标准的符合性验证，并荣获优秀级（4+级）评分。此评级不仅是本次金融大模型评测中各厂商中的最高等级，也标志着华为云盘古大模型成为首批通过金融大模型标准符合性验证的产品之一。

2024-03-05 10:12:55

146

已全部加载完成

搜索历史

大模型评测难度大吗 大模型的评测应该怎么弄？

评论

大模型评测难度大吗大模型的评测应该怎么弄？