AGIEval：准确考察基础模型类人能力的基准评估工具-电子发烧友网

对基础模型在处理人类任务时的一般能力做出准确评估，已经成为通用人工智能（AGI）开发和应用领域的一大重要问题。基于人工数据集的传统基准往往无法准确反映模型能力是否达到人类水平。

近日，微软的一个华人研究团队发布了一项新型基准测试 AGIEval，这项基准测试专门用于对基础模型的类人能力做准确考察（涵盖高考、法学入学考试、数学竞赛和律师资格考试等）。

该研究团队使用此项基准评估了当前最先进的多个基础模型，包括 GPT-4、ChatGPT 和 Text-Davinci-003 等。

令人印象深刻的是，GPT-4 在 SAT、LSAT 和数学竞赛中的表现均超过人类平均水平，在 SAT 数学测试中达成 95% 的准确率，在中国高考英语测试中准确率亦达到 92.5%，证明了当代基础模型的非凡性能。

与之对应，研究人员发现 GPT-4，在需要复杂推理或涉及特定领域知识的任务中表现尚不理想。

通过对模型能力（理解、知识、推理和计算等）的全面分析，有助于揭示这些模型的优势和局限性，为增强其通用能力的未来发展方向提供支持。通过测试涉及人类认知和决策能力的任务，AGIEval 能够对基础模型在现实场景中的性能做出更可靠、更有意义的评估。

测试中的全部数据、代码和模型输出均通过此 https URL（https://github.com/microsoft/AGIEval）发布。

AGIEval 项目介绍

AGIEval 是一项考察基础模型类人能力的基准测试，专门用于评估基础模型在人类认知和问题解决相关任务中表现出的一般能力。

该基准选取 20 种面向普通人类考生的官方、公开、高标准往常和资格考试，包括普通大学入学考试（中国高考和美国 SAT 考试）、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等等。

关于此基准的完整描述，请参阅论文《AGIEval：准确考察基础模型类人能力的基准评估工具》（https://arxiv.org/pdf/2304.06364.pdf）。

任务与数据

AGIEval v1.0 包含 20 项任务，具体为 2 项完形填空任务（高考数学）和 18 项多选题回答任务。在选择题部分，高物理和 JEC-QA 部分对应一个或多个正确答案，其余任务则仅有一个正确答案。

下表所示，为测试题目的完整列表。

可以在 data/v1 文件夹内下载到除 JEC-QA 以外的所有后处理数据。关于 JEC-QA 部分，请前往 JEC-QA 网站获取数据。

使用 JEC-QA 训练数据的前 1000 个实例作为测试集。所有数据集的数据格式如下：

{
    "passage": null,
    "question": "设集合 $A=\{x \mid x \geq 1\}, B=\{x \mid-1-1\}$",
        "(B)$\{x \mid x \geq 1\}$",
        "(C)$\{x \mid-1

	

	其中高考语言、高考英语、两科 logiqa、全部 LSAT 和 SAT 均可使用 passage 字段。多选任务的答案保存在 label 字段内。完形填空任务的答案保存在 answer 字段内。

	我们还在 data/v1/few_shot_prompts 文件中提供了小样本学习的提示词。

	基线系统

	我们在 AGIEval v1.0 上评估了基准系统的性能。基线系统基于以下模型：text-davinci-003、ChatGPT (gpt-3.5-turbo) 和 GPT-4。您可以按照以下步骤重现测试结果：

	1.在 openai_api.py 文件中填写您的 OpenAI API 密钥。

	2.运行 run_prediction.py 文件以获取结果。

	模型输出

	‍您可以在 Onedrive 链接（https://1drv.ms/u/s!Amt8n9AJEyxcg8YQKFm1rSEyV9GU_A?e=VEfJVS）中下载到基线系统的零样本、零样本思维链、少样本和少样本思维链输出。请注意，我们修复了 SAT-en 实例中的 52 处拼写错误，并将很快发布更新后的数据集输出。‍

	评估

	您可以运行 post_process_and_evaluation.py 文件来获取评估结果。

	引用

	如果您需要在研究中使用 AGIEval 数据集或代码，请引用论文：

	
@misc{zhong2023agieval,
      title={AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models},
      author={Wanjun Zhong and Ruixiang Cui and Yiduo Guo and Yaobo Liang and Shuai Lu and Yanlin Wang and Amin Saied and Weizhu Chen and Nan Duan},
      year={2023},
      eprint={2304.06364},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

	

	在使用时，请务必在您的论文中引用所有独立数据集。我们提供以下引用信息：

	

@inproceedings{ling-etal-2017-program,
    title = "Program Induction by Rationale Generation: Learning to Solve and Explain Algebraic Word Problems",
    author = "Ling, Wang  and
      Yogatama, Dani  and
      Dyer, Chris  and
      Blunsom, Phil",
    booktitle = "Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
    month = jul,
    year = "2017",
    address = "Vancouver, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/P17-1015",
    doi = "10.18653/v1/P17-1015",
    pages = "158--167",
    abstract = "Solving algebraic word problems requires executing a series of arithmetic operations{---}a program{---}to obtain a final answer. However, since programs can be arbitrarily complicated, inducing them directly from question-answer pairs is a formidable challenge. To make this task more feasible, we solve these problems by generating answer rationales, sequences of natural language and human-readable mathematical expressions that derive the final answer through a series of small steps. Although rationales do not explicitly specify programs, they provide a scaffolding for their structure via intermediate milestones. To evaluate our approach, we have created a new 100,000-sample dataset of questions, answers and rationales. Experimental results show that indirect supervision of program learning via answer rationales is a promising strategy for inducing arithmetic programs.",
}


@inproceedings{hendrycksmath2021,
  title={Measuring Mathematical Problem Solving With the MATH Dataset},
  author={Dan Hendrycks and Collin Burns and Saurav Kadavath and Akul Arora and Steven Basart and Eric Tang and Dawn Song and Jacob Steinhardt},
  journal={NeurIPS},
  year={2021}
}


@inproceedings{Liu2020LogiQAAC,
  title={LogiQA: A Challenge Dataset for Machine Reading Comprehension with Logical Reasoning},
  author={Jian Liu and Leyang Cui and Hanmeng Liu and Dandan Huang and Yile Wang and Yue Zhang},
  booktitle={International Joint Conference on Artificial Intelligence},
  year={2020}
}


@inproceedings{zhong2019jec,
  title={JEC-QA: A Legal-Domain Question Answering Dataset},
  author={Zhong, Haoxi and Xiao, Chaojun and Tu, Cunchao and Zhang, Tianyang and Liu, Zhiyuan and Sun, Maosong},
  booktitle={Proceedings of AAAI},
  year={2020},
}


@article{Wang2021FromLT,
  title={From LSAT: The Progress and Challenges of Complex Reasoning},
  author={Siyuan Wang and Zhongkun Liu and Wanjun Zhong and Ming Zhou and Zhongyu Wei and Zhumin Chen and Nan Duan},
  journal={IEEE/ACM Transactions on Audio, Speech, and Language Processing},
  year={2021},
  volume={30},
  pages={2201-2216}
}

	

	审核编辑 ：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1793

文章
47535

浏览量
239337
数据集

数据集

+关注

关注
4

文章
1208

浏览量
24763
ChatGPT

ChatGPT

+关注

关注
29

文章
1566

浏览量
7880

原文标题：AGIEval：准确考察基础模型类人能力的基准评估工具

文章出处：【微信号：AI前线，微信公众号：AI前线】欢迎添加关注！文章转载请注明出处。

两大AI模型性能提升登上国际榜单

，目前位列BFCLLeaderboard总榜单第一。据悉，榜单BFCLLeaderboard是由加州大学伯克利分校开发的评估LLM工具调用能力基准测试平台。作为目前大

发表于 01-16 12:01 •190次阅读

SPEC ML基准测试新增模算效率指标

和模算效率三大关键指标。作为此次更新的亮点之一，模算效率首次被纳入SPEC ML基准评测体系。这一指标的加入，旨在填补大模型计算效率评测基准领域的研究空白，为AI领域的发展提供更加全面、准确

发表于 01-15 14:28 •86次阅读

【「具身智能机器人系统」阅读体验】2.具身智能机器人大模型

、医疗、服务等领域的应用前景更加广阔，也使得人类能够更轻松地借助机器完成复杂工作。我深刻认识到，大模型技术正在从根本上改变我们对机器人能力的认知。它们不仅是一种技术工具，更是推动具身智

发表于 12-29 23:04

【「大模型启示录」阅读体验】如何在客服领域应用大模型

内为企业带来效益。在选择模型时，需要评估其性能表现。这包括模型的准确性、响应速度、对话流畅性、情感理解能力等方面。可以通过对比不同

发表于 12-17 16:53

阿里云开源Qwen2.5-Coder代码模型系列

Qwen2.5-Coder-32B-Instruct，在代码生成领域取得了显著成就。据官方介绍，该模型在EvalPlus等十多个主流的代码生成基准测试中，均刷新了开源模型的得分纪录，展现出了卓越的性能。更值得一提的是，Qwen2

发表于 11-14 11:28 •382次阅读

REF54精密电压基准评估模块

电子发烧友网站提供《REF54精密电压基准评估模块.pdf》资料免费下载

发表于 10-30 09:11 •0次下载

如何评估 ChatGPT 输出内容的准确性

评估 ChatGPT 输出内容的准确性是一个复杂的过程，因为它涉及到多个因素，包括但不限于数据的质量和多样性、模型的训练、上下文的理解、以及输出内容的逻辑一致性。以下是一些评估 Cha

发表于 10-25 17:48 •638次阅读

如何评估AI大模型的效果

评估AI大模型的效果是一个复杂且多维度的过程，涉及多个方面的考量。以下是一些关键的评估方法和步骤：一、基准测试（Benchmarking）使用标准数据集和任务来

发表于 10-23 15:21 •1315次阅读

【每天学点AI】人工智能大模型评估标准有哪些？

OpenAI新模型o1号称编程能力8倍杀GPT-4o，MMLU媲美人类专家，MMLU是什么？评估大模型的标准是什么？相信大家在阅读大模型相关

发表于 10-17 16:49 •484次阅读

怎么判断电源的最大负载能力？带载测试方式助您准确评估

带载能力指电源在其规定条件下，所能承受的最大负载能力。电源带载测试就是对电源模块的负载能力进行测试，评估电源在各负载条件下的输出稳定性和可靠性。带载测试是电源模块设计和生产过程中的重要

发表于 09-29 16:43 •989次阅读

NVIDIA文本嵌入模型NV-Embed的精度基准

NVIDIA 的最新嵌入模型 NV-Embed —— 以 69.32 的分数创下了嵌入准确率的新纪录海量文本嵌入基准测试（MTEB）涵盖 56 项嵌入任务。

发表于 08-23 16:54 •2026次阅读

Al大模型机器人

理解能力强大: AI大模型机器人可以理解和生成自然语言，能够进行复杂的对话和语言任务。它们能够识别语言中的语义、语境和情感，并据此作出适当的回应。广泛的知识储备: 这些模型基于大规模的

发表于 07-05 08:52

商汤小浣熊荣获中国信通院代码大模型能力评估“三好生”

近日，商汤小浣熊代码大模型在中国信通院“可信AI代码大模型评估”中，荣获4+级最高评级，成为国内首批通过该项评估的企业之一。

发表于 06-13 15:37 •484次阅读

【大语言模型：原理与工程实践】大语言模型的评测

的工具。通过这一框架，研究人员和使用者可以更准确地了解模型在实际应用中的表现，为后续的优化和产品化提供有力支持。针对语言理解类评测任务，特别是古文及谚语理解，我们深入

发表于 05-07 17:12

Aigtek：衡量基准电压源的技术指标有哪些

基准电压源在电子领域中扮演着至关重要的角色，它为各种应用提供了稳定、可靠的电压。为了确保电路的准确性和可靠性，工程师需要关注和评估基准电压源的技术指标。衡量

发表于 03-14 11:22 •612次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

AGIEval：准确考察基础模型类人能力的基准评估工具

评论

两大AI模型性能提升登上国际榜单

SPEC ML基准测试新增模算效率指标

【「具身智能机器人系统」阅读体验】2.具身智能机器人大模型

【「大模型启示录」阅读体验】如何在客服领域应用大模型

阿里云开源Qwen2.5-Coder代码模型系列

REF54精密电压基准评估模块

如何评估 ChatGPT 输出内容的准确性

如何评估AI大模型的效果

【每天学点AI】人工智能大模型评估标准有哪些？

怎么判断电源的最大负载能力？带载测试方式助您准确评估

NVIDIA文本嵌入模型NV-Embed的精度基准

Al大模型机器人

商汤小浣熊荣获中国信通院代码大模型能力评估“三好生”

【大语言模型：原理与工程实践】大语言模型的评测

Aigtek：衡量基准电压源的技术指标有哪些