被OpenAI带火的Agent如何解放人力？-电子发烧友网

近日，面壁智能联合清华自然语言处理实验室等机构的研究人员共同发布了新一代流程自动化范式 Agentic Process Automation，该范式不仅实现了工作流构建的自动化，更在工作流执行时引入了动态决策的自动化。这一创新将为未来自动化领域带来更高层次的效率和灵活性，将人类从繁重的劳动中解放出来。

在历史的长河中，自动化是人类技术发展的主要动力，帮助人类从复杂、危险、繁琐的劳动环境中解放出来。自早期农业时代的水车灌溉，到工业时代的蒸汽机，人类一直在不断寻求更加先进的自动化技术，从而解放自身于繁重的工作。

随着信息时代的到来，软件作为信息处理、存储和通信的基础成为了人类生产生活密不可分的一环，从而催成了机器人流程自动化（Robotic Process Automation, RPA）技术。其通过人工编制规则将多个软件协调成一个固化的工作流（Workflow），通过模拟人交互的方式来和软件交互实现高效执行。

▲图1. 机器人流程自动化 RPA 与智能体流程自动化 APA 对比

RPA 利用软件机器人或称为 “BOT” 来模拟和执行重复性、规则性的任务，从而解放人力资源，提高工作效率。RPA 的应用范围非常广泛。很多企业（包括银行、保险公司、制造业、零售业等各个行业）常利用 RPA 机器人来自动执行一些常规和繁琐的任务，例如：数据录入、数据提取、数据处理。通过自动化任务，RPA 可以大幅度减少错误率，并且能够在 24*7 不间断地执行任务，从而提高了业务的可靠性和响应能力。根据市场研究，RPA 市场正在迅速增长并取得巨大成功。Gartner 预测，2023 年全球 RPA 市场收入将达到 33 亿美元，相比 2022 年增长 17.5%。这表明了企业对于 RPA 的强烈需求和认可。

但是，RPA 仅能替代简单、机械的人力工作，一些复杂的流程仍旧依赖人工：

1. 编写 RPA 工作流本身需要繁重的人类劳动，成本较高。

2. 复杂任务非常灵活，通常涉及动态决策，难以固化为规则进行表示。

▲图2. RPA 与 APA 的效率与智能对比

幸运的是，最近 AI 领域兴起的大模型智能体技术（Large Language Model based Agents, LLM-based Agents）也许给自动化技术创造了新的可能性。有没有可能将 Agent 技术的灵活性引入到 RPA 领域中，来进一步减少人的参与呢？

该团队的研究探讨了大模型智能体时代下新型自动化范式 “智能体流程自动化” Agentic Process Automation (APA)。和传统 RPA 相比，在 APA 范式中，Agent 可以根据人类的需求自主完成工作流构建，同时其可以识别人类需求中需要动态决策的部分，将自动编排进工作流中，并在工作流执行到该部分时主动接管工作流的执行完成相应复杂决策。

为了探索 APA 的可能性，该研究工作实现了一个自动化智能体 ProAgent，其可以接收人类指令，以生成代码的方式构建工作流，同在工作流中引入 DataAgent 和 ControlAgent 来在工作流中实现复杂数据处理与逻辑控制。ProAgent 的研究展现了 APA 在大模型智能体时代下的可行性，也揭示了 LLM 时代下，自动化技术的崭新可能性。

方法介绍

在 RPA 中，工作流是由一系列工具调用组成的图状结构：节点代表一个原子化的工具调用（如 Gmail、Twitter、Google Sheets），而边代表了执行的逻辑顺序（承接、分支、循环）。一个工作流往往包含了对于一个或一类任务的所有先验知识，其中包含解决问题的路径，遇到异常时的处理逻辑等等。因此人编写固化出来的工作流往往是非常稳定周全、非常高效的。

▲图3. 智能体工作流描述语言示例

在 ProAgent 中，由于 LLM 本身在代码数据中进行预训练，学习到了较强代码能力，该研究便基于代码的智能体工作流描述语言 Agentic Workflow Description Language。该语言使用 JSON 实现对工作流中数据的组织与管理，选择 Python 语法实现对工作流的逻辑控制，将控制流中的跳转、循环等直接通过 Python 语法进行表征，同时将工作流中的工具调用封装为 Python Function。

于是对于 ProAgent，工作流构建任务便转化为代码生成任务。当接收到人类指令时，ProAgent 便编写相应的 Agentic Workflow Description Language，从而实现了工作流自动化构建。

▲图4. 结合 DataAgent 和 ControlAgent 的智能体工作流描述语言示例

复杂的现实任务中通常会涉及动态决策，单纯的 Python 式的逻辑控制规则以及 JSON 式的数据组织形式在面对灵活的需求时便无能为力，此时便需要引入 agent。因此，该研究工作进一步定义出了两种 Agent 操作：

1. DataAgent：对于一个复杂的数据处理需求，工作流构建时会使用自然语言来描述处理的任务，然后在执行时会初始化一个 DataAgent，其会基于该自然语言描述自主处理并完成该数据处理任务。

2. ControlAgent：对于难以用规则表示的逻辑控制规则，工作流构建时使用自然语言对控制逻辑进行描述，然后在运行时会初始化一个 ControlAgent，其会基于该自然语言描述自主选择工作流后续需要执行的分支。

ProAgent 使用 ReACT 模式逐步构建工作流，其共包含四个工作流构建步骤：

1. Action_Define：决定在工作流中添加什么工具。

2. Action Implement：将工具的输入 / 输出参数转化为 JSON 结构，同时将工具的调用封装为 Python 函数。

3. Workflow Implement：定义一个 mainWorkflow 函数，用以组织整个 workflow 的逻辑控制与数据处理。

4. Task Submit: 当 ProAgent 构建完 workflow 时以该操作标识构建过程结束。

▲图5. ProAgent 工作流构建过程示例

另外，为了优化 ProAgent 的效果，又引入了几个优化技巧：

1. Testing-on-Constructing：在构建过程中，ProAgent 会在一次修改工作流之后对工作流进行测试，以保证工作流的正确性。

2. Function Calling：工作流构建的所有操作均封装为了 GPT-4 的 Function，从而提高对工作流构建过程的控制。

3. Chain-of-Thought：ProAgent 在编写工作流代码时，需要对于每个 function 都要给出注释 comment 和一个编写 plan，从而提高 ProAgent 工作流构建的性能。

工作流执行过程基于 Python interpreter。给定一个工作流，其对应的 mainWorkflow 函数用作为工作流执行的入口来开始整个执行过程。执行过程遵循 Python 代码执行规则，即按照顺序逐行执行。一旦 mainWorkflow 函数返回，工作流执行就成功完成了。

可行性验证

为了验证 Agentic Process Automation 的可行性，该研究使用 OpenAI GPT-4 作为基础模型，并以一个开源的 RPA 平台 n8n 作为载体，实现了上述的 ProAgent。同时设计了一个需要兼顾灵活与效率的任务：这是一个典型的商业场景，需要从 Google Sheets 中提取各种业务线的营利数据，同时根据业务是否属于 2B 或是 2C，决定后续的行为。

一旦确定业务线为 2C，就会向 Slack 频道发送一条消息。而对于 2B 的业务线，则会向相应的经理发送一封电子邮件，其中包括对业务线的评估和简要的盈利概况。

▲图6. 任务 Instruction 展示

对于该任务，首先它是一个重复性的任务，对于多条产品线，应该走相同的处理流程。其次，分辨一个业务线是 2C 还是 2B 很难通过规则判断，需要涉及 Agent 动态决策来判断后续的工作流执行操作。最后，根据撰写业务线的评估邮件需要一定的智能，所以需要 Agent 的介入。

在 ProAgent 生成中，对于该任务，编写出了一个包含四个原子操作，一个 DataAgent 和一个 ControlAgent 的工作流。总体过程大致如下图所示：

▲图7. ProAgent 工作流构建过程展示

可以看到，ProAgent 通过自主编写代码的方式，自动完成了工作流的构建过程，其中无需涉及人工介入。在需要判断业务线是 2B 还是 2C 时，ProAgent 引入了 ControlAgent 来做判断，ControlAgent 的 Prompt 被设置为 “Decide Whether the business line is toC or toB”。

当业务线为 2B 时，ProAgent 还引入了一个 DataAgent，其任务设置为 “Write a email of the business line of profit, together with your suggestion”，从而利用 agent 的智能来根据不同业务线的实际情况来撰写邮件。

在工作流被编写、固化下来以后，工作流就会根据不同的数据自动分支到不同的逻辑进行高效地数据处理了。

▲图8. ProAgent 工作流执行过程展示

在处理 2C 业务线数据时，ControlAgent 可以根据业务线描述判断出当前业务线的类型，选择调用 Slack 工具。当遇到 2B 业务线数据时，DataAgent 可以撰写邮件发到相应经理的邮箱中。

总结

该研究提出了大模型时代下新的自动化范式 ——Agentic Process Automation，和传统 Robotic Process Automation 技术相比，其可以实现工作流构建的自动化，以及工作流执行时动态决策的自动化。该研究进一步实现了 ProAgent 并通过实验揭示了大模型智能体在自动化中的可行性与潜力。相信未来大模型智能体技术会帮助人类实现更高层次的自动化，将人类从各种繁重的劳动中解放出来。

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器人

机器人

+关注

关注
211

文章
28455

浏览量
207268
python

python

+关注

关注
56

文章
4797

浏览量
84740
JSON

JSON

+关注

关注
0

文章
118

浏览量
6977
OpenAI

OpenAI

+关注

关注
9

文章
1095

浏览量
6551
LLM

LLM

+关注

关注
0

文章
289

浏览量
351

原文标题：被OpenAI带火的Agent如何解放人力？清华NLP实验室发布流程自动化新范式

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

中软国际Al Agent专题调研活动圆满收官

近日，来自国内多家知名机构的40多位投资人、分析师齐聚中软国际解放号总部基地，开展业务专题调研活动。本次活动主要聚焦中软国际AI Agent业务的发展状况和未来战略规划。中软国际副董事长何宁博士，中

发表于 12-17 09:21 •349次阅读

OpenAI世界最贵大模型：昂贵背后的技术突破

2023年“双十二”的第一天，OpenAI推出了其最强推理模型o1的满血版及其Pro版本。同时，ChatGPT也推出了每月200美元的Pro订阅计划，这一价格使其一跃成为“世界最贵的大模型”。下面，AI部落小编带您深入了解OpenAI

发表于 12-06 14:46 •413次阅读

OpenAI未来3周举行12场新品发布会我们能期待些什么？ #OpenAI #人工智能 #AI

OpenAI

jf_15747056
发布于 :2024年12月05日 18:07:51

无人机光伏巡检系统解放人力新时代

无人机光伏巡检系统解放人力新时代全球光伏发电的持续增长趋势近年来愈发明显。随着环境保护意识的增强和可再生能源技术的进步，光伏发电已经成为许多国家和地区能源结构的重要

发表于 11-07 16:27 •211次阅读

微软Dynamics365集成10大自主AI Agent，引领智能自动化新时代

完成客服、销售、财务、仓储等多项业务，显著提升工作效率。据了解，这些AI Agent采用了OpenAI最新的o1模型，其卓越的智能水平和学习能力确保了它们能够自动执行跨平台的超复杂业务。在实际应用中，这些AI Agent将大大

发表于 10-23 11:25 •367次阅读

开关电源自动化测试设备：如何实现自动化测试？

开关电源自动化测试设备是将测试软件和测试硬件集成在一个电源测试柜中的ate自动测试设备，其测试原理是通过计算机操控测试仪器，从而减少人工干预，完成开关电源的自动化测试，旨在解放人力，提高测试效率，让测试更便捷。

发表于 08-30 18:19 •1308次阅读

如何解决ChatGPT Plus信用卡支付被拒及充值步骤详解

如何解决ChatGPT Plus信用卡支付被拒绝的问题在尝试使用信用卡支付ChatGPT Plus服务时，如果支付被拒绝，可能是由于以下几个核心原因：账户余额不足、网络环境问题、账户被

发表于 08-07 16:22 •1833次阅读

OpenAI 深夜抛出王炸 “ChatGPT- 4o”， “她” 来了

当地时间5月13日OpenAI推出ChatGPT-4o，代表了人工智能向前迈出的一大步。在GPT-4turbo的强大基础上，这种迭代拥有显著的改进。在发布会的演示中，OpenAI展示该模型的高级

发表于 05-27 15:43

电源测试系统如何解决电源模块测试痛点？

电源模块测试系统采取B/S结构，通过软件程控仪器，实现自动化测试，解放人力。自动化测试将测试程序简单化，无需频繁手动调整仪器，通过仪器指令便可程控。此外，系统采取无代码开发模式，拖拽指令便可15分钟快速搭建项目，测试效率大大提高。

发表于 03-26 16:47 •395次阅读

如何解决蓝牙协议栈被锁问题?

如何解决蓝牙协议栈被锁问题

发表于 03-21 08:21

微软推出首个专为Windows定制的Agent

随着人工智能技术的飞速发展，全球科技巨头纷纷在这一领域布局。OpenAI以其强大的技术实力在视频领域掀起了一场革命，而微软则悄然对传统用户界面发起了挑战。近日，微软最新发布了一款名为UFO（UI-Focused Agent）的Agent

发表于 02-19 11:41 •848次阅读

微软发布Agent框架UFO，引领UI交互新纪元

微软近日宣布推出全新的Agent框架——UFO（UI-Focused Agent），旨在构建更智能、更直观的用户界面交互体验。该框架基于OpenAI的GPT-4V图像识别模型开发，专为Windows操作系统上的应用程序设计，能够

发表于 02-19 11:15 •1210次阅读

新火种AI|这家“中国OpenAI”，能赶超OpenAI吗？

全面对标OpenAI，智谱AI能成为“中国的OpenAI”吗？

发表于 01-18 17:56 •656次阅读

检测电源管理芯片电压调整率的常见方法

ATECLOUD电源管理芯片测试系统助力客户解放人力，实现高效、快速的自动化测试。系统采取B/S架构，支持互联网和局域网，实现随时随地测试。用该系统测试电源芯片的电压调整率，可以快速、准确测试，分析测试结果。

发表于 01-12 15:58 •550次阅读

AI Agent爆发在即！深剖AI Agent技术原理及发展趋势

电子发烧友网报道（文/李弯弯）AI Agent指人工智能代理，是一种能够感知环境、进行决策和执行动作的智能实体。AI Agent通常基于机器学习和人工智能技术，具备自主性和自适应性，在特定任务或领域

发表于 01-12 01:01 •3991次阅读