把ChatGPT塞进副驾驶！清华、中科院、MIT联合提出Co-Pilot人机交互框架-电子发烧友网

作为本年度人工智能领域最重要的突破之一，大语言模型相关研究始终是各大相关领域的关注焦点。

近日，来自清华大学、中国科学院、MIT的科研人员对于大语言模型在人机交互领域中的应用进行了研究，设计了一种名为Co-Pilot的人机交互框架，使用提示引导ChatGPT（gpt3.5）在考虑人主观意图的同时完成简单的自动驾驶任务。

论文标题：

ChatGPT as Your Vehicle Co-Pilot: An Initial Attempt

论文链接：

https://www.researchgate.net/publication/374800815_ChatGPT_as_Your_Vehicle_Co-Pilot_An_Initial_Attempt

该研究作为最早一批使用原生语言大模型直接介入自动驾驶任务的尝试，揭示了大语言模型在自动驾驶领域进一步深入应用的可能性，也为后续相关研究指明了方向 [1]。

研究背景：为什么使用大语言模型？

人车交互作为智能汽车发展的重要功能之一，对降低司机驾驶负担、提升乘客出行体验有很大帮助，相关功能也成为了消费者在选择时的重要标准。尽管现有人机交互系统已经可以实现语音识别、指令执行等功能，但大多数情况下系统仅能根据既定指令的训练在有限范围内给出回答或响应，存在一定的局限性。相比之下，大语言模型在此类能力上具有更好的表现： 1. 可以理解人的意图：大语言模型具有推理能力，其可以从文字中理解说话者的真正意图，并给出相应的回应； 2. 拥有常识：得益于大量的训练数据中包含的知识，大预言模型具有一定的常识，并掌握许多特定领域的基础知识与能力； 3. 对于不同任务的高度适应性：通过调整提示词，大语言模型对于不同任务具有很好的适应性，可快速适配不同种类的任务，极大提升了应用与落地的效率。基于此，大语言模型为解决人机共驾问题提供了一种新的思路。为了探索大语言模型在自动驾驶人机交互领域的应用，研究人员提出了「Co-Pilot」架构，用于实现乘客、大语言模型以及车辆之间的交互。为了验证方案的可行性，研究人员设计了两个不同种类的任务对其进行测试，实验效果达到了预期。

Co-Pilot：架构与核心 Co-Pilot架构如下图所示：

Co-Pilot主体机构包含了以下模块：

1. 编码器：将必要的信息组成提示，通过专用API发送至大语言模型。

2. LLM：大语言模型，本工作使用ChatGPT（GPT3.5-turbo-0301）。

3. 解码器：将自然语言回应解析为指令或数据，用于车辆的交互与控制。

4. 保险机制：考虑到大语言模型作为概率模型的本质，现阶段难以杜绝其在回答中出错，故预留该保险机制防止存在明显错误的指令影响车辆运行。

5. 记忆机制：保存Co-Pilot完成任务所必须的数据及其他信息，作为输入的重要组成部分，可在工作过程中被实时更新。

Co-Pilot主要拥有两种工作流程：

1. 实现流程：Co-pilot依据不同任务完成一次工作周期的流程。

2. 调优流程：车辆专家依据不同任务调整记忆机制的前置优化流程。

记忆机制 本文按照人类认知心理学对大语言模型内部的知识储存进行模拟[2]，提出了记忆机制用来划分自动驾驶场景中可能涉及到的信息，旨在全面提升Co-Pilot信息利用效率。

专家主导的黑箱优化 该方法利用黑箱优化中在低维空间进行无梯度优化的思想，利用专家的主观标注来评估任务完成效果，从而更新记忆中的内容来增强提示词，使得LLM进行少样本学习。

仿真实验

为了验证Co-Pilot架构的可靠性，本文设计了两个任务，在以MATLAB/Simulink为基础的仿真平台中开展。 实验一：轨迹跟随控制器选择 在该实验中，假设有一辆自动控制的汽车在预设路径上行驶，研究人员给定Co-Pilot当前车辆状态、路段情况等信息，要求其选择最符合当前乘客意图（如保证速度、紧随轨迹、体验舒适）的运动控制器。运动控制器为已有预设模块，分别为NMPC控制器、Stanley + Preview控制器、PID控制器。

▲赛道总览

▲实验一的Co-Pilot具体结构

在调优环节中，研究人员分别对语义记忆与情景记忆进行了更新，其中语义记忆仅能提供对控制器的种类（A1）或定性描述（A2），而情景记忆可以提供对控制器在过去相似场景下的具体表现（A3）。赛道被分为五个区段，研究人员根据Co-Pilot是否在各区段选出了最符合当前乘客意图的控制器进行打分（每个区段最优1分，次优0.5分，最差0分，赛道总分最高为5分），分析不同记忆对于Co-Pilot表现的影响，研究人员在「精确跟踪」与「保持稳定」两种意图下分别测试，测试结果显示，A1仅取得3分，Co-Pilot在所有区段均选择了NMPC控制器。由于此时提供的信息有限，其只能根据训练中积攒的常识「NMPC的控制效果很好」做出判断。A2取得了7.5分，而A3取得了8.5分，证明情景记忆在相似任务中对Co-Pilot的推理最有帮助，使其可结合人类意图给出合理的反应。接着，研究人员使用了调优后的A3提示模式开展了更复杂的实验。在此实验中，五个区段的人类意图不再保持一致且引入了更口语化表达的新意图「刺激」。实验结果如下图所示，Co-Pilot在每个区段都能选出最符合乘客意图的控制器(由于控制器在切换时受到上一区段的车辆状态影响，导致被选控制器的效果与预期可能存在细微差异)。

实验二：双移线避障轨迹规划 在本实验中，研究人员将重点转移到规划类任务，向Co-Pilot描述当前路况，并要求其给出未来10s内的路径。

在调优环节中，研究人员更加侧重对于程序记忆的组织与优化，语义记忆与情景记忆中包含的信息基本不存在差异。在此的前提下，不同提示带来的显著结果差异更加值得深入探究。

▲四种提示的区别以及十次测试的平均得分情况（打分依据：合理性满分5分、完成度满分3分、正确性满分2分）

▲四种提示下的代表轨迹在使用B4提示的前提下，进一步引入不同种类的乘客意图，得到的代表性轨迹如下，可以看出在给出正确避让轨迹的基础上，Co-Pilot可以进一步调整轨迹使其符合乘客意图。

▲不同乘客意图的代表轨迹，均符合乘客意图

结果讨论 实验中我们可以注意到，提示中不同记忆的组合，对于LLM的表现有着显著影响。 1. LLM可根据常识以及记忆中包含的信息进行推理，在提供的信息不足以实现合理推断时，LLM可根据其训练中积累的经验做出决策； 3. 提示中的程序记忆在任务本身的描述上有时并不存在本质区别，但却对LLM的表现产生了很大影响。这些现象引出了后续可能值得研究的更多问题：类似交通等复杂场景应该如何高效描述以发挥LLM的优势？LLM内部实现推理/完成任务的机制究竟如何？这些问题与大模型乃至人工智能的可解释性、安全性等重要问题息息相关。

未来展望与挑战 Co-Pilot是一种创新的尝试，它将LLM应用于人机混合智能[3]。LLM大大提高了人机通信的效率，使人类和机器更好地理解彼此。人类专家对Co-Pilot进行调优的过程可以被视为系统的自适应学习。这使得深入的人机合作成为可能，并且在测试和调整人工智能系统方面具有巨大潜力。

▲LLM与现有平行学习架构[4]相结合，可进一步提升机器学习的效率

另一方面，正如本文实验中展示的，大语言模型通过海量数据训练得到的常识能在其工作中发挥重要作用。后续在此基础上，多模态混合大模型（如视觉+语言模态）能够进一步打通「感知-规划-执行」的流程，使得此类大模型可胜任自动驾驶、机器人等需要与现实世界交互的复杂任务[5]。当然，研究过程中涌现出的许多潜在挑战也值得关注：例如，怎样进一步提升LLM的性能？如何保证LLM表现得一致性、稳定性？在面对更复杂的动态场景时，如何保证LLM正确完成任务？

总结本工作提出了一种将大语言模型直接用于人机共驾任务的Co-Pilot架构，并设计对应实验初步证明了架构的可靠性以及大语言模型在自动驾驶类任务中的可适用性，讨论了相关领域研究的潜在机遇及挑战。该项工作已于近日发表于IEEE Transactions on Intelligent Vehicles，来自清华大学深圳国际研究生院的王诗漪以及来自清华大学自动化系的朱宇轩为本文共同第一作者，通讯作者为清华大学自动化系李力教授。其他合著者为清华大学李志恒副教授，中科院自动化研究所王雨桐助理研究员，以及麻省理工学院贺正冰高级研究员。

参考文献

[1] S. Wang, Y. Zhu, Z. Li, Y. Wang, L. Li, Zhengbing He, "ChatGPT as your vehicle Co-Pilot: An initial attempt," IEEE Transactions on Intelligent Vehicles, https://ieeexplore.ieee.org/document/10286969/[2] T. Sumers, S. Yao, K. Narasimhan, T. L. Griffiths, “Cognitive Architectures for Language Agents.” arXiv, Sep. 05, 2023. doi: 10.48550/arXiv.2309.02427.[3] L. Li, Y. Lin, Y. Wang, F.-Y. Wang, "Simulation driven AI: From artificial to actual and vice versa," IEEE Intelligent Systems, vol. 38, no. 1, pp. 3-8, 2023.[4] L. Li, Y.-L. Lin, N.-N. Zheng, F.-Y. Wang, "Parallel learning: A perspective and a framework," IEEE/CAA Journal of Automatica Sinica, vol. 4, no. 3, pp. 389-395, 2017.[5] D. Fu, X. Li, L. Wen, M. Dou, P. Cai, B. Shi, Y. Qiao, “Drive Like a Human: Rethinking Autonomous Driving with Large Language Models,” arXiv, Jul. 14, 2023,doi: 10.48550/arXiv.2307.07162.

原文标题：把ChatGPT塞进副驾驶！清华、中科院、MIT联合提出Co-Pilot人机交互框架

文章出处：【微信公众号：智能感知与物联网技术研究所】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

物联网

物联网

+关注

关注
2909

文章
44557

浏览量
372786

原文标题：把ChatGPT塞进副驾驶！清华、中科院、MIT联合提出Co-Pilot人机交互框架

文章出处：【微信号：tyutcsplab，微信公众号：智能感知与物联网技术研究所】欢迎添加关注！文章转载请注明出处。

芯海科技ForceTouch3.0：重塑人机交互新境界

在追求极致用户体验的智能时代，每一次技术的革新都是对未来的深度探索。芯海科技，作为业界领先的芯片设计企业，凭借其ForceTouch3.0技术，正引领着一场人机交互的变革，为智能手机、智能穿戴、家电乃至汽车电子等领域注入了全新的活力与可能。

发表于 11-28 09:20 •187次阅读

芯海科技ForceTouch3.0：重塑<b class='flag-5'>人机交互</b>新境界

新的人机交互入口？大模型加持、AI眼镜赛道开启百镜大战

电子发烧友网报道（文/莫婷婷）随着智能眼镜的出现，加之AI技术的应用，AI智能眼镜被认为是下一代人机交互的入口。在今年，不少品牌厂商都推出了AI智能眼镜新品，包括李未可推出的Meta Lens

发表于 11-21 00:57 •2753次阅读

新的<b class='flag-5'>人机交互</b>入口？大模型加持、AI眼镜赛道开启百镜大战

具身智能对人机交互的影响

在人工智能的发展历程中，人机交互一直是研究的核心领域之一。随着技术的进步，人机交互的方式也在不断演变。从最初的命令行界面，到图形用户界面，再到现在的自然语言处理和语音识别，每一次技术的突破都极大

发表于 10-27 09:58 •319次阅读

字节跳动与清华AIR成立联合研究中心

近日，清华大学智能产业研究院（AIR）与字节跳动共同宣布成立“可扩展大模型智能技术联合研究中心”（SIA Lab），并在清华大学举行了隆重的成立仪式。

发表于 10-12 15:24 •378次阅读

聚徽-工控一体机是如何实现人机交互的

工控一体机实现人机交互的方式是多种多样的，结合搜索结果，我们可以归纳出以下几种主要的实现方式：

发表于 09-10 09:31 •342次阅读

基于传感器的人机交互技术

基于传感器的人机交互技术是现代科技发展的重要领域之一，它极大地推动了人机交互的便捷性、自然性和智能性。本文将详细探讨基于传感器的人机交互技术，包括其基本原理、关键技术、应用领域以及未来发展趋势。

发表于 07-17 16:52 •781次阅读

人机界面交互方式的介绍

人机界面（Human-Computer Interaction, HCI）是研究人与计算机之间交互方式的学科。随着计算机技术的发展，人机交互方式也在不断地演变和创新。以下是对各种人机交互

发表于 07-01 14:22 •804次阅读

人机交互界面是什么_人机交互界面的功能

人机交互界面（Human-Computer Interaction Interface，简称HCI或HMI），也被称为人机界面（MMI）、操作员界面终端（OIT）、本地操作员界面（LOI）或操作员

发表于 06-22 11:03 •2460次阅读

工业平板电脑在人机交互中的应用

工业平板电脑在人机交互（Human-Machine Interaction，HMI）中扮演着至关重要的角色，它们通过直观的界面和强大的计算能力，极大地提升了工业环境下的操作效率和用户体验。以下是工业平板电脑在人机交互中的具体应用：

发表于 06-18 12:00 •290次阅读

人机交互与人机界面的区别与联系

随着信息技术的飞速发展，人机交互（Human-Computer Interaction，HCI）已成为现代社会不可或缺的一部分。人机交互技术，作为实现人与计算机之间有效通信的桥梁，不仅改变了我们

发表于 06-07 15:29 •976次阅读

芯海科技“压容二合一SoC”系列芯片打造极致人机交互体验

5月7日晚，苹果春季新品发布特别活动推出全新升级的Apple Pencil Pro，持续深度布局压力触控人机交互领域。

发表于 05-11 10:00 •486次阅读

人机交互的三个阶段 人机交互的常用方式

机交互经历的三个阶段：命令行界面交互阶段、图形用户界面交互阶段、自然和谐的人机交互阶段。

发表于 03-13 17:25 •3028次阅读

人机交互系统的发展史及过程步骤

人机交互系统还包括用户界面（UI），它是用户与系统之间进行信息交流和控制活动的载体。用户界面可以是软件系统界面，通过显示器呈现系统信息，并接收来自用户的视觉、听觉等感官的输入。

发表于 03-11 17:15 •2346次阅读

龙芯中科与中科信息签订合作框架协议

1月24日，龙芯中科技术股份有限公司与中科院成都信息技术股份有限公司（以下简称“中科信息”）合作框架签约仪式在成都兴隆湖畔科学城园区举行。

发表于 01-26 11:44 •816次阅读

人机交互技术有哪几种 人机交互技术的发展趋势

人机交互技术是指人与计算机之间通过各种交互方式进行信息传递、操作和控制的技术。随着科技的进步，人机交互技术也在不断发展创新。以下将介绍人机交互技术的几种常见形式以及当前的发展趋势。一

发表于 01-22 17:47 •3591次阅读

搜索历史

把ChatGPT塞进副驾驶！清华、中科院、MIT联合提出Co-Pilot人机交互框架

评论

芯海科技ForceTouch3.0：重塑人机交互新境界

新的人机交互入口？大模型加持、AI眼镜赛道开启百镜大战

具身智能对人机交互的影响

字节跳动与清华AIR成立联合研究中心

聚徽-工控一体机是如何实现人机交互的

基于传感器的人机交互技术

人机界面交互方式的介绍

人机交互界面是什么_人机交互界面的功能

工业平板电脑在人机交互中的应用

人机交互与人机界面的区别与联系

芯海科技“压容二合一SoC”系列芯片打造极致人机交互体验

人机交互的三个阶段人机交互的常用方式

人机交互系统的发展史及过程步骤

龙芯中科与中科信息签订合作框架协议

人机交互技术有哪几种人机交互技术的发展趋势