2023年人工智能状态报告-电子发烧友网

去年年底开始和chatGPT聊天，生成测试用例、自动化脚本、代码等，这两天我用bing生成自己想要的海报，这比较直观地呈现了人工智能（AI）所发生的变化。

要全面了解AI发生的具体变化，值得好好阅读由Nathan Benaich等人完成的这份报告。

因为这么多内容，无法详细解读，自己根据需要，选择性地阅读相关内容。该报告的总结，给出了一些有价值的结论，供大家参考。

1. 研究（research）

1）GPT-4目前是无所不知的大师，无论是在经典基准测试还是在评估人类的考试中击败了所有其他LLM，验证了专有架构和通过人类反馈进行强化学习的强大力量。

2）人们开始努力用更小的模型、更好的数据集、更长的上下文来克隆或超越专有模型的性能。..由LLaMa-1/2提供支持，在人类生成的数据可能只能维持人工智能扩展趋势几年之后，这些努力可能变得更加紧迫。

3）目前尚不清楚人工生成的数据能够支撑AI扩展趋势的时间有多长（一些人估计到2025年LLMs将用尽数据），以及添加合成数据的影响。企业中的视频和数据可能是下一个问题。

4）LLMs和扩散模型继续推动现实世界的突破，尤其是在生命科学领域，在分子生物学和药物发现方面取得了有意义的进展。

5）多模态成为新的前沿，对各种类型的代理人的兴奋度大大增加。

6）被引用的AI论文的70%作者来自美国大学、研究机构。

2. 行业（industry）

1）计算力是新的石油，NVIDIA凭借其GPU在国家、初创企业、大型科技公司和研究人员中的巨大需求，成功进入了1万亿美元市值俱乐部。

2）出口管制限制了向中国的先进芯片销售，但主要芯片供应商NVIDIA、英特尔和AMD推出了无法受到出口管制限制的替代产品，开始大规模销售符合出口管制的芯片

3）在科技估值低迷的情况下，GenAI挽救了风险投资界。在ChatGPT的带领下，GenAI应用在图像、视频、编码、语音等方面取得了突破性进展，推动了180亿美元的风险投资和企业投资。

3. 政治（politics）

1）全球已经分为明确的监管阵营，但全球治理进展较慢。最大的AI实验室正在填补这一空白。

2）芯片战争仍在继续，美国正在动员其盟友参与芯片战争，加强对中国的贸易限制。

3）预计AI将影响选举和就业等一系列敏感领域，但我们尚未看到明显的影响。

4. 安全性（Safety）

1）安全辩论已经成为主流，引发了全球政府和监管机构的行动。然而，这股活动的浪潮掩盖了人工智能社区内的深刻分歧和全球治理方面的实质性进展不足，因为世界各国政府追求着相互冲突的方法。

2）许多高性能模型很容易被“越狱”。为了解决RLHF挑战，研究人员正在探索替代方案，例如自我对齐和基于人类偏好的预训练。

3）在评估最先进模型的过程中面临的挑战日益增加，标准LLM往往难以保持稳健性。随着能力的提升，评估SOTA模型变得越来越困难。仅凭直觉是不够的。

5. 并附上大家关心的几个领域

1）代码语言模型的现状

在编码能力方面，毫不意外的是GPT-4是领先者，其代码解释器、高级数据分析功能令用户惊叹不已。像WizardLM的WizardCoder-34B和Unnatural CodeLLaMa这样的开放替代品在编码基准测试中与ChatGPT持平，但它们在实际生产中的性能仍有待确定。

Unnatural CodeLLaMa和WizardCoder都不仅在大型预训练编码数据集上进行训练，还使用了适用于代码数据的额外LM生成的指令微调技术。Meta使用了他们的Unnatural Instructions，而WizardLM使用了他们的EvolInstruct。值得注意的是，CodeLLaMa的训练方式使模型能够进行补充填充，并且所有的CodeLLaMa模型都已发布，除了Unnatural CodeLLaMa。

在代码完成任务中的性能表现。它们对边缘推理的支持（例如，在Apple Silicon上的ggml）较小的代码语言模型（包括replit-code-v1-3b和StarCoder 3B）既具有低延迟又具有良好的代码完成能力，这促使了对隐私意识的替代品的开发，以应对GitHub Copilot。

2）机器人：从视觉-语言模型到低层次的机器人控制

From vision-language models to low-level robot control： RT-2、RoboCat

RoboCat是一个用于机器人操作的基础代理，可以在零样本或少样本（100-1000个示例）情况下适应新任务和新机器人。在各种平台上表现出令人印象深刻的实时性能。它是基于DeepMind的多模态、多任务和多体现Gato构建的。它使用了在各种视觉和控制数据集上训练、冻结VQ-GAN分词器。虽然Gato只预测动作，但RoboCat还额外预测未来的VQ-GAN标记。

在策略学习方面，论文只提到了行为克隆。RoboCat通过少量示范（通过远程操作）进行微调，并重新部署以生成给定任务的新数据，在后续训练迭代中自我改进。

RobotCat可以以令人印象深刻的速度（20Hz）在253个任务上操作36个具有不同动作规范的真实机器人，涉及134个真实物体。

机器人在竞技体育中已经取得胜利。Swift是一个自主系统，可以使用仅依靠机载传感器和计算，在与人类世界冠军的比赛中驾驶四旋翼无人机。它在与三位冠军的比赛中赢得了几场比赛，并创下了最快的时间纪录。

3）今天AIGC有太多的生成方式