Nature：为什么生成式AI要开源？-电子发烧友网

似乎每天都会有一个新的大型语言模型（LLM）诞生，其创造者和学术界也都会对其响应人类提示的非凡能力进行疯狂般的评论。它可以修复代码！它可以写一封推荐信！它能快速总结一篇文章！

我是一名正在使用和教授此类模型的政治和数据科学家，从我的角度来看，学者们需要对 LLM 持谨慎态度。最广受吹捧的 LLMs 是专有的和封闭的：由商业公司运营，不公开其基础模型，无法供他人独立检查或验证，研究人员和公众不知道这些模型是在哪些文件上训练的。

急于将此类人工智能（AI）模型纳入研究是一个问题。它们的使用威胁着来之不易的研究伦理学进展和结果的可重复性。

相反，研究人员需要通力合作，开发透明的、不依赖公司的开源 LLM。

诚然，专有模型很方便，“开箱即用”。但是，当务之急是投资于开源的 LLM，既要帮助建立它们，又要将它们用于研究。我很乐观地认为，它们将被广泛采用，就像开源统计软件一样，专有的统计程序在最初会很受欢迎，但如今社区大多使用的是 R 或 Python 等开源平台。

一个开源的 LLM，BLOOM，已于去年 7 月发布，其他建立开源 LLM 的努力也在进行中。这类项目很好，但我认为我们需要更多的合作，并汇集国际资源和专业知识。开源的 LLM 的资金通常不如大公司充足。而且，他们还需要在奔跑中站稳脚跟：这个领域的发展如此之快，以至于 LLM 的一个版本在几周或几个月内就变得过时了。加入这些努力的学者，越多越好。

而且，使用开源的 LLM 对可重复性至关重要。封闭式 LLM 的所有者可以在任何时候改变他们的产品或其训练数据——这可以改变科学研究的结果。

例如，一个研究小组可能会发表一篇论文，测试一个专有的 LLM 给出的建议是否能够帮助临床医生更有效地与病人沟通。如果另一个小组试图复制这项研究，他们不知道模型的基础训练数据是否相同，甚至该技术是否仍然得到支持。OpenAI 的 GPT-3 已经被 GPT-4 所取代，支持早期版本的 LLM 将不再是该公司的主要优先事项。

相比之下，对于开源的 LLM，研究人员可以查看模型的很多细节，以了解它是如何工作的，定制它的代码并标记错误。这些细节包括模型的可调整参数和它所训练的数据。社区的参与和监督有助于使这些模型长期保持稳定。

此外，在科学研究中使用专有的 LLM 对研究伦理也有令人不安的影响。用于训练这些模型的文本是未知的：它们可能包括社交媒体平台上用户之间的直接消息，或由在法律上无法同意共享其数据的儿童编写的内容。尽管制作公开文本的人们可能已经同意了平台的服务条款，但这也许不是研究人员希望看到的知情同意标准。

在我看来，科学家应尽可能在自己的工作中不再使用这些模型。我们应该转而使用开放的 LLM，并尽力推广它们。此外，学者们，尤其是那些拥有大量社交媒体粉丝的学者，不应该告诉他人使用专有模型。如果价格飙升，或者公司倒闭，研究人员可能会后悔推广了那些让同事被困在昂贵合同中的技术。

目前，研究人员可以求助于私人组织制作的开放式 LLM。例如，我和我的同事们正在使用 Meta 公司的开放式 LLM OPT-175B。LLaMA 和 OPT-175B 都是免费使用的。但从长远来看，这样做的坏处是使科学依赖于企业的 “仁慈”，这是一个充满不稳定性的局面。

因此，应该有与 LLM 合作的学术行为准则，以及监管。但这些都需要时间。我预计，这种规定最初会很笨拙，而且生效缓慢。

同时，大规模的合作项目迫切需要支持，为研究训练开源模型。政府应该通过拨款增加资金。该领域正在以闪电般的速度发展，现在需要开始协调国家和国际的努力。科学界最适合评估由此产生的模型的风险，且需要谨慎向公众推荐这些模型。

但是很明显，开放的环境才是正确的。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1799

文章
47974

浏览量
241423
开源

开源

+关注

关注
3

文章
3451

浏览量
42857
语言模型

语言模型

+关注

关注
0

文章
547

浏览量
10376
生成式AI

生成式AI

+关注

关注
0

文章
520

浏览量
578

原文标题：Nature：为什么生成式AI要开源？纽约大学教授发文，“科学发展的道德之路”

文章出处：【微信号：信息与电子工程前沿FITEE，微信公众号：信息与电子工程前沿FITEE】欢迎添加关注！文章转载请注明出处。

NPU是什么？为何它是开启终端侧生成式AI的关键？

)，同时要利用异构处理器组合，比如中央处理器(CPU)和图形处理器(GPU)。通过结合NPU使用合适的处理器，异构计算能够实现最佳应用性能、能效和电池续航，赋能全新增强的生成式AI体验

发表于 03-07 11:25 •2186次阅读

NPU是什么？为何它是开启终端侧<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>的关键？

生成式AI的「七宗罪」！

面对生成式AI日渐增长的「罪恶」，我们该如何解决问题？

发表于 05-07 16:34 •1843次阅读

<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>的「七宗罪」！

关于生成式AI的关键技术

生成式AI的关键技术是生成式对抗网络（GANs, Generative Adversarial Networks ），其本质是一种深度学习模

发表于 10-17 09:27 •2478次阅读

什么是生成式AI？生成式AI的四大优势

生成式AI是一种特定类型的AI，专注于生成新内容，如文本、图像和音乐。这些系统在大型数据集上进行训练，并使用机器学习算法

发表于 05-29 14:12 •4637次阅读

虹软图像深度恢复技术与生成式AI的创新生成式AI助力

当前，生成式人工智能（AI）技术的快速发展令人瞩目。它能够理解人类的描述，并在短时间内生成逼真的图像和视频。在生成

发表于 06-21 09:06 •504次阅读

利用 NVIDIA Jetson 实现生成式 AI

近日，NVIDIA 发布了 Jetson 生成式 AI 实验室（Jetson Generative AI Lab），使开发者能够通过 NVIDIA Jetson 边缘设备在现实世界中探

发表于 11-07 21:25 •1176次阅读

利用 NVIDIA Jetson 实现<b class='flag-5'>生成</b><b class='flag-5'>式</b> <b class='flag-5'>AI</b>

生成式AI技术的应用前景

生成式 AI（人工智能）与我们熟知的 AI 有何不同？这篇文章将为我们一探究竟！

发表于 11-29 12:20 •1502次阅读

生成式AI对智能家居的影响

电子发烧友网站提供《生成式AI对智能家居的影响.pdf》资料免费下载

发表于 01-02 14:50 •17次下载

原来这才是【生成式AI】！！

随着ChatGPT、文心一言等AI产品的火爆，生成式AI已经成为了大家茶余饭后热议的话题。可是，为什么要在AI前面加上“

发表于 06-05 08:04 •290次阅读

原来这才是【<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>】！！

生成式AI的基本原理和应用领域

生成式人工智能（Generative Artificial Intelligence，简称Generative AI）是一种利用机器学习算法和深度学习技术，通过模拟人类的创造性思维过程，生成

发表于 07-04 11:50 •2076次阅读

生成式AI工具作用

生成式AI工具是指那些能够自动生成文本、图像、音频、视频等多种类型数据的人工智能技术。在此，petacloud.ai小编为您整理

发表于 10-28 11:19 •368次阅读

基于Arm Neoverse平台的处理器革新生成式AI体验

Llama 是一个专为开发者、研究人员和企业打造的开源大语言模型 (LLM) 库，旨在推动生成式 AI 的创新、实验及可靠地扩展。

发表于 01-03 15:31 •301次阅读

生成式AI工具好用吗

当下，生成式AI工具正以其强大的内容生成能力，为用户带来了前所未有的便捷与创新。那么，生成式

发表于 01-17 09:54 •141次阅读

聚云科技荣获亚马逊云科技生成式AI能力认证助力企业加速生成式AI应用落地

北京 ——2025 年 2 月 14 日云管理服务提供商聚云科技获得亚马逊云科技生成式AI能力认证，利用亚马逊云科技全托管的生成式

发表于 02-14 13:41 •77次阅读

聚云科技荣获亚马逊云科技生成式AI能力认证

助力企业加速生成式AI应用落地北京2025年2月14日 /美通社/ -- 云管理服务提供商聚云科技获得亚马逊云科技生成式

发表于 02-14 16:07 •133次阅读

搜索历史

Nature：为什么生成式AI要开源？

评论