开源大模型到底开源什么？源码在哪呢？-电子发烧友网

ChatGPT出来以后很多人都在说开源，认为只要OpenAI大发善心或者哪个高超的黑客黑进服务器，把ChatGPT的源码发出来放到网上，那么到不了第二天天亮，全世界就会人手一个ChatGPT。

这是一种常见的误解。

开源字面意思是公开源代码，过去我们通常是指公开某款软件项目的源代码。知名的譬如说Linux 操作系统，准确来说是操作系统内核，我们拿到Linux的源码，只要搭建好相应的编译环境，就能在本地编译一套一模一样的操作系统内核。

当然，实际会复杂一点，同一套源码用不同方法编译，运行效率、资源占用等都可能不同。这里姑且不再细抠，总之，过去软件开源给我们的印象就是，甭管什么阆苑仙葩，只要一开源就能人手一份，而且很快还会有各种换皮魔改，同人逼死官方。往好了说，这叫开源带来澎湃力量。

但大语言模型的“开源”完全不是这么一回事。先别管OpenAI现在名叫钮钴禄氏·CloseAI，就算哪天良心发现，真的要找回自己做一个名副其实的OpenAI，洗心革面把GPT-4给开源了。先别着急着高兴，对于99%的人来说，GPT-4的源码毫无意义，对于剩下的1%里的99%，可能也就蹭一些研究论文。只有最后剩下的1%里的1%才会有真正帮助，不过，也只是有帮助，但不算很大。

为什么？原因不复杂，因为大语言模型的所谓开源，实际上是有三个对象。源码只是其中之一。我不是针对谁，在座各位即使拿到了源码，剩下能做的也就只有点赞鼓掌。

人工智能三要素，算法、算力和数据。也有人管最后叫算据，不太确定这俩词是不是互通。总之，到了力大飞砖的大语言模型时代，这三要素就成了算法、高算力和大数据。只有同时满足这三大要素，你才有可能最终得到一款和ChatGPT类似效果拔群的模型。

那么，源码在哪呢？在算法。算法的核心部分主要包括有模型结构和训练方法，这两部分都有对应的源码。哪天OpenAI公开源码，我们应该就能看到的也就是模型结构和训练方法两部分。

当然，这只是核心部分。一款人工智能产品，尤其是大型人工智能产品，还会有许多工程问题需要解决，除了核心还需要其它配套部件。别看到“配套部件”就觉得没什么。之前同样是OpenAI，配套部件大概占九成。所以，别管它Open不Open吧，我们能看到的都是冰山一角。

拿到源码之后，真正的挑战才刚开始。接下来才是这个世界绝大多数人、研究机构和企业注定无法迈过的门槛：高算力和大数据。

高算力已经说了很多了，门槛很高，但从全世界范围来说，总归有一些企业挤挤还是有的。不过，大数据就未必了。

数据非常重要。无论是人工智能时代，还是人工智障时代，扩大数据的规模、提高数据的质量，通常都能显著提高模型的最终表现。以前我们经常自嘲，说人工智能就是投入多少人工就产出多少智能，人工做什么呢？就是标数据。

千万不要小看了标数据，这玩意费人、费钱，关键还费时间。搞一个大模型已经十分不易，搞一个能喂饱大模型的数据集更为困难。OpenAI这种光启动资金就10亿刀的富二代企业，标数据照样也得想办法省钱，后来还出了一条新闻。

这里插个的阴谋论，ChatGPT的免费用，换个角度看没准就成了我们给OpenAI免费标数据。有没有依据？有。OpenAI官方明着说了，你和ChatGPT的交互数据可能用于模型训练，要知道那可是一亿多的用户，那得生产多少高质量的人工标注数据。技术领先优势可以追赶，数据领先优势则就未必了。

好了，假设你七星聚顶，三大要素都凑齐了，接下来是不是就能炼出ChatGPT了呢？前面我们说过，“你才有可能最终得到一款和ChatGPT类似效果拔群的模型”。为什么是有可能？因为模型训练和编译源码不太一样，里面还包含一些难以言说的玄学因素。我一直对Bard的表现耿耿于怀，百思不得其解，我怀疑谷歌可能就是栽倒在玄学因素上面。

那么，现在很多研究者在呼吁的开源，到底是要开源什么呢？开源模型，具体来说，是开源训练好的模型参数。模型参数拿到手，基本上就能完整复现能力了。当然，这还是对于大企业、大机构来说，运行大语言模型虽然消耗的算力远不如训练，但也不是单卡就能负担的。

何况，行话说的“单卡运行”，通常是指60G显存往上。哥们那些打游戏的所谓高端显卡，在这还没够上起步价。

最后多说两句开源。开源很重要，人工智能能有今天的进步，开源功不可没。人工智能的研究成果大概有几种，首先就是论文。学术论文是要钱的，但是在人工智能领域，很多作者都免费公开了论文。当然，有些是论文，有些是名叫论文的文宣资料，通常倒数第三或者第四部分会放一些表格，表扬一下这次搞的模型在什么什么任务上面效果拔群，洋气一点，叫SOTA。

然后是源码。源码不是必选项，有些研究者只发论文不发源码，有一种原因是舍不得，觉得辛辛苦苦憋出来的成果不愿意简简单单就交给别人，当然也有可能觉得写得太烂丢不起人，或者在论文里吹太过了，担心别人复效不了质疑。

还有就是模型。前面说过，模型这玩意距离能力复现就一步之遥，有很多人爱开源模型，也有很多人不爱开源模型，原因和上面差不多，还有一种是大公司大机构才敢用，官方辞令很多，譬如“出于社会责任考虑”，或者“安全伦理存在巨大风险”等等。

谷歌在21年就搞出了大语言模型LaMDA，说技术过于先进不便展示，害得我对着论文流了好多口水。现在出来个Bard，还不如不展示。

这里为咱们的中文开源大语言模型打个Call吧，能讲中文还开源的大语言模型真的不多，清华放出来的ChatGLM-6B应该是佼佼者，而是真·单卡就能运行。这里说的是消费级显卡。

最后就是开源数据集了，这项工作很重要，但也很容易被圈外忽视。现在中文大语言模型缺的东西很多，抱怨的也很多，还有一票人天天平替这个平替那个，实在不知道怎么想。不过，讲屁话没有用，已经有一些开源项目开始做起来，这都是星星之火。

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

Linux操作系统

Linux操作系统

+关注

关注
0

文章
54

浏览量
11114
OpenAI

OpenAI

+关注

关注
9

文章
1123

浏览量
6683
ChatGPT

ChatGPT

+关注

关注
29

文章
1566

浏览量
8033

原文标题：开源大模型到底开源什么？

文章出处：【微信号：OSC开源社区，微信公众号：OSC开源社区】欢迎添加关注！文章转载请注明出处。

开源大模型在多个业务场景的应用案例

在人工智能发展浪潮中，大模型的开源与闭源之争一直是业内的热点话题。随着技术的不断进步和应用场景的日益丰富，如何降低大模型的使用门槛，让更多人能够便捷地应用于实际业务场景，成为了推动行业发展的关键所在。而

发表于 12-30 10:16 •281次阅读

开源AI模型库是干嘛的

开源AI模型库是指那些公开源代码、允许自由访问和使用的AI模型集合。这些模型通常经过训练，能够执行特定的任务。以下，是对

发表于 12-14 10:33 •286次阅读

开源大模型落地实践分论坛亮点前瞻

随着数据驱动时代的到来，开源大模型已成为技术领域的热点话题。开源大模型凭借强大的数据处理和分析能力，正逐步渗透到各个行业，为产业升级和经济发展注入新的活力。

发表于 12-13 15:30 •280次阅读

开源能带我们走向何方

开源大模型、开源数据库、开源框架、开源硬件......近些年，这些词汇不绝于耳。雷军说，好的代码像诗一样优美，自己大二时写的代码就已经

发表于 12-06 17:09 •521次阅读

阿里通义千问代码模型全系列开源

近日，阿里云通义大模型团队宣布了一项重大决策：将通义千问代码模型全系列正式开源。此次开源的模型系列共包含6款Qwen2.5-Coder

发表于 11-14 15:26 •430次阅读

科技云报到：假开源真噱头？开源大模型和你想的不一样！

查看、修改、分发。开源自此深刻影响了互联网行业的每一个角落。在大模型和GenAI崛起的当下，开源再次成为业界关注焦点，对于开源和闭源的争论也久久未能平息。然而，大

发表于 11-03 10:46 •271次阅读

搭建开源大语言模型服务的方法

本文我们将总结5种搭建开源大语言模型服务的方法，每种都附带详细的操作步骤，以及各自的优缺点。

发表于 10-29 09:17 •265次阅读

Llama 3 与开源AI模型的关系

在人工智能（AI）的快速发展中，开源AI模型扮演着越来越重要的角色。它们不仅推动了技术的创新，还促进了全球开发者社区的合作。Llama 3，作为一个新兴的AI项目，与开源AI模型的关系

发表于 10-27 14:42 •427次阅读

人民邮电报：“开源”到底是什么？为啥热度越来越高？

本文转载自人民邮电报这些年，“开源”这个词越来越火，开源AI大模型、开源数据库、开源框架、

发表于 10-17 14:21 •2419次阅读

Matepad pro12.2 已上市半个月，但是还没有在开源网站看到该项目的开源信息，违背开源精神

任何该项目的开源计划，违背开源精神按照开源社区 licsence和公共库开源licsence要求，对应的项目上市后都需要尽快开源并及时公布

发表于 08-27 17:25

浙大博导开源飞控planner源码

浙大博导开源飞控planner源码

发表于 06-12 11:43 •4次下载

通义千问开源千亿级参数模型

通义千问近日开源了其首个千亿级参数模型Qwen1.5-110B，这是其全系列中首个达到千亿级别的开源模型。Qwen1.5-110B模型继承了

发表于 05-08 11:01 •791次阅读

通义千问推出1100亿参数开源模型

通义千问近日震撼发布1100亿参数的开源模型Qwen1.5-110B，这一举措标志着通义千问在AI领域迈出了重大步伐。该模型成为通义千问全系列首个千亿级参数开源

发表于 05-06 10:49 •628次阅读

商业开源MES+源码+送可拖拽式数据大屏

商业开源MES+源码+送可拖拽式数据大屏+开发学习的好机会

发表于 04-15 11:21 •996次阅读

大模型开源开放评测体系司南正式发布

近日，大模型开源开放评测体系司南（OpenCompass2.0）正式发布，旨在为大语言模型、多模态模型等各类模型提供一站式评测服务。Open

发表于 02-05 11:28 •1143次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

开源大模型到底开源什么？源码在哪呢？

评论

开源大模型在多个业务场景的应用案例

开源AI模型库是干嘛的

开源大模型落地实践分论坛亮点前瞻

开源能带我们走向何方

阿里通义千问代码模型全系列开源

科技云报到：假开源真噱头？开源大模型和你想的不一样！

搭建开源大语言模型服务的方法

Llama 3 与开源AI模型的关系

人民邮电报：“开源”到底是什么？为啥热度越来越高？

Matepad pro12.2 已上市半个月，但是还没有在开源网站看到该项目的开源信息，违背开源精神

浙大博导开源飞控planner源码

通义千问开源千亿级参数模型

通义千问推出1100亿参数开源模型

商业开源MES+源码+送可拖拽式数据大屏

大模型开源开放评测体系司南正式发布