大模型没有“知识围城”-电子发烧友网

最近，两大知识平台开始“反击”大模型。

一是知网。就是引发学术界震动、开启“天临元年”的那个知网，要求秘塔AI搜索终止对他们内容的搜索和链接。

二是知乎。网友发现在微软必应搜索、谷歌搜索的结果中，知乎内容的标题和正文都可能是乱码，极大可能是为了避免内容被用来训练AI模型。

这两大平台区别于其他互联网社区的一大特点，就是知识内容丰富、质量较高。

对于大模型来说，“知识密度”是一个非常关键的指标，就像集成电路领域的“先进制程”一样，如果说高制程芯片能够在同样面积上集成更多的晶体管，那么“知识密度高”的大模型，能够在同样的参数空间内学习并存储更多的知识，从而更好地完成特定领域的任务。

半导体领域的“先进制程”封锁，一直是拿捏中国芯片的有效手段。

那么，头部知识平台对大模型采取“关门政策”，会影响到大模型及AI产品的先进性吗？

我们的观点如标题所示，大模型是不会被“知识围城”而封锁的。

比起结论，更值得进一步探讨的是，既然大模型训练对平台内容并没有高度依赖，模厂和平台的矛盾是从何而起呢？

很多读者都听说过AI三要素，是数据、算力、算法。知识处于什么地位呢？凭什么大模型知识密度，具有半导体“先进制程”一样的重要性呢？

清华大学张钹院士说过，当前大模型存在难以逾越的天花板，“推动AI的创新应用与产业化，四个要素肯定都要发挥知识、数据、算法、算力，但是我们最主张的，就必须重视知识的作用，所以我们把知识放在第一位”。

可能有人又会问，院士说得就一定对吗？当然不一定。我们还可以来看看一线的从业者，又是怎么想的。

我听过某AI创业公司，在交付产品时，发现即便是基于GPT4-Turbo这样性能领先的基座模型，AI也对很多问题答不上来。因为有些场景会用到一些隐性知识，这些知识是下一步推理所必需的，但模型经常get不到。

比如生成一道菜谱，其中提到了“加辣椒”，但辣椒有点辣（隐性知识），就需要询问用户“喜不喜欢吃辣”，人类厨师早就了解这个基础知识，但让AI主动意识到并询问就很难。

这是因为缺少“通识知识”。

某金融券商想用大模型来替代人类理财师，发现大模型给出的理财观点和建议很泛泛，是一些常识性内容，而用户在决策时，需要的是人类专家那样犀利的洞见。

一位金融从业者说，有些场景，大模型fine tuning还不如传统的小模型，怎么把业务知识注入大模型中，做了各种尝试也没有特别好的方法，只能把飘在上面的问题数据，收集来达标给LLM，希望它下次不要再犯错网络。

而另一个创业公司发现，如果从小处着手，将LLM与行业知识融合，可以获得97%以上的准确率，基本能达到行业客户的验收标准。实际上，很多AI创业公司的大模型ToB项目，都是帮助企业构建定制化知识库（KB系统）。

领域知识，则是关乎大模型处理复杂专项任务、收获商业成功的第二道壁垒。

所以，很多模厂都希望模型通过持续学习，来不断吸收新知识，这又带来了新的问题——修改核心参数，这可能影响到模型的原有性能，有可能直接崩掉，不work了，这是业务的大敌。

咋办呢？还是得靠知识。

一方面，原本知识密度就高的大模型，相当于人类具备很强的通识基础，提前了解了很多背景知识，所以泛化能力很强，可以在面对新领域、陌生任务时，快速学习、举一反三。所以，知识密度可以让大模型具备跨领域、自学习的能力，通过“知识回路”就能学会新知识了。这就减少了人工干预，从而降低了故障率。

另外，高效、精准的知识编辑，可以对大模型中的知识进行新增、擦除等操作，就可以用很小的代价，实现模型的迭代升级。让模厂在保持模型先进性的同时，也不影响到现有业务的持续性。对于业务不能中断的金融、政务、电力、工厂等行业客户，简直不要太有吸引力。

此外，一些实际业务中，不希望大模型在生成时说出来的话，比如一些隐私信息，或者有害有毒内容、政治偏见等，都需要知识编辑技术来进行“祛毒”，精准地识别毒性区域并擦除有毒内容，真正做到给大模型“洗脑”。

由此可见，知识是AI商业化全流程都必须关注的。业界一度有着“得知识者得天下”的风向。有模厂提出了大模型知识的“摩尔定律”，认为大模型的知识密度，应该每隔8个月就翻一倍，同等知识量的模型参数量减半。

那反过来想一想，失知识者岂不是要失天下了？

知识平台，是人类知识汇聚的重要渠道，OpenAI、谷歌等海外AI公司都与优质媒体内容平台有商业化合作，用授权内容来训练自家模型。

既然如此，为什么我们会说，大模型其实并不担心平台的“知识封锁”呢？

因为人类知识平台，不再是模型不得不进的“围城”。

如果说原始数据是“草”，而知识是牛奶，那么传统知识获取，是让机器“喝的是奶，产的也是奶”。就像20世纪的专家系统，根据一个或者多个专家提供的知识和经验，通过模拟专家的思维过程，让机器能够解决问题。

这种情况下，实现机器智能就必须依赖由人类领域专家，以及专家知识库。要“进城”获取知识，必须给平台“城主”交过路费。

但大模型不一样的地方，一是“不是必须喝奶，吃草也行”，可以直接从原始数据中挖掘知识、抽取知识。DeepMind联合创始人哈萨比斯曾经设想过，未来的大模型可以直接从与客观世界的感知交互过程中，利用深度学习算法来总结知识，并直接用于决策。

二是“不依赖人产奶，自己也行”，通过数据驱动的大规模自动化的知识获取，反哺模型。

ChatGPT、GPT4都具备较强的知识图谱建构能力，按照要求抽取知识，正确率可以达到88%，这种“生产效率”可比人类写论文、在问答平台“谢邀，刚下飞机，答一下”，要快得多。

更进一步，业界还在研究能够大规模编码和处理各种知识表示结构的大型知识模型（Large Knowledge Model）。从LLM到LKM，对现有人类知识的依赖越来越低了。

所以，是否收录基于人类知识的平台内容，其实对大模型训练来说，影响已经很小了。

“吃的是草，吐的是奶”的模型，可以在大数据的旷野上生存，并不一定要进知识平台这座“围城”，“关门”也就关门吧。

所以我们看到的后续就是，秘塔AI搜索在收到知网的函件之后，表示“学术”版块仅收录了论文的文献摘要和题录，并未收录文章内容本身。而且还主动“断链”，不再收录知网文献的题录及摘要数据，转而收录其他中英文权威知识库的文献题录及摘要数据。类似的，被知乎以乱码干扰的谷歌搜索、微软必应搜索，模型能力依然领先。

那么，知识平台的反应，难道是过度反应、虚空索敌吗？平台究竟想“锁”住什么，恐怕才是值得关注的真问题。

首先，没必要利用人类知识来训练模型，并不是说大模型厂商就一定不会侵权。

目前，全球模厂都面临高质量语料匮乏的隐忧，数据焦渴之下，在未授权的情况下，用到有知识产权的数据是可能发生的。

在某次采访中，OpenAI的CTO就对“视频训练数据是否来自YouTube等公开网站”等问题避而不谈。此前，《纽约时报》曾因商谈“内容付费”没有成效，将OpenAI和微软告上法庭，指控他们未经授权就使用该机构的数百万篇文章来训练AI模型。

而前不久，微软就与学术出版商Taylor & Francis签署了一项价值1000万美元的协议，允许微软访问其数据来改进AI系统。

由此可见，虽然AI领域的知识产权问题仍然有很多盲区，但与知识平台达成版权合作，应该被模厂及其客户，纳入AI合规和持续性经营的考量中。

此外，即使侵权问题并不存在，但价值冲击也会发生。

具体来说，AI搜索等新一代AI产品，对知识平台的冲击有两方面：

一是流量价值冲击。尽管秘塔AI搜索声明中提到，向用户提供的是知网的学术文献题录及摘要数据，用户要进一步浏览正文，要通过来源链接跳转至网站获取。但搜索引擎将触角伸到网站，用户就会减少访问与站内搜索，从而影响平台的流量和潜在收益，类似于微信此前阻止百度搜索到公众号内容一样。

二是知识价值冲击。基于大模型的AI搜索具备总结、生成等能力，而由于模型可能存在“过拟合”问题，也就是AI自己“脑补”，最终可能输出给用户的内容与原文高度一致，没直接侵权但胜似侵权。

此前就有很多小说作者发现，模型生成的故事大纲与走向与自己写的高度类似，怀疑云文档被用来训练AI模型，但极有可能是AI跟人类作者“撞脑”了。

大模型经济的核心价值，是知识的创造与分发。

一位朋友说，“以前有问题，我会上网问知乎，但有些问题我不想让公众知道，以后我就问基础大模型+领域知识+AI Agent打造的专业bot，一次到位”。Perplexity CEO曾明确说过，“我们想成为世界上最以知识为中心的公司”，秘塔AI搜索经常被比作中国的Perplexity。

可以看到，即使没有侵权纠纷，AI企业及产品，也与知识平台，在商业层面形成了直接的替代和竞争关系。

失知识者失天下，从这个角度来说，的确成立。

大模型在数据旷野上狂飙突进，知识平台能否靠“关门上锁”来守住核心价值呢？或许大家心中已经有答案。

解锁关键信息

知识平台封锁，锁不住AI获取知识的脚步

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
31493

浏览量
270197
大模型

大模型

+关注

关注
2

文章
2543

浏览量
3122

名单公布！【书籍评测活动NO.52】基于大模型的RAG应用开发与优化

推理用到某些特定场景，就会产生不准确的输出。（3）理解存在局限性：死记硬背，加上问题太难了。大模型并没有真正“理解”训练知识的深层含义，也不具备人类普遍的常识与经验，因此可能会在一些需要深入

发表于 12-04 10:50

【实操文档】在智能硬件的大模型语音交互流程中接入RAG知识库

本帖最后由 jf_40317719 于 2024-9-29 17:13 编辑智能硬件的语音交互接入大模型后可以直接理解自然语言内容，但大模型作为一个语言模型，对专业领域知识

发表于 09-29 17:12

知识分享 | 轻松实现优质建模

知识分享在知识分享栏目中，我们会定期与读者分享来自MES模赛思的基于模型的软件开发相关Know-How干货，关注公众号，随时掌握基于模型的软件设计的技术

发表于 09-12 08:08 •455次阅读

【《大语言模型应用指南》阅读体验】+ 基础知识学习

今天来学习大语言模型在自然语言理解方面的原理以及问答回复实现。主要是基于深度学习和自然语言处理技术。大语言模型涉及以下几个过程：数据收集：大语言模型通过从互联网、书籍、新闻、社交媒体等多种渠道

发表于 08-02 11:03

【《大语言模型应用指南》阅读体验】+ 基础篇

的章节包括统一自然语言任务、大语言模型的训练过程和局限性分析，阅读还算顺利。至此，基础篇只能算是浏览完成，因为部分原理方法并没有吃透，但尽管如此也是收获颇丰，因为我了解了大语言模型的基础知识

发表于 07-25 14:33

【《大语言模型应用指南》阅读体验】+ 俯瞰全书

，了解此书的主要内容：书分四篇，基础、入门、进阶和展望。基础篇从人工智能起源开始、之后又介绍了机器学习、神经网络和大语言模型的基础知识，如果读者学习过机器学习相关课程，那这个基础篇的阅读就会很轻

发表于 07-21 13:35

知识图谱与大模型之间的关系

在人工智能的广阔领域中，知识图谱与大模型是两个至关重要的概念，它们各自拥有独特的优势和应用场景，同时又相互补充，共同推动着人工智能技术的发展。本文将从定义、特点、应用及相互关系等方面深入探讨知识图谱与大

发表于 07-10 11:39 •1206次阅读

Al大模型机器人

理解能力强大: AI大模型机器人可以理解和生成自然语言，能够进行复杂的对话和语言任务。它们能够识别语言中的语义、语境和情感，并据此作出适当的回应。广泛的知识储备: 这些模型基于大规模的数据集进行训练，拥有

发表于 07-05 08:52

同济大学发布首个“知识大模型”CivilGPT，深化教育教学数字化转型

该大模型由同济大学独立研发，通过构建高质量的语料库并利用千亿级别的基础模型进行训练，成功打造了首个具备土木工程专业知识的垂直领域大模型，为工程教育和科研提供了全新的视角和工具。

发表于 05-28 09:46 •2501次阅读

这个是不是表示没有仿真模型啊

先上图这个是不是表示没有仿真模型啊？哪个版本有ds12c887的仿真模型啊？谢谢！

发表于 05-12 22:17

阿里达摩院提出“知识链”框架，降低大模型幻觉

近日，阿里巴巴达摩院（湖畔实验室）携手新加坡南洋理工大学等研究机构，共同推出了大模型知识链（CoK）框架。该框架不仅可实时检索异构知识源，还能逐步纠正推理错误，有效提高了大模型在回答

发表于 05-10 11:46 •741次阅读

【大语言模型：原理与工程实践】大语言模型的应用

和微调的积累，无需额外知识。然而，大模型所掌握的世界知识具有时效性，对于训练后发生的事件或训练集中未涵盖的知识，大语言模型往往无法应对。当面

发表于 05-07 17:21

利用知识图谱与Llama-Index技术构建大模型驱动的RAG系统（下）

对于语言模型（LLM）幻觉，知识图谱被证明优于向量数据库。知识图谱提供更准确、多样化、有趣、逻辑和一致的信息，减少了LLM中出现幻觉的可能性。

发表于 02-22 14:13 •1303次阅读

搜索历史

大模型没有“知识围城”

评论

Tina里没有LDC1000的模型吗？

名单公布！【书籍评测活动NO.52】基于大模型的RAG应用开发与优化

【实操文档】在智能硬件的大模型语音交互流程中接入RAG知识库

知识分享 | 轻松实现优质建模

想要了解下大模型知识

【《大语言模型应用指南》阅读体验】+ 基础知识学习

【《大语言模型应用指南》阅读体验】+ 基础篇

【《大语言模型应用指南》阅读体验】+ 俯瞰全书

知识图谱与大模型之间的关系

Al大模型机器人

同济大学发布首个“知识大模型”CivilGPT，深化教育教学数字化转型

这个是不是表示没有仿真模型啊

阿里达摩院提出“知识链”框架，降低大模型幻觉

【大语言模型：原理与工程实践】大语言模型的应用

利用知识图谱与Llama-Index技术构建大模型驱动的RAG系统（下）