一文解析ChatGPT 数据集之谜

半个月以来，ChatGPT 这把火越烧越旺。国内很多大厂相继声称要做中文版 ChatGPT，还公布了上线时间表，不少科技圈已功成名就的大佬也按捺不住，携巨资下场，要创建 “中国版 OpenAI“。

不过，看看过去半个月在群众眼里稍显窘迫的 Meta 的 Galac tica，以及 Google 紧急发布的 Bard，就知道在短期内打造一个比肩甚至超越 ChatGPT 效果的模型没那么简单。

让很多人不免感到诧异的是，ChatGPT 的核心算法 Transformer 最初是由 Google 提出的，并且在大模型技术上的积累可以说不弱于 OpenAI，当然他们也不缺算力和数据，但为什么依然会被 ChatGPT 打的措手不及？

Meta 首席 AI 科学家 Yann LeCun 最近抨击 ChatGPT 的名言实际上解释了背后的门道。他说，ChatGPT “只是巧妙的组合而已”，这句话恰恰道出了一种无形的技术壁垒。

简单来说，即使其他团队的算法、数据、算力都准备的与 OpenAI 相差无几，但就是没想到以一种精巧的方式把这些元素组装起来，没有 OpenAI，全行业不知道还需要去趟多少坑。

即使 OpenAI 给出了算法上的一条路径，后来者想复现 ChatGPT，算力、工程、数据，每一个要素都需要非常深的积累。七龙珠之中，算力是自由流通的商品，花钱可以买到，工程上有 OneFlow 这样的开源项目和团队，因此，对互联网大厂之外的团队来说，剩下最大的挑战在于高质量训练数据集。

至今，OpenAI 并没有公开训练 ChatGPT 的相关数据集来源和具体细节，一定程度上也暂时卡了追赶者的脖子，更何况，业界公认中文互联网数据质量堪忧。

好在，互联网上总有热心的牛人分析技术的细枝末节，从杂乱的资料中串联起蛛丝马迹，从而归纳出非常有价值的信息。

此前，发布的《ChatGPT 背后的经济账》，其作者从经济学视角推导了训练大型语言模型的成本。本文作者则整理分析了 2018 年到 2022 年初从 GPT-1 到 Gopher 的相关大型语言模型的所有数据集相关信息，希望帮助有志于开发 “类 ChatGPT” 模型的团队少走一步弯路。

作者｜Alan D. Thompson

翻译｜杨婷、徐佳渝、贾川

一些研究人员的报告称，通用人工智能（AGI）可能是从我们当前的语言模型技术进行演进 [1]，预训练 Transformer 语言模型为 AGI 的发展铺平了道路。虽然模型训练数据集日渐增大，但缺乏基本指标文档，包括数据集大小、数据集 token 数量和具体的内容细节。

尽管业内提出了数据集组成和整理文档的标准 [2]，但几乎所有重点研究实验室在揭示模型训练数据集细节这方面都做得不够。这里整合的研究涵盖了 2018 年到 2022 年初从 GPT-1 到 Gopher 的精选语言模型的所有数据集（包括主要数据集：Wikipedia 和 Common Crawl）的综合视图。

1、概述

图 1. 主要数据集大小的可视化汇总。未加权大小，以 GB 为单位。

2018 年以来，大语言模型的开发和生产使用呈现出爆炸式增长。一些重点研究实验室报告称，公众对大语言模型的使用率达到了惊人高度。2021 年 3 月，OpenAI 宣布 [3] 其 GPT-3 语言模型被 “超过 300 个应用程序使用，平均每天能够生成 45 亿个词”，也就是说仅单个模型每分钟就能生成 310 万词的新内容。

值得注意的是，这些语言模型甚至还没有被完全理解，斯坦福大学的研究人员 [4] 最近坦言，“目前我们对这些模型还缺乏认知，还不太了解这些模型的运转模式、不知道模型何时会失效，更不知道这些模型的突现性（emergent properties）能产生什么效果”。

随着新型 AI 技术的快速发展，模型训练数据集的相关文档质量有所下降。模型内部到底有什么秘密？它们又是如何组建的？本文综合整理并分析了现代大型语言模型的训练数据集。

因为这方面的原始文献并不对外公开，所以本文搜集整合了二、三级研究资料，在必要的时候本文会采用假设的方式来推算最终结果。

在本文中，我们会将原始论文中已经明确的特定细节（例如 token 数量或数据集大小）归类为 “公开的（disclosed）” 数据，并作加粗处理。

多数情况下，适当地参考二、三级文献，并采用假设的方式来确定最终结果是很有必要的。在这些情况下，token 数量和数据集大小等细节是 “确定的（determined）”，并以斜体标记。

模型数据集可分为六类，分别是：维基百科、书籍、期刊、Reddit 链接、Common Crawl 和其他数据集。

表 1. 主要数据集大小汇总。以 GB 为单位。公开的数据以粗体表示。确定的数据以斜体表示。仅原始训练数据集大小。

1.1. 维基百科

维基百科是一个免费的多语言协作在线百科全书，由超过 300,000 名志愿者组成的社区编写和维护。截至 2022 年 4 月，英文版维基百科中有超过 640 万篇文章，包含超 40 亿个词 [5]。维基百科中的文本很有价值，因为它被严格引用，以说明性文字形式写成，并且跨越多种语言和领域。一般来说，重点研究实验室会首先选取它的纯英文过滤版作为数据集。

1.2. 书籍

故事型书籍由小说和非小说两大类组成，主要用于训练模型的故事讲述能力和反应能力，数据集包括 Project Gutenberg 和 Smashwords (Toronto BookCorpus/BookCorpus) 等。

1.3. 杂志期刊

预印本和已发表期刊中的论文为数据集提供了坚实而严谨的基础，因为学术写作通常来说更有条理、理性和细致。这类数据集包括 ArXiv 和美国国家卫生研究院等。

1.4. Reddit 链接

WebText 是一个大型数据集，它的数据是从社交媒体平台 Reddit 所有出站链接网络中爬取的，每个链接至少有三个赞，代表了流行内容的风向标，对输出优质链接和后续文本数据具有指导作用。

1.5. Common Crawl

Common Crawl 是 2008 年至今的一个网站抓取的大型数据集，数据包含原始网页、元数据和文本提取，它的文本来自不同语言、不同领域。重点研究实验室一般会首先选取它的纯英文过滤版（C4）作为数据集。

1.6. 其他数据集

不同于上述类别，这类数据集由 GitHub 等代码数据集、StackExchange 等对话论坛和视频字幕数据集组成。

2、常用数据集

2019 年以来，大多数基于 Transformer 的大型语言模型 (LLM) 都依赖于英文维基百科和 Common Crawl 的大型数据集。在本节中，我们参考了 Jesse Dodge 和 AllenAI（AI2）[8] 团队的综合分析，按类别对英文维基百科作了高级概述，并在 Common Crawl 数据集 [7] 的基础上，用谷歌 C4 [6] (Colossal Clean Crawled Corpus) 在 Common Crawl 中提供了顶级域（domains）。

2.1. 维基百科（英文版）分析

下面按类别 [9] 列出了维基百科的详细信息，涵盖了 2015 年抽样的 1001 篇随机文章，研究人员注意到随时间推移文章传播的稳定性。假设一个 11.4GB、经过清理和过滤的维基百科英文版有 30 亿 token，我们就可以确定类别大小和 token。

表 2. 英文维基百科数据集类别。公开的数据以粗体表示。确定的数据以斜体表示。

2.2 Common Crawl 分析

基于 AllenAI (AI2) 的 C4 论文，我们可以确定，过滤后的英文 C4 数据集的每个域的 token 数和总体百分比，该数据集为 305GB，其中 token 数为 1560 亿。

表 3. C4：前 23 个域（不包括维基百科）。公开的数据以粗体表示，确定的数据以斜体表示。

3、GPT-1 数据集

2018 年，OpenAI 发布了 1.17 亿参数的 GPT-1。在论文中，OpenAI 并没有公布模型训练数据集的来源和内容 [10]，另外，论文误将‘BookCorpus’拼写成了‘BooksCorpus’。BookCorpus 以作家未出版的免费书籍为基础，这些书籍来自于 Smashwords，这是一个自称为 “世界上最大的独立电子书分销商” 的电子书网站。这个数据集也被称为 Toronto BookCorpus。经过几次重构之后，BookCorpus 数据集的最终大小确定为 4.6GB [11]。

2021 年，经过全面的回顾性分析，BookCorpus 数据集对按流派分组的书籍数量和各类书籍百分比进行了更正 [12]。数据集中有关书籍类型的更多详细信息如下：

表 4. BookCorpus 书籍类型。公开的数据以粗体表示，确定的数据以斜体表示。

在随后的数据集重构中，BookCorpus 数据集进一步过滤掉了书籍中的 “吸血鬼” 类别、降低了言情类书籍的百分比、增加了 “历史” 类书籍，增加了收集的书籍数量。

3.1. GPT-1 数据集总结

GPT-1 最终的数据集总结分析如下：

表 5.GPT-1 数据集总结。以 GB 为单位。公开的数据以粗体表示，确定的数据以斜体表示。

4、GPT-2 数据集

2019 年，OpenAI 发布了拥有 15 亿参数的语言模型 GPT-2。GPT-2 论文阐明了所用训练数据集的大小 [13]，不过并未说明其内容。而 GPT-2 模型卡（model card）（在 GPT-2 GitHub 仓库中）说明了模型内容 [14]。

我们可以从 GPT-3 论文中得到 token 数量，该论文使用了 WebText 扩展版本来表示 190 亿 token。据推测，2020 年推出的 WebText 扩展版本拥有 12 个月的额外数据（additional data），因此它可能比 2019 年推出的 GPT-2 版本大 25% 左右 [15]。GPT-2 最终的 token 数量确定为 150 亿左右。

如 GPT-2 论文所述，假设模型卡显示链接数时，每个链接都可以被 4500 万链接总数所除，那 WebText 的内容在数据集中所占的百分比的详细信息就可以确定。

然后可以使用确定的 150 亿 token 数量来查找每个域的 token 数量。请注意，在可用的前 1,000 个域中，此处仅显示前 50 个域。

表 6. WebText: 前 50 个域。公开的数据以粗体表示，确定的数据以斜体表示。

4.1. GPT-2 数据集总结

GPT-2 模型最终的数据集总结分析如下：

表 7. GPT-2 数据集总结。公开的数据以粗体表示，确定的数据以斜体表示。

5、GPT-3 数据集

GPT-3 模型由 OpenAI 于 2020 年发布。论文阐明了所用训练数据集的 token 数量 [16]，但训练数据集的内容和大小尚不清楚（Common Crawl 的数据集大小除外 [17]）

表 8. GPT-3 数据集。公开的数据以粗体表示，确定的数据以斜体表示。

5.1. GPT-3：关于 Books1 和 Books2 数据集的分析

特别值得关注的是，在 OpenAI 的 GPT-3 论文中，并未公开 Books1 数据集（120 亿 token）和 Books2 数据集（550 亿 token）的大小和来源。关于这两个数据集的来源人们提出了几个假设，包括来自 LibGen18 和 Sci-Hub 的类似数据集，不过这两个数据集常以 TB 为计，大到无法匹配。

5.2. GPT-3：Books1

GPT-3 使用的 Books1 数据集不可能与 GPT-1 使用的 BookCorpus 数据集相同，原因在于 Books1 的数据集更大，达 120 亿 token。在一篇引用的论文 [19] 中就提及 GPT-1 使用的 BookCorpus 数据集拥有 9.848 亿个词，但这可能只相当于 13 亿 token（984.8 字 x 1.3 字的 token 乘数）。

通过标准化项目古腾堡语料库（SPGC），Books1 有可能与古腾堡项目保持一致性。SPGC 是一种开放式科学方法，被用于古腾堡项目完整的 PG 数据的精选（curated）版本。SPGC 包含 120 亿个 token [20]，大约为 21GB [21]。

5.3. GPT-3：Books2

Books2（550 亿 token）可能与 Bibliotik 保持一致，并由 EleutherA 收集该来源的数据，组成数据集，使其成为 The Pile v1 的一部分。Bibliotik 版本为 100.96GB [22]，其确定的 token 数仅为 250 亿，低于 Books2 公开的 550 亿。然而，使用 SPGC 的‘每字节 token 数’比率（大约为 1:1.75），Bibliotik 的 token 数和大小将更接近于 Books2。

5.4. GPT-3 数据集总结

附录 A 概述了使用 Wikipedia + CommonCrawl + WebText 数据集的顶级资源列表。GPT-3 模型的最终数据集总结分析如下：

表 9.GPT-3 数据集总结。公开的数据以粗体表示，确定的数据以斜体表示。

6、The Pile v1（GPT-J 和 GPT-NeoX-20B）数据集

The Pile v1 数据集由 EleutherAI 于 2021 年发布，该数据集已被用于训练包括 GPT-J、GPT-NeoX-20B 在内的多种模型，并作为包括 MT-NLG 在内的其他模型的部分数据集。The Pile v1 论文阐明了所用训练数据集的来源和大小。随着 token 数量的增加，The Pile v1 论文应被用作未来数据集文档的黄金标准。

有关 token 数量的更多详情，可以使用本文提供的信息来确定，参见表 1（大小以 GB 为单位）和表 7（token / 每字节）[23]。

表 10. The Pile v1 数据集。公开的数据以粗体表示，确定的数据以斜体表示。

6.1. The Pile v1 分组数据集（Grouped Datasets）

为了确定如‘Books’、‘Journals’和‘CC’这类数据集的大小，笔者对数据集进行了分组，如下表所示。

表 11. The Pile v1 分组数据集（不包括 Wikipedia、CC 和 WebText）。公开的数据以粗体表示，确定的以斜体表示。

6.2. The Pile v1 数据集总结

The Pile v1 数据集与 GPT-J 和 GPT-NeoX-20B 模型的最终数据集总结分析如下：

表 12. Pile v1 数据集总结。公开的数据以粗体表示，确定的数据以斜体表示。

7、Megatron-11B 和 RoBERTa 数据集

2019 年，Meta AI (当时称之为 Facebook AI) 和华盛顿大学联合发布了拥有 1.25 亿参数的 RoBERTa 模型。次年，Meta AI 发布了拥有 110 亿参数的 Megatron-11B 模型。Megatron-11B 使用的训练数据集与 RoBERTa 相同。RoBERTa [24] 论文阐明了所用训练数据集的内容，不过必须参考引用的论文 (BERT [25] 和 toryes [26]) 来确定最终的数据集大小。

BookCorpus ：确定的数据集为 4.6GB，如上面的 GPT-1 部分所示。

维基百科：公开的数据集为 “16GB（BookCorpus 加上英文维基百科）”。在减去 BookCorpus 数据集（4.6GB，如上面的 GPT-1 部分所述）后，维基百科数据集确定为 11.4GB。

CC-News ：（经过滤后）公开的数据集为 76GB。

OpenWebText : 公开的数据集为 38GB。

Stories : 公开的数据集为 31GB。请注意，此数据集是 “基于常识推理任务问题” 的 Common Crawl 内容，不属于本文的‘Books’类别。相反，将 Stories 与 CC-News 数据集（76GB）相结合，Common Crawl 的总数据集则为 107GB。

7.1. Megatron-11B 和 RoBERTa 的数据集总结

Megatron-11B 和 RoBERTa 最终的数据集总结分析如下：

表 13. Megatron-11B 和 RoBERTa 的数据集总结。公示的数据以粗体表示，确定的数据以斜体表示。

8、MT-NLG 数据集

2021 年，英伟达和微软发布了拥有 5300 亿参数的语言模型 MT-NLG。MT-NLG 是微软 Turing NLG（拥有 170 亿参数）和英伟达 Megatron-LM（拥有 83 亿参数）的 “继任者”。MT-NLG 论文阐明了所用训练数据集的来源和 token 数量，不过没有明确指出数据集的大小。

如前所述，有关数据集大小的更多详情，可以使用 The Pile v1 论文中提供的信息来确定。虽然使用的组件相同，但注意的是，MT-NLG 和 The Pile v1 中报告的组件大小却各不相同，这是由于来自 Eleuther AI (The Pile v1 数据集) 和 Microsoft/NVIDIA (MT-NLG 模型) 的研究人员采用了不同的数据过滤和去重方法。

8.1. MT-NLG 中的 Common Crawl 数据集

Pile-CC：公开的数据集为 498 亿 token，确定的数据为 227.12GB 左右，参见上述 Pile v1 部分。

CC-2020-50: 公开的数据集为 687 亿 token，假设 token 的每字节率（per byte rate）为 0.25 TpB=274.8GB。

CC-2021-04：公开的数据集为 826 亿 token，假设 token 的每字节率为 0.25 TpB=330.4GB

RealNews（来自 RoBERTa/Megatron-11B）：显示为 219 亿 token。根据 RealNews 论文 [27]，数据集确定为 120GB。

CC-Stories (来自 RoBERTa/Megatron-11B)：公开的数据集为 53 亿 token，如上述 RoBERTa 部分所示，数据集确定为 31GB。

根据以上来源，可确认 Common Crawl 的总数据量为 983.32GB，共计 2283 亿 token。

8.2. MT-NLG 分组数据集（Grouped Datasets）

表 14. MT-NLG 分组数据集。公开的数据以粗体表示，确定的数据以斜体表示。

8.3. MT-NLG 数据集总结

MT-NLG 模型最终的数据集总结分析如下：

表 15. MT-NLG 数据集总结。公示的数据以粗体表示，确定的数据以斜体表示。

9、MT-NLG 数据集 Gopher 数据集

Gopher 模型由 DeepMind 于 2021 年发布，有 2800 亿参数。该论文清楚地说明了所使用训练数据集所包含的高级 token 数量和大小 [28]，但没有说明详细内容。

表 16. 公开的 Gopher 数据集 (MassiveText)。公开的数据以粗体表述，确定的数据以斜体表示。

有趣的是，据 Gopher 论文披露：其 Books 数据集中包含一些超过 500 年历史（1500-2008）的书籍。

9.1. MassiveWeb 数据集分析

DeepMind 于 2014 年被谷歌收购，并在创建 MassiveText 时获得了海量数据。虽然 Gopher 论文中没有进一步详细描述 MassiveWeb，但第 44 页附录中的表 A3b 注明了 MassiveWeb 中出现的前 20 个域 [29]。根据披露的每个域所占的百分比，我们可以使用 MassiveWeb 的总 token 数（5060 亿 token）和总原始大小（1900GB）来确定每个域的 token 数量和大小。

表 17. MassiveWeb：前 20 个域。公开的数据以粗体表示，确定的数据以斜体表示。

9.2. Gopher：关于维基百科数据集的分析

维基百科数据集的总规模很难确定。在 Gopher 论文中，研究人员指出维基百科没有进行数据去重 [30]。然而，论文中列出的不同大小数据集（12.5GB MassiveWeb Wikipedia 与 1GB MassiveText Wikipedia）可能是由于失误而造成的，误将 “10GB” 写成了 “1GB”。无论如何，本文仅使用 MassiveWeb 数据集版本 (12.5GB)。

9.3. Gopher: 不包括 WebText

Gopher 数据集的组成部分不包括 Reddit 外链的 WebText 数据集。为了清楚起见，尽管 Reddit 是 MassiveWeb 中的顶级域，但该数据集仅抓取 Reddit 域内的 Reddit 链接。根据定义，WebText [31] 由 “所有 Reddit 的外链” 组成（即指向 Reddit 域外的链接）。

9.4. Gopher 分组数据集

MassiveWeb 被认为是 MassiveText 的子组件，并被集成到 Gopher 的数据集汇总中，其分组基于以下列出的可用信息：

表 18. Gopher 分组数据集。公开的数据以粗体表示，确定的数据以斜体表示。

9.5. Gopher 数据集总结

Gopher 是本文中最大的数据集，大小为 10.5TB。Gopher 模型的最终数据集总结分析为：

表 19. Gopher 数据集总结。公开的数据以粗体表示，确定的数据以斜体表示。

10、结论

对于训练当代 Transformer 大型语言模型的数据集而言，这可能是最全面的整合分析内容（截止 2022 年初）。在主要数据源不透明的情况下，本次研究主要从二级和三级来源收集数据，并经常需要假定来确定最终估计值。随着研究人员要处理千万亿个 token（1,000 万亿）和数千 TB 的数据（1,000TB），确保详细披露数据集组成的文档变得越来越重要。

特别值得关注的是，基于大型语言模型的强大 AI 系统产生的冗长而匿名的输出正在迅速发展，其中许多数据集的细节内容几乎没有文档说明。

强烈建议研究人员使用突出显示的 “数据集的数据表（Datasheet for Datasets）” 论文中提供的模板，并在记录数据集时使用最佳实践论文（即 Pile v1 论文，包括 token 数量）。数据集大小（GB）、token 数量（B）、来源、分组和其他详细信息指标均应完整记录和发布。

随着语言模型不断发展并更广泛地渗透到人们的生活中，确保数据集的详细信息公开透明、所有人都可访问且易于理解是有用、紧迫和必要的。

扩展阅读及脚注

考虑到简洁和可读性，本文使用了脚注而非文本 / 括弧式引文。主要参考文献如下，或者参见 http://lifearchitect.ai/papers/，获取大语言模型领域的主要基础论文。以下论文按本文顺序显示。

Datasheets for Datasets Gebru, T., Morgenstern, J., Vecchione, B., Vaughan, J., Wallach, H., Daumé III, H., & Crawford, K. (2018). Datasheets for Datasets. https://arxiv.org/abs/1803.09010

GPT-1 paper Radford, A., & Narasimhan, K. (2018). Improving Language Understanding by Generative Pre-Training. OpenAI. https://cdn.openai.com/research-covers/language-unsupervised/language_understan ding_paper.pdf

GPT-2 paper Radford, A., Wu, J., Child, R., Luan, D., Amodei, D. & Sutskever, I. (2019). Language Models are Unsupervised Multitask Learners. OpenAI. https://cdn.openai.com/better-language-models/language_models_are_unsupervised _multitask_learners.pdf

GPT-3 paper Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., & Dhariwal, P. et al. (2020). OpenAI. Language Models are Few-Shot Learners. https://arxiv.org/abs/2005.14165

The Pile v1 paper Gao, L., Biderman, S., Black, S., Golding, L., Hoppe, T., & Foster, C. et al. (2021). The Pile: An 800GB Dataset of Diverse Text for Language Modeling.

EleutherAI. https://arxiv.org/abs/2101.00027

GPT-J announcement Komatsuzak, A., Wang, B. (2021). GPT-J-6B: 6B JAX-Based Transformer. https://arankomatsuzaki.wordpress.com/2021/06/04/gpt-j/

GPT-NeoX-20B paper Black, S., Biderman, S., Hallahan, E. et al. (2022). EleutherAI. GPT-NeoX-20B: An Open-Source Autoregressive Language Model. http://eaidata.bmk.sh/data/GPT_NeoX_20B.pdf

RoBERTa paper Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., & Chen, D. et al. (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach. Meta AI. https://arxiv.org/abs/1907.11692

MT-NLG paper Smith, S., Patwary, M., Norick, B., LeGresley, P., Rajbhandari, S., & Casper, J. et al. (2021). Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model. Microsoft/NVIDIA. https://arxiv.org/abs/2201.11990

Gopher paper Rae, J., Borgeaud, S., Cai, T., Millican, K., Hoffmann, J., & Song, F. et al. (2021). Scaling Language Models: Methods, Analysis & Insights from Training Gopher. DeepMind. https://arxiv.org/abs/2112.11446

Appendix A: Top 50 Resources: Wikipedia + CC + WebText (i.e. GPT-3)

附录 A：前 50 个资源：Wikipedia + CC + WebText（即 GPT-3）

基于本文内容，尤其是每个数据集中每个资源的 token 数量，我们可以对将 Wikipedia + Common Crawl + WebText 数据集的组合，作为其整体训练数据集的一部分模型进行资源或域的排序。为清楚起见，这包括以下模型：OpenAI GPT-3、EleutherAI GPT-J、EleutherAI GPT-NeoX-20B、Meta AI Megatron-11B 和 RoBERTA，以及 Microsoft/NVIDIA MT-NLG 等。

请注意，展示的排名基于数据集中可用的未加权总 token，每个数据集的主观权重由研究人员在模型预训练之前计算得出。其中有一些重复（例如，《纽约时报》既出现在有 1.11 亿 token 的 WebText 中，也出现在过滤后有 1 亿 token 的 Common Crawl 中）。

脚注

1. GPT-NeoX-20B paper: pp11, section 6 http://eaidata.bmk.sh/data/GPT_NeoX_20B.pdf

2. Datasheet for Datasets paper: https://arxiv.org/abs/1803.09010

3. OpenAI blog: https://openai.com/blog/gpt-3-apps/

4. On the Opportunities and Risks of Foundation Models: https://arxiv.org/abs/2108.07258

5. Size of Wikipedia: https://en.wikipedia.org/wiki/Wikipedia:Size_of_Wikipedia

6. C4 dataset: https://www.tensorflow.org/datasets/catalog/c4

7. Common Crawl website: https://commoncrawl.org/

8. C4 paper: https://arxiv.org/abs/2104.08758 pp2, Figure 1 right

9. Wikipedia categories: https://en.wikipedia.org/wiki/User:Smallbones/1000_random_results : “维基百科涵盖哪些主题？覆盖范围是否随时间变化？使用 2015 年 12 月抽取的 1001 篇随机文章对这些问题和类似问题进行了查验... 随着时间推移，这些比例相当稳定... 传记（27.8%），地理（17.7%），文化和艺术（15.8%），历史（9.9%），生物学、健康和医学（7.8%），体育（6.5%），商业（4.8%），其他社会（4.4%），科学与数学（3.5%），教育（1.8%）。”

10. GPT-1 paper: pp4 “We use the BooksCorpus dataset for training the language model.”

11. https://huggingface.co/datasets/bookcorpus : “Size of the generated dataset: 4629.00 MB”

12. BookCorpus Retrospective Datasheet paper: pp9 https://arxiv.org/abs/2105.05241

13. GPT-2 paper: pp3 “我们从社交媒体平台 Reddit 中抓取了至少有 3 个 karma 的所有出站链接。这可以被认为是一个启发式指标，用于判断其他用户是否觉得该链接有趣、有教育意义或只是有趣……WebText 包含这 4500 万个链接的文本子集…… 其中不包括 2017 年 12 月之后创建的链接。经过去重和一些基于启发式的清理后，其中包含大约超过 800 万个文档，总共 40GB 文本。我们从 WebText 中移除了所有维基百科文档...”

14. GPT-2 model card: https://github.com/openai/gpt-2/blob/master/model_card.md : “我们已经发布了 WebText 中出现的前 1,000 个域及其频率的列表。WebText 中排名前 15 位的域是：Google、Archive、Blogspot、GitHub、纽约时报、Wordpress、华盛顿邮报、维基亚、BBC、卫报、eBay、Pastebin、CNN、雅虎和赫芬顿邮报。”

15. GPT-3 paper: “WebText2：190 亿 token。[Alan：WebText2 是从 WebText 稍微扩展而来，所以我们可以减去 20%，得到 150 亿 token]”

16. GPT-2 paper: pp3 “GPT-3: pp9, Table 2.2 “CC: 4100 亿 token. WebText2: 190 亿 token. Books1: 120 亿 token. Books2: 550 亿 token. Wiki: 30 亿 token”

17. GPT-3 paper: pp8

18. BookCorpus repo: soskek/bookcorpus#27 : “books3.tar.gz 似乎类似于 OpenAI 在他们的论文中引用的神秘 “books2” 数据集。不幸的是，OpenAI 不会提供细节，所以我们对其差异知之甚少。人们怀疑它是 “libgen 的全部”，但这纯粹是猜测。尽管如此，books3 仍是 “所有的 bibliotik”......”

19. BookCorpus paper: https://arxiv.org/abs/1506.06724 : “# of words: 984,846,357 [Alan: BookCorpus 有 13 亿 token。我们想要有 120-550 亿 token]”

20. Gutenberg paper: https://arxiv.org/abs/1812.08092 : “我们介绍了标准化项目古腾堡语料库（SPGC），这是一种开放的科学方法，用于处理完整 PG 数据的精选版本，其中包含超过 50,000 本书和 3×109word-token [Alan：相当于大约 120 亿 BPE token，见下文]”

21. Gutenberg repo: https://zenodo.org/record/2422561 “未压缩大小：3GB（count）+ 18GB（token）[总计 21GB]”

22. The Pile v1 paper: “Books3（Bibliotik tracker）：100.96GB” [Alan：乘以每字节 token 数 0.2477 = 250 亿 token]

23. The Pile v1 paper: pp3, Table 1 for datasets. pp28, Table 7 for Tokens per byte.

24. RoBERTa paper: https://arxiv.org/abs/1907.11692 “BOOKCORPUS 加上英文 WIKIPEDIA。这是用来训练 BERT 的原始数据。（16GB）。”

25. BERT paper: https://arxiv.org/abs/1810.04805 “BERT 在 BooksCorpus（8 亿字）和维基百科（25 亿字）上进行训练。”

26. Stories paper: https://arxiv.org/abs/1806.02847 pp5-6

27. RealNews paper: https://arxiv.org/abs/1905.12616v3 “去重后，RealNews 在没有压缩的情况下为 120GB。”

28. Gopher paper: https://arxiv.org/abs/2112.11446 pp 7: list of sizes and tokens.

29. Gopher paper: https://arxiv.org/abs/2112.11446 pp 44, Figure A3b.

30. Gopher paper: pp41n14 “请注意，我们将文档去重应用于除 Wikipedia 和 GitHub 之外的所有 MassiveText 子集 “

31. GPT-2 paper, pp3.

关于作者

Alan D. Thompson 博士是人工智能专家、顾问。在 2021 年 8 月的世界人才大会（World Gifted Conference）上，Alan 与 Leta（由 GPT-3 提供支持的 AI）共同举办了一场名为 “The new irrelevance of intelligence” 的研讨会。他的应用型人工智能研究和可视化成果受到了国际主要媒体的报道，同时还在 2021 年 12 月牛津大学有关 AI 伦理的辩论中被引用。他曾担任门萨国际（Mensa International）主席、通用电气（GE）和华纳兄弟（Warner Bros）顾问，也曾是电气与电子工程师协会（IEEE）和英国工程技术学会（IET）会员。

编辑：黄飞

阅读全文

AI(263628) AI(263628)
OpenAI(5839) OpenAI(5839)
ChatGPT(3870) ChatGPT(3870)

深入云计算揭秘七大未解之谜

2013年，人们对云计算有了更多了解，但同时也涌现出更多的“未解之谜”。本文为大家揭示云计算的七大未解之谜...

2013-02-16 12:08:58

882

ChatGPT/GPT的原理及ChatGPT的技术架构解析

CAI模型训练过程 Claude 和 ChatGPT 都依赖于强化学习(RL)来训练偏好（preference）模型。CAI（Constitutional AI）也是建立在RLHF的基础之上，不同之处在于，CAI的排序过程使用模型（而非人类）对所有生成的输出结果提供一个初始排序结果。

2023-02-16 14:16:58

3427

ChatGPT背后的数据标注，工作量大，报酬低！

用户在短短上线两个月就达到1亿。而强大的ChatGPT背后，离不开一项重要的工作，那就是数据标注。据美媒报道，为了训练ChatGPT，OpenAI的合作伙伴Sama雇佣了肯尼亚、乌干达和印度的外包员工，对庞大的数据库手动进行数据标注。什么是数

2023-02-17 09:17:18

6935

ChatGPT系统开发AI人功智能方案

解决的问题和应用场景，例如智能客服、智能助手等。数据集准备：准备与应用场景相关的数据集，并将其清理、标注、整合等处理，以便为模型提供有效的训练数据。 1.下面是对接gpt的一些请求参数和返回参数示例

2023-05-18 10:16:50

chatGPT一种生产力的变革

的AIGC技术伦理问题是AI所生成内容的危险性。科学家正尝试运用一些技术手段避免这些具有潜在风险的事件发生。通过改善数据集，增加更多的限制性条件以及对模型进行微调，可以使得人工智能减少对于有害内容的学习，从而

2023-04-25 16:04:09

一文解析LWIP内存占用与裁剪

。DNS_MAX_NAME_LENGTH表示能够解析最大的DNS名字长度MEMPOOL内存占用LWIP内存占用主要在MEMPOOL这一块。通过提前开辟静态数组，来提高LWIP分配各种描述符内存的速度。静态内存总共

2022-08-09 10:43:53

一文解析RK3308 Linux串口异步I/O机制

number 序列码，区分不同报文的id。data length 数据长度。data 用户数据。CRC16 完整性校验。串口流数据解析：数据协议解析：基于访问控制思路，大家可以自己实现分包传输的功能

2022-09-27 16:08:06

一文解析传感器的设计要点

好的传感器的设计是经验加技术的结晶。一般理解传感器是将一种物理量经过电路转换成一种能以另外一种直观的可表达的物理量的描述。而下文我们将对传感器的概念、原理特性进行逐一介绍，进而解析传感器的设计的要点。

2020-08-28 08:04:04

一文帮你梳理Cortex与ARMv8等基础概念

到底什么是Cortex、ARMv8、arm架构、ARM指令集、soc？一文帮你梳理基础概念【科普】1. 从0开始学ARM-安装Keil MDK uVision集成开发环境

2021-12-14 08:20:33

一文解读基于RTThread使用libcsv库进行数据解析

1、rtthread运行libcsv 库的使用最近做一个，需要做数据存储化的。一开始是，使用数据生成的目标文件格式为项目名称，保存数据文件来为格式存储，使用 cJSON库进行数据解析，每个

2022-08-25 15:40:05

数据解析

通过VISA读取数据后，我想通过在公示节点里编写c程序来解析数据，应该如何解析呢？数据格式可以是1=2.123取出=后面的数据，或者格式为2 12 3这样把三个数分别取出来

2017-03-23 21:33:36

解析GPS模块串口发送的数据

由于要做一个GPS码表,需要解析GPS模块串口发送的数据,目前串口还没做,先做解析GPS数据工作.GPS模块串口发送的数据有固定的格式,我研究的不多,只知道叫NMEA,我是参考了LeiOuYang

2021-07-16 06:45:37

GPS数据解析与显示

自己做的高精度定位定向接收机数据解析与显示的labview程序，有做类似东西的可以多交流！

2017-11-17 19:47:21

GPS的数据包解析一览表

本帖最后由 gk320830 于 2015-3-5 12:46 编辑 GPS的数据包解析

2014-05-16 16:10:13

Hfut | 集电竞赛

。最后，希望此分享能对集电学子有所帮助。Note：博文所有出现人名均按姓氏排序，提到的文件资料统一放至文末。目录一、竞赛Q.

2021-07-16 06:49:18

LabVIEW运行性能解析视频教程

LabVIEW运行性能解析视频教程认真学习，天天向上！ [hide]LabVIEW运行性能之谜.rar[/hide]

2009-12-10 17:39:02

LabView的PCAN数据解析

用Labview装了pcan的驱动，可以接收到pcan数据了，但是不知道如何解析成程序中自定义的ID及对应的相关可读性信号

2023-02-09 13:03:54

MCU风扇声音大之谜现象描述原因分析

宝利通MCU风扇声音大之谜现象描述原因分析尝试解决歪打正着永不放弃现象描述梅雨季节之前，忽然发现我们的MCU（型号1800）的风扇声音会突然增大。经过观察，基本每隔固定时间，大约3~5分钟响声会加

2021-11-04 08:50:00

NMEA0183数据解析

有没有人做个关于北斗NMEA0183数据解析方面的？

2016-12-29 16:08:58

Netflix Prize数据集讲解

Netflix Prize数据集详解

2020-06-01 17:28:24

json数据解析

json解析，上篇已经GET到了天气状况，是json数据，解析一下看api先是构造json再是解析json数据看例程-----------------------encode测试

2022-01-12 08:15:52

labview串口数据解析

我用labview进行串口数据解析，串口来一串数据例如：2A 3C 1B 23这样十六进制数据，我想讲他们放在数组里面，但是我用字符串至数组转换，出来的是他们的ASCII码，我想让2A 3C 1B 23直接显示在一个数组里，我该怎样写这个程序

2017-09-04 20:51:47

sps数据，解析后发现width height信息不对，配置的是1280 720 解析出来的数据时80 48，有人知道这个sps数据有什么问题吗？

我取出来的sps数据，解析后发现widthheight信息不对，配置的是1280 720 解析出来的数据时80 48，有人知道这个sps数据有什么问题吗

2018-05-25 05:44:18

【中级】labview每日一教【11.25】视频教程labview定时循环之谜

定时循环之谜教程：[hide][/hide]labview定时循环之谜视频：http://yunpan.cn/lk/48re2dyjll

2011-11-25 10:09:12

【中级】labview每日一教【11.28】视频abview事件结构之谜

labview事件结构之谜：事件驱动机制在图形化操作系统中被广泛使用，因为图形化操作系统需要响应鼠标或键盘等事件。早期的LabVIEW中并没有引入事件驱动机制，事件结构出现在LabVIEW6.1

2011-11-28 10:26:32

【先楫HPM5361EVK开发板试用体验】(原创)5.手把手实战AI机械臂

HPM5361EVK开发板。现在开始设计实战AI机械臂的程序。代码结构由于编写一个完整的用先楫HPM5361EVK开发板控制三组四自由度机械臂，并加入红外线传感器、机器视觉和ChatGPT连接

2024-02-06 10:28:43

【国产FPGA+OMAPL138开发板体验】（原创）6.FPGA连接ChatGPT 4

OMAP-L138（定点/浮点DSP C674x+ARM9）+ FPGA处理器的开发板。编写一个用于FPGA访问ChatGPT 4的程序代码是一个相当复杂的任务，涉及到硬件设计、网络通信、数据处理等多个

2024-02-14 21:58:43

不到1分钟开发一个GPT应用！各路大神疯狂整活，网友：ChatGPT就是新iPhone

的能力仍然是不可替代的。此外，ChatGPT等语言模型的应用也需要大量的数据和算力支持，以及专业的技术人员进行开发和维护。因此，虽然ChatGPT等语言模型在某些方面具有一定的优势，但它们并不能完全取代

2023-11-19 12:06:10

串口数据解析

串口发送频率：10HZ三桢数据代表一个信息，三桢数据依次发送，如何保证每一个信息是由对应的三桢数据所解析出来的。下面是假设串口发送的数据。$a,abc$b,def$c,ghi$a,jkl$b,mno$c,pqr$a,stu$b,vwx$c,yz1新手出入门，求解答。

2017-03-31 13:23:04

串口数据如何采集，能否解析

请问一下，如何采集串口的数据？串口数据是ASCII码吗？这个数据需要如何解析呢？

2017-04-11 13:54:11

为什么数据集上传一会网站就上不去了？

2023-09-13 07:38:14

介绍一种简单的数据解析方法

C语言简单数据解析在嵌入式开发中通过串口等传输数据通常使用JSON解析，虽然JSON十分强大，但JSON耗费资源太多，数据的打包和解析都比较麻烦。有时我们只是传输一些简单的数据，没必要引入

2022-02-28 06:15:11

介绍内部EEPROM数据读取和解析

EEPROM数据读取和解析上一篇我们简单介绍了热成像传感器德国海曼的HTPA 32x32d，本文主要进一步介绍内部EEPROM数据读取和解析。存储结构一览在说海曼这个传感器之前，我们先对另一个厂商

2021-12-07 12:14:26

光耦PC817中文解析

2012-08-20 14:32:28

共集放大电路（图集、解析、仿真）

共集极放大电路2射极回授式偏压共集极电路3定点偏压式偏压共集极电路4 共基极放大电路原理6共基极放大电路分析7差动放大器8差动放大器直流偏压9差动放大器输入阻抗10差动放大器电压增益共集极放大电路图

2018-11-30 17:26:01

在IC设计/验证中怎么应用ChatGPT呢？

技术改变生活。最近一段时间，OpenAI旗下的ChatGPT大火。根据官网自身的介绍（见图1），其是由 OpenAI 提出的大型预训练语言模型，使用了许多深度学习技术，可以生成文本内容，也可以进行

2023-02-21 15:16:46

如何利用keras打包制作mnist数据集

;quot;" 解析idx1文件的通用函数 :param idx1_ubyte_file: idx1文件路径 :return: 数据集 "&quot

2023-08-18 06:12:03

如何对惯导的数据实时解析呢？

两个线程，线程1负责串口读出来的数据压入一个循环buffer；线程2，负责读取缓存buffer 数据，并且按照协议解析出数据值。考虑实时性，当前的buffer 最多容纳两个完整的数据信息。但是这种方案就是目前测试，存在延时。。。

2022-11-08 10:35:11

如何对标准sscanf语法与数据进行解析呢

概述在C语言应用开发过程中，常常需要对字符串数据进行解析，这些字符串可能是从文件、键盘或者其他设备读入。比如与 AT 设备通信时，需要对 AT 设备发送过来的数据进行解析，从而获得我们想要的一些数据

2022-08-30 14:36:21

如何用TensorFlow导入MNIST数据集？

用TensorFlow导入MNIST数据集

2020-11-11 07:33:24

建立开发集和测试集（总结）

• 被选择作为开发集和测试集的数据，应当与你未来计划获取并对其进行良好处理的数据有着相同的分布，而不一定和训练集的数据分布一致。• 开发集和测试集的分布应当尽可能一致。• 为你的团队选择一个单值评估

2018-12-14 10:56:57

开发集和测试集应该服从同一分布

”和“其它地区”的数据归于测试集。也就是说我们可以随机地将其中两个区域的数据分配给开发集，另外两个区域的数据分配给测试集。这样做对吗？当然不对！一旦定义好了开发集和测试集，你的团队将专注于提升开发集的性能

2018-12-10 10:15:29

怎么删除分析中的“Ghost”数据集

Genesys 2007.03我添加了一个分析，例如“分析1”。然后我删除了这个分析。现在，其数据集“Analysis 1_Data”的名称仍保留在各种下拉列表中。已删除分析的虚假数据名称往往会

2019-02-20 09:12:46

探讨一下关于电机轴承的数据集

这篇和大家探讨一下关于电机轴承的数据集电机轴承的数据集目前较多采用的是CWRU（凯斯西储大学轴承数据中心）这是一个针对于全球学者的公开数据集，下面给大家分享一下该数据集的获取

2021-09-08 06:52:05

用FPGA做的MCU内核的汇编指令集完全解析

用FPGA做的MCU内核的汇编指令集完全解析，FPGA使用VHDL编写MCU内核，使用PHP编写汇编器，使用vc studio编写FLASH下载器，全套资料在 www.creuu.com 免费下载

2020-03-04 18:53:52

用cjson的库去解析数据

最近项目用到cjson的库去解析数据，当解析的的数据比较长时，会解析失败，但是短的数据则没有问题，后面排查是因为cjson解析需要用到的内存比较大，溢出导致解析失败。在默认stm32的keil工程中

2022-01-12 06:14:53

用在解析云端数据的源码是怎样的

用在解析云端数据的源码是怎样的？如何去实现这种源码呢？

2021-10-18 09:00:33

电源拆解新知：主动式PFC电路高功率因数之谜

2012-08-15 18:55:03

科技大厂竞逐AIGC，中国的ChatGPT在哪？

。亚马逊成立了一个小型工作组，拓展ChatGPT等AI工具对企业的工作职能…… ChatGPT火爆，搜索引擎巨头百度率先坐不住了。就在谷歌官宣Bard内测的当天下午，百度官宣了大模型新项目“文心一

2023-03-03 14:28:48

自己数据如何制作tfrecords格式数据集

自己数据制作tfrecords格式的数据集

2020-05-13 15:18:54

蓝牙模块有哪些特征？一文详细解析

`蓝牙模块详细解析物联网在智能家居、电子产品等领域全面发展，使近距离通信的无线连接技术越来越多的应用在物联网新兴产品中，为设备提供稳定和低功耗的数据传输服务的蓝牙模块更是成为物联网市场的宠儿，被

2018-06-13 17:24:08

请问LWIP的ping解析和数据解析在哪个协议里？

LWIP+F4+DP83848现在ping通了，下一步要做两个IP来传数据和解析数据，求大神告知一下做两个IP的话，是不是通过ping来识别两个设备的，ping 的解析在那个协议里，还有数据传输用UDP，UDP的传输数据在官方库里写好了还是要自己写？

2019-10-10 22:22:41

请问gps接收数据是每接收一条解析一条吗？

请教下，gps 数据是每接收一条解析一条还是一次全部接收完成后再一起解析 ？？？

2018-11-02 08:49:23

美国ALLEGRO文丘里风机气动通风机，

美国ALLEGRO文丘里风机，气动风机，气动通风机，文丘里风机应用于：炼油厂、发电厂、造船厂、造纸和纸浆厂、海洋舰船、钢铁工业以及人孔（沙井）的通风换气。文丘里风机特别适用于有毒烟雾

2022-10-18 16:30:36

让chatGPT帮我写硬件代码，是懂行的，好助手！#chatgpt #物联网开发 #python开发板

ChatGPT

苏州煜瑛微电子科技有限公司发布于 2023-02-17 15:27:42

#人工智能 #ChatGPT #硬件工程师

ChatGPT

孤独的光发布于 2023-02-21 22:01:27

#chatgpt 使用chatGPT辅助开发第一弹-电路设计，让它设计一个放大电路，看下效果#人工智能

ChatGPT

jf_82140138发布于 2023-02-27 13:07:41

#chatgpt chatGPT辅助开发第二弹软件单元代码编写，工作效率大幅提升，代码可用性高#人工智能

ChatGPT

jf_82140138发布于 2023-03-02 13:21:22

ChatGPT对话语音识别

ChatGPT

YS YYDS发布于 2023-05-30 22:13:10

C语言简单数据解析

2022-01-13 15:17:48

解开车辆检测算法之谜

2023-01-05 09:43:38

803

ChatGPT概念有多火？89%美国大学生竟用ChatGPT写作业

生成 AI 里，ChatGPT 是最好用一个。连带着ChatGPT概念股都在不停的涨。公开的数据显示出ChatGPT概念有多火，ChatGPT五天时间内，注册用户数超过了100万，目前这一数据已经突破

2023-02-07 18:24:31

3309

什么是ChatGPT？行业如何看待ChatGPT？

　　ChatGPT的出现让投资者再次将目光聚集在AIGC（人工智能创作内容）赛道。近期，多只ChatGPT相关概念股分外活跃，这些个股背后的公司都有在AIGC赛道上布局相关业务。

2023-02-08 16:54:21

10002

ChatGPT入门指南

　　ChatGPT入门指南　　什么是ChatGPT？　　为什么ChatGPT意义重大？　　如何使用ChatGPT 　　什么是ChatGPT？　　ChatGPT

2023-02-10 11:19:06

chatgpt是什么

chatgpt是什么 ChatGPT，美国OpenAI 。ChatGPT是人工智能技术驱动的自然语言处理工具，它能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动，真正像人类一样

2023-02-10 14:05:28

38508

chatgpt怎么用

使用了一种叫做Transformer的神经网络架构，这是一种用于处理序列数据的模型，能够在输入序列中捕捉长期依赖性。它还使用了大量的语料库来训练模型，这些语料库包含了真实世界中的对话，以便模型能够更好地理解人类语言。 chatgpt怎么用？ 1、注册或登录OpenAI账户 OpenAI有一个专门的

2023-02-10 14:22:27

57024

如何注册ChatGPT 全流程分享

最近ChatGPT话题简直火热，出于体验的目的，写一篇关于在国内如何注册ChatGPT的全流程注册，包教包会。 ChatGPT是什么? 维基百科-ChatGPT 注册ChatGPT 准备注册注册

2023-02-13 10:19:05

ChatGPT使用初探

　　最近一直听到ChatGPT，如雷贯耳，目前只能在国外用。近期找了个时间专门研究了怎么使用ChatGPT. 　　ChatGPT是一种大型语言模型，由 OpenAI 训练。它可以生成

2023-02-13 10:11:07

火爆全网的ChatGPT上手体验

文章目录 1. ChatGPT公开信息 2. ChatGPT上手体验 3. ChatGPT目前趋势 4. 福利派送 1. ChatGPT公开信息近期关于网路上对ChatGPT （OpenAI发布

2023-02-13 09:52:11

ChatGPT的智能来自哪里

　　ChatGPT \text{ChatGPT} ChatGPT火了！作为开放域对话系统， ChatGPT \text{ChatGPT} ChatGPT展示出了出乎意料的智能。在人们惊讶

2023-02-14 10:15:38

关于数据治理ChatGPT是如何回答的？

这两天你的朋友圈是不是被火爆全网的ChatGPT霸屏了？你是不是已经迫不及待感受过ChatGPT带来的惊喜？那你知道ChatGPT是什么吗？

2023-02-17 10:19:11

708

ChatGPT会抢谁的饭碗 ChatGPT可以替代哪些行业

ChatGPT会抢谁的饭碗 ChatGPT可以替代哪些行业人工智能可以应用于很多的领域，如自动驾驶、语音识别、计算机视觉、机器人技术、自然语言处理、智能客服、智能家居等。现在爆火的ChatGPT

2023-02-17 17:08:20

4149

详解ChatGPT数据集之谜

2023-02-21 10:06:23

1432

ChatGPT/GPT的原理 ChatGPT的技术架构

ChatGPT 是基于GPT-3.5（Generative Pre-trained Transformer 3.5）架构开发的对话AI模型，是InstructGPT 的兄弟模型。 ChatGPT很可能是OpenAI 在GPT-4 正式推出之前的演练，或用于收集大量对话数据。

2023-02-24 10:05:13

1421

小程序：ChatGPT-Plus助手发布啦！

在智能客服系统中，ChatGPT技术可以用于自动化的问题解答，为用户提供更加智能、高效的服务。例如，当用户询问“怎么联系客服？”时，ChatGPT技术可以自动解析问题意图，从而快速提供相应的联系方式和服务。

2023-03-01 10:03:49

1635

一文解析ChatGPT原理及技术架构算法

OpenAI使用 RLHF（Reinforcement Learning from Human Feedbac，人类反馈强化学习）技术对 ChatGPT 进行了训练，且加入了更多人工监督进行微调。

2023-03-10 15:38:00

9002

ChatGPT是什么？普通人应该如何去使用ChatGPT

ChatGPT的最强输出能力便是他的文字输出能力，而文字输出变现的软件有很多例如知乎百家号等，ChatGPT的语言生成模型，它能够通过训练集自动生成文本。这使得利用ChatGPT进行文字变现成为一种可能性ChatGPT可以从给定主题生成无数种可能的文章。

2023-03-17 10:28:55

3247

意大利宣布禁止使用ChatGPT OpenAI情何以堪

意大利宣布禁止使用ChatGPT OpenAI情何以堪就在ChatGPT如日中天之后ChatGPT迎来的一大痛击，意大利宣布禁止使用ChatGPT。意大利个人数据保护局已经正式宣布，即日起暂时

2023-04-01 19:10:09

2736

《ChatGPT的前世今生》南航李丕绩教授的解析

今天分享南京航空航天大学——李丕绩教授做的464页PPT《ChatGPT的前世今生》。从人工智能发展史，AI十年回顾，自然语言处理，ChatGPT诞生，模型分析，大模型应用，ChatGPT 可以

2023-04-17 11:50:09

1725

ChatGPT是什么？ChatGPT写代码的原理你知道吗

"(Generative Pre-trained Transformer)，这是一种广泛用于自然语言处理的深度学习模型。ChatGPT是基于这种模型的聊天机器人，它可以通过大量的数据训练来不断优化

2023-06-04 17:01:57

2330

ChatGPT应用实战

ChatGPT自发布之后一直大火至今，引起行业震动，我们也持续在跟进ChatGPT，体验其功能，了解其技术原理，并基于爬虫技术封装了ChatGPT API，在实际NLP应用场景下对比了ChatGPT和自研技术的效果。本文从应用角度出发，给出一些对ChatGPT的思考。

2023-06-06 17:47:00