IBM 专家观点：IBM 大模型揭秘-电子发烧友网

作者：吴敏达，IBM 科技事业部数据与人工智能资深技术专家

作者简介：吴敏达是 The Open Group 卓越级技术专家 (Distinguished Technical Specialist)，同时拥有计算机技术与软件专业系统架构设计师技术资格。他现在是 IBM 科技事业部数据与人工智能资深技术专家，拥有 20 多年数据分析软件相关技术经验，是 IBM 认证的大数据架构师和 Watson 开发者，专长是大数据、人工智能等领域。他是 IBM Developer 的大师级作者，已经发表了 40 余篇技术文章和教程。现从事大数据、人工智能相关技术支持和架构设计工作。

引言

对企业用户而言，拥有选择权对于成功采用人工智能至关重要。对于生成式 AI ，并非所有大模型都是一样的，一种模型并不适合所有情况：最好的模型将取决于行业、领域和用例。IBM watsonx 为客户提供一系列模型选择，包括 IBM 开发的基础模型、开源模型以及来自第三方供应商的模型，在模型和部署环境两个维度上提供选择和灵活性。

更重要的是，模型并不总是越大越好，过大的模型推理成本太高，企业无法承担运行

数据处理

为了支持企业级大模型的训练，IBM 构建了一个来自学术界、互联网、企业 (例如金融、法律) 和源代码的非结构化语言数据的大数据集。这是非常罕见的，也表示了 IBM 对透明度和负责任的 AI 的承诺。

该预训练数据集是替代开源数据集而创建的专有数据集，开源数据集因包含有毒、有害或盗版内容而受到批评。通过构建 IBM 预训练数据语料库解决以上提到的这些问题和其他隐含问题。IBM 大模型训练中使用的数据集如下：

1. arXiv: 发布到 arXiv 的超过 180 万篇科学论文预印本。

2. Common Crawl: 开放的可以被网络爬虫获取的存储库。

3. DeepMind Mathematics: 数学问答数据。

4. Free Law: 来自美国联邦和州法院的公共领域法律意见。

5. GitHub Clean: 来自 CodeParrot 的源代码数据，涵盖多种编码语言。

6. Hacker News: 2007-2018 年产生的计算机科学与创业新闻。

7. OpenWeb Text: OpenAI 的 Web 文本语料库的开源版本，包含到 2019 年的网页。

8. Project Gutenberg (PG-19): 免费电子书库，重点关注美国版权已过期的旧作品。

9. Pubmed Central: 生物医学和生命科学论文。

10. SEC Filings: 美国证券交易委员会 (SEC)1934-2022 年的 10-K/Q 文件。

11. Stack Exchange: Stack Exchange 网络上所有用户贡献内容的匿名集合，这是一个以用户贡献的问题和答案为中心的流行网站集合。

12. USPTO: 1975年至2023年5月授予的美国专利，不包括外观设计专利。

13.Webhose: IBM 获取的 Web 内容转换为机器可读数据集。

14. Wikimedia: 维基项目 (enwiki，enwikibooks，enwikinews，enwikiquote，enwikisource，en- wikiversity，enwikivoyage，enwiktionary)。包含从页面和文章中提取的纯文本。

IBM 精选的预训练数据集正在不断增长和发展，其他数据会定期审查并考虑添加到语料库中。除了增加预训练数据的大小和范围外，还会定期生成和维护这些数据集的新版本，以反映增强的过滤功能 (例如，重复数据删除以及仇恨和脏话检测) 和改进的工具。

在 granite.13b 进行预训练时，IBM 在预处理之前收集了 6.48 TB 的数据，在预处理后构建了 2.07 TB 的训练数据。而 granite.20b.code 在预处理后构建了 100 多种不同编码语言的 1.6T 的训练数据，包括 Cobol 和 Ansible。

整个数据预处理管道的各种步骤为模型训练做好准备，整个过程是在最大的可信企业级数据湖 watsonx.data 上完成的，这是建立在开放式湖仓一体架构之上。预处理过程由以下步骤组成：

1）文本提取

2）重复数据消除

3）语言识别

4）句子拆分

5）仇恨、辱骂和脏话检测

6）文档质量注释

7）网址屏蔽列表注释

8）过滤

9）标记化

从训练数据可以看出，IBM 模型为什么可以安全地供企业使用？

根据 IBM 广泛的数据治理实践 (对应于数据清理和获取)对模型进行了审查；文件质量检查；预处理数据管道，包括标记化、重复数据删除等。
Granite 模型根据 IBM 自己的 HAP (仇恨、辱骂和脏话)检测器审查的数据进行训练，以检测并根除令人反感的内容，并以内部和公共模型为基准。
IBM 部署定期、持续的数据保护措施，包括监控以盗版或其他攻击性材料闻名的网站，并避开这些网站。‍

‍

‍

模型训练

第一阶段预训练过程，granite.13b 基础模型经过 30 万次迭代训练，批量大小为 4M 个 Token，总共 1 万亿个 Token。预训练让大模型根据输入生成文本。

第二阶段监督微调过程，使用来自不同来源的数据集混合执行监督微调，每个示例都包含一个提示和一个答案，执行3个周期获得 granite.13b.instruct 模型。

第三阶段对比微调过程，惩罚来自负数据分布的数据点概率，同时增加来自正数据分布的数据点的概率。换句话说，我们不鼓励大模型为每个训练提示生成错对齐的答案 (例如有害的答案)，同时鼓励对齐的答案 (例如有用的答案)。通过防止模型输出出现幻觉和错位，最后获得 granite.13b.chat 模型。

IBM 用于训练基础模型的主要计算基础设施是 AI 优化的云原生超级计算机 Vela [2]，每个 Vela节点：

• 8 个 80GB A100 GPU

• 96 CPU

• 1.5TB 的 DRAM

• 4 个3.2TB NVMe 固态硬盘

• 600GBps GPU 高可用网络连接

• 1.6TB 跨机架带宽

granite.13b.v1 大模型是在较旧的基础设施上训练的，使用了 256 个 A100 GPU，花费了 1056 GPU Hours。而 granite.20b.code 大模型是在更新的基础设施上训练的，使用了 768 个 A100 GPU。

应用场景

Granite 大模型支持所有 5 个 NLP 任务 (问答、生成、提取、总结、分类)，这些任务针对跨多个领域的业务目标数据进行训练，以提供最相关的见解。IBM 训练的 AI 模型可以通过快速的工程技术进一步定制，以满足特定的企业任务，从而在 watsonx.ai 中实现更高的准确性和实现价值的时间。最终可以使用企业数据针对独特的下游任务调整模型，例如，针对正在进行的以 NLP 为中心的任务进行提示调整。

企业需要的模型一定是学到企业的专用知识，当使用 IBM 开发的模型来创建差异化的 AI 资产时，可以进一步定制 IBM 模型以满足特定的下游任务。通过提示工程和微调技术，客户可以负责任地使用自己的企业数据来提高模型输出的准确性，从而创造竞争优势。watsonx.ai 可以进行本地部署，从而实现数据的合规和安全。

Granite 大模型采用了特定领域的企业数据，10% 的训练数据来自法律和金融，这使得信用风险评估、保险 QA、对话式金融 QA 和总结等财务任务具有卓越的性能。因此，金融服务领域的客户 (银行、保险、金融)或有法律需求的客户，Granite 是一个值得推荐的绝佳模型。另外 Granite.13b 需要更少的 GPU 资源实现金融任务的卓越性能，从而实现更高的性价比。基于 IBM Research 的初步评估和测试，涵盖 11 种不同的金融任务，结果表明 granite-13b 是金融任务中表现最佳的模型之一，评估的任务包括：提供股票和财报电话会议记录的情绪评分、对新闻标题进行分类、提取信用风险评估、总结金融长篇文本以及回答金融或保险相关问题。在测试中，granite-13b 的速度比业界 70b 的大模型快 3 倍，GPU 资源消耗减少 1/4。令人欣喜的是，granite.13b.v2 也正在紧锣密鼓的开发训练中，通过添加多语言的语料训练，实现多语言支持。

在代码领域，granite.20b.code 分为 cobol 和 ansible 的两个变体，granite.20b.code.cobol 可在 IBM Z 上更快地将 COBOL 语言转换为 Java 语言，从而提高开发人员的工作效率；而 granite.20b.ansible 旨在为 IT 运营自动化生成 ansible 剧本。

治理和管控

IBM 的 AI 开发方法以基于信任和透明度承诺的核心原则为指导，坚信要负责任地创建、部署和利用 AI 模型来推动业务创新。

在 Granite 模型开发中利用 watsonx.governance 进行基础模型生命周期治理，通过基准测试评估模型质量，打包并标记通过测试的模型，创建模型名片，记录模型细节，合并数据名片与模型名片，形成模型事实。支持大模型特定指标收集和警报，提升公平性和责任 (例如监控滥用和亵渎行为)，通过源属性解释大模型输出，提供大模型使用指南和最佳实践。

采用生成式 AI 的首要障碍是对数据血缘或来源的担忧，为了更好地理解为其智能系统提供数据的数据，通过IBM 最新收购的数据血缘厂商 Manta[3]，提高了 watsonx 内部的透明度，以便企业可以确定其 AI 模型和系统是否使用了正确的数据、数据的起源、演变方式以及数据流中的任何差异。

总结

考虑到开放和单一模型无法满足每个业务用例的独特需求，Granite 系列正在开发不同参数大小的模型。同时 IBM 定期从开源大模型中从性能、伦理、法律、数据等角度选择和审查商业适用性最合适的更新到 watsonx 平台中。借助这些模型和 watsonx，帮助企业成为 AI 价值创造者，可以将企业专有数据引入 IBM 大模型和开源模型，构建适合其业务和用例的独特模型。

面向平台的方法：watsonx 是一个在 OpenShift 上运行的平台，具有 AI 推理功能并运行 Ray 和 PyTorch 等开源技术。客户可以将其部署在自己选择的基础架构中，从而可以安全地与企业数据集成。采用私有化部署，无需额外担心数据安全和主权。
客户保护: IBM 标准的知识产权保护 (与其为硬件和软件产品提供的知识产权保护相类似) 将适用于由 IBM 开发的 watsonx 模型。IBM 为其基础模型提供 IP 赔偿 (合同保护)，使其客户能够更有信心地使用他们的数据来构建 AI ，这是生成式 AI 竞争优势之所在。客户可以使用他们自己的数据和由 IBM 基础模型所提供的客户保护、准确性和信任来开发他们的 AI 应用程序。
数据和人工智能治理：随着监管人工智能，全球客户面临着利用人工智能安全创造价值的压力。 IBM watsonx 拥有全面、领先的 AI 和数据治理产品组合，提供模型治理、监控，独有的仇恨、辱骂和脏话检测过滤器，支持管理监管要求，以便客户能够以负责任、安全和合乎道德的方式扩展 AI。

参考资料：

[1] https://www.ibm.com/downloads/cas/X9W4O6BM

[2] https://research.ibm.com/blog/AI-supercomputer-Vela-GPU-cluster

[3]https://newsroom.ibm.com/IBM-acquires-Manta-Software-Inc-to-complement-data-and-AI-governance-capabilities

关于 IBM

IBM 是全球领先的混合云、人工智能及企业服务提供商，帮助超过 175 个国家和地区的客户，从其拥有的数据中获取商业洞察，简化业务流程，降低成本，并获得行业竞争优势。金融服务、电信和医疗健康等关键基础设施领域的超过 4000 家政府和企业实体依靠 IBM 混合云平台和红帽 OpenShift 快速、高效、安全地实现数字化转型。IBM 在人工智能、量子计算、行业云解决方案和企业服务方面的突破性创新为我们的客户提供了开放和灵活的选择。对企业诚信、透明治理、社会责任、包容文化和服务精神的长期承诺是 IBM 业务发展的基石。

了解更多信息，请访问：https://www.ibm.com/cn-zh

END 往期回顾

→新发声&强阵容｜齐聚 IBM 企业数据合规治理研讨会

→制造企业采用 IBM App Connect 打败应用集成“拦路虎”

点击“阅读原文”，获取更多内容

原文标题：IBM 专家观点：IBM 大模型揭秘

文章出处：【微信公众号：IBM中国】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

IBM

IBM

+关注

关注
3

文章
1755

浏览量
74679

原文标题：IBM 专家观点：IBM 大模型揭秘

文章出处：【微信号：IBMGCG，微信公众号：IBM中国】欢迎添加关注！文章转载请注明出处。

IBM TechXchange 2024精彩前瞻

IBM TechXchange 大会是全球开发者和技术爱好者的年度盛会，为全世界的技术专家和业务人员提供针对其行业和专业的实践学习。对于开发人员来说，这是一个深入了解 IBM 解决方案核心并保持其技能处于创新前沿的机会，每年在大

发表于 12-05 15:34 •217次阅读

<b class='flag-5'>IBM</b> TechXchange 2024精彩前瞻

IBM将在云平台部署AMD加速器

IBM与AMD近期宣布了一项重要合作协议，根据协议，IBM将在其云平台上部署AMD Instinct MI300X加速器。这一举措旨在提升企业客户在生成式AI模型方面的性能和能效，进一步推动AI技术的创新与应用。

发表于 11-19 16:24 •213次阅读

IBM与AMD携手将在IBM云上部署AMD Instinct MI300X加速器

近日，全球领先的科技企业IBM与AMD共同宣布了一项重要合作。双方计划在IBM云上部署AMD的Instinct MI300X加速器服务，以满足企业客户对于高性能和高效能AI模型的需求。据悉，这项

发表于 11-19 11:03 •444次阅读

IBM推出高性能AI模型Granite 3.0

在近日举行的IBM年度TechXchange大会上，IBM正式推出了其最先进的AI模型家族——Granite 3.0。这款旗舰级语言模型代表了IBM

发表于 10-28 17:39 •448次阅读

IBM发布Granite 3.0 AI模型家族

IBM在近日举行的年度TechXchange大会上，正式推出了其迄今为止最先进的AI模型家族——Granite 3.0。这一系列的发布标志着IBM在人工智能技术领域的又一次重大突破。

发表于 10-23 17:09 •435次阅读

IBM发布面向企业的人工智能模型新版本

近日，IBM正式发布了其面向企业的人工智能模型——Granite 3.0的最新版本，旨在抓住当前企业纷纷拥抱生成式AI技术的热潮。与IBM Granite系列中的其他AI模型一样，Gr

发表于 10-22 17:32 •450次阅读

IBM关闭中国研发部门

IBM近期宣布了一项重大战略调整，决定将其在中国系统实验室的基础设施业务研发工作全面撤出，并转移至海外其他IBM基础设施基地。这一决定背后，是中国市场近年来基础设施业务面临的挑战与下滑趋势。为更好地把握全球市场机遇，IBM作出了

发表于 08-27 15:58 •508次阅读

IBM Granite系列模型被Forrester评为“强劲表现者”

近日，IBM 凭借其旗舰 Granite 系列模型，在 2024年第二季度的《Forrester Wave：语言 AI 基础模型》报告中，被评为“强劲表现者”。

发表于 08-16 11:34 •462次阅读

IBM开源AI模型，推动AI企业化应用

IBM近日宣布，将把一系列先进的人工智能模型以开源软件的形式发布，此举标志着人工智能技术在企业应用上的新篇章。公司表示，随着watsonx平台推出满一年，该平台将迎来重大更新，新增的数据和自动化功能将使企业能够更轻松地集成和部署AI技术。

发表于 05-22 09:25 •488次阅读

红帽发布RHEL AI开发者预览版，集成IBM Granite模型，简化AI开发流程

RHEL AI依托InstructLab开源项目，结合IBM Research的开源授权Granite大型语言模型与InstructLab模型对齐工具，采用LAB（Large-scale Alignment for chatBo

发表于 05-08 15:01 •485次阅读

IBM推出IBM Storage Assurance这一全新的IT生命周期管理模式

近日，IBM 推出了 IBM Storage Assurance 这一全新的 IT 生命周期管理模式，旨在为客户的数据中心提供灵活的选择与控制，以最大程度提高性能。

发表于 05-08 14:09 •418次阅读

IBM将收购软件公司HashiCorp

科技巨头IBM近日宣布，将斥资64亿美元以每股35美元的价格现金收购知名软件公司HashiCorp。此次收购旨在进一步增强IBM在云计算和基础架构管理领域的实力。

发表于 05-06 10:35 •538次阅读

IBM已同意收购HashiCorp 估值64亿美元

IBM已同意收购HashiCorp 估值64亿美元 IBM公司计划以每股35美元的价格收购云软件开发商HashiCorp，支付方式为现金，预计将在2024年底之前完成。这家总部位于旧金山

发表于 04-25 16:36 •537次阅读

2023 “IBM 影响力”报告

4月 11日，IBM 发布 2023年“IBM 影响力”报告。该报告总结了公司 2023年在环境、社会和治理 (ESG) 方面实施的举措、合作伙伴以及投资情况，以便持续推进构建更加可持续未来的目标

发表于 04-21 09:36 •607次阅读

IBM在watsonx上提供开源的Mistral AI模型

IBM 提供 Mixtral-8x7B 的优化版本，该版本可将延迟时间最多缩短 75% IBM、第三方和开源模型的目录不断增加，为客户提供更多选择和灵活性是 watsonx 人工智能与数据平台

发表于 03-12 19:10 •1328次阅读

搜索历史

IBM 专家观点：IBM 大模型揭秘

评论

IBM TechXchange 2024精彩前瞻

IBM将在云平台部署AMD加速器

IBM与AMD携手将在IBM云上部署AMD Instinct MI300X加速器

IBM推出高性能AI模型Granite 3.0

IBM发布Granite 3.0 AI模型家族

IBM发布面向企业的人工智能模型新版本

IBM关闭中国研发部门

IBM Granite系列模型被Forrester评为“强劲表现者”

IBM开源AI模型，推动AI企业化应用

红帽发布RHEL AI开发者预览版，集成IBM Granite模型，简化AI开发流程

IBM推出IBM Storage Assurance这一全新的IT生命周期管理模式

IBM将收购软件公司HashiCorp

IBM已同意收购HashiCorp 估值64亿美元

2023 “IBM 影响力”报告

IBM在watsonx上提供开源的Mistral AI模型