【Gemini 大模型主打多模态,性能对标GPT-4】
当地时间12月6日, 谷歌公司宣布推出其规模最大、功能最强的多模态大模型 Gemini, 其最强大的 TPU (张量处理单元)系统 “Cloud TPU v5p”, 以及来自谷歌云的人工智能超级计算机。
本次谷歌推出的多模态大模型Gemini 依然采用Transformer 架构,采用高效Attention 机制,支持32k 的上下文长度。Gemini 主打在多模态领域的突出能力,在输入端,Gemin 可以适应文本与音视频交叉的输入序列,比如自然图像、图表、截图、pdf 和视频等。在输出端, Gemini 兼具文本和图像两种输出形式。与市面上大模型不同的地方在于, Gemini 从设计之初开始就是多模态的,并不像 OpenAI 构建 DALL·E 和 Whisper 单独训练图像和语音模型。
Gemini 1.0 家族涵盖三类模型,各有定位:
1)Gemini Ultra: 用于高度复杂的任务,为规模最大、功能最强的类别,定位为 GPT-4的竞争对手;
2)Gemini Pro: 是一款中端型号,用于增强性能和大规模部署能力,根据谷歌技术报告, 其性能优于GPT-3.5;
3)Gemini Nano: 主要用于特定任务和移动设备。
模型能力方面, Gemini 系列在文本、多模态、模态组合等领域均实现了较大进展,在绝大多数基准测试中性能领先于GPT-4。
1、文本领域: Gemini Ultra 在多项基准测试中领先于GPT-4, 并成为现有 第一个在大规模多任务语言理解(MMLU) 方面超越人类专家的模型。在谷歌技术报告中,公司将Gemini 与 GPT-4以及此前谷歌最强的语言大模型 PaLM2 等等进行了比较,在大型语言模型 (LLM) 研发中使用的32个广泛使用的学术基准中,GeminiUltra 的性能有30个超过了当前最先进的结果(SOTA,State Of The Art),全面领先于GPT-4。
2、多模态领域, Gemini Ultra 在图像、视频、音频多项基准测试中同样实现超越GPT-4V。图像理解方面,无论是回答自然图像问题,进行扫描文档的文本识别,还是理解信息图表、图表和科学图解, Gemini Ultra 在多个任务上都取得了显著改进。视频理解方面,Gemini Ultra 彰显了强大的时态推理能力,在各种少镜头 (Few-shot)视频字幕任务和零镜头视频问答任务上取得了SOTA。 音频理解方面,Gemini Pro 模型在英语和多语言测试集的所有自动语音识别(ASR) 和自动语音翻译(AST) 任务中都明显优于 USM 和 Whisper 模型,Gemini Nano-1 模型在除 FLEURS 以外的所有数据集上也优于USM 和 Whisper。
3、除此之外,模态组合领域, Gemini 彰显了处理多模态输入、跨模态推理 的强大能力。谷歌通过煎鸡蛋的烹饪场景示例,展示了Gemini 处理文本、视觉和音频交叉序列的能力以及跨模态推理能力。
【算力优势稳固,发布新一代云端 AI 芯片 TPUv5p】
本次谷歌在发布 Gemini 的同时推出了全新的面向云端AI 加速的 TPU v5p,这也是谷歌迄今为止功能最强大、效率最高且可扩展性最强的 TPU 系统。
谷歌于2016年起开始推出第一代 TPU,TPU是为神经网络设计的专用芯片、 谷歌人工智能产品的核心,为谷歌搜索、YouTube 、Gmail、谷歌地图、Google Play和 Android 等数十亿用户提供服务。
谷歌表示, Gemini 1.0 采用TPU v4和 v5e 芯片上进行大规模训练,在 TPU 上Gemini 的运行速度明显快于早期规模更小、性能更弱的模型,未来TPU v5p也会应用于加速Gemini 开发。
TPU v5p 性能较 TPU v4 全面提升。谷歌 TPU v5p 在 bfloat16 精度下,可 以实现459 teraFLOPS; 在 Int8精度下,可以实现918 teraOPS。谷歌 TPU v5p 配备95GB 的 HBM3 内存,内存带宽为2.76TB/sec, 每个Pod 最多有8960 个加速核心,并自研搭载600GB/sec 芯片互联主控,可以更快、更准确地训练 AI模型。与 TPU v4相比, TPU v5p 的浮点运算性能大幅提升,在高带宽内存方面是 TPU v4的近3倍。
【背靠谷歌生态帝国,Gemini 商业化想象空间广阔】
从大模型应用端来看,相较OpenAI, 谷歌的商业版图更为广阔, Gemini 系列规模和功能强大,预计将快速融入谷歌生态,未来商业模式拥有极大的想象空间。
内部生态融合计划来看,谷歌表示,从发布日起,Gemini 可开始应用 Bard 和 Pixel8Pro 智能手机,并将很快与谷歌服务中的其他产品集成,包括Chrome、搜索和广告等。
应用于Bard 聊天机器人: 从发布会当天开始,谷歌聊天机器人Bard 将使用 Gemini Pro 的微调版本来实现高级推理、规划、理解和其他功能。明年初,谷 歌将推出 Bard Advanced, 其将使用 Gemini Ultra, 这代表 Bard 发布以来的最大更新。
应用于Pixel8Pro 手机: 从发布会当天开始,Pixel8 Pro 手机的两项功 能将由 Gemini Nano 提供支持:录音机应用(Recorder)中的Summarize 等功能、WhatsApp Gboard 中的 Smart Reply。由于模型在手机中运行,因此两者都可以离线工作,因此应该能拥有快速且原生的体验。谷歌表示,Nano 的目标是 创建一个尽可能强大的 Gemini 版本,但同时不会占用手机的存储空间或使处理器过热。
在接下来的几个月中,Gemini 将出现在谷歌更多的产品和服务中,例如搜 索、广告、Chrome 和DuetAI。
外部用户开放情况来看,谷歌计划通过谷歌云将 Gemini 授权给客户,供他们在自己的应用程序中使用。
12 月 13 日开始,开发者和企业客户可以通过谷歌 AIStudio 或谷歌Cloud VertexAI 中的GeminiAPI(应用程序编程接口)访GeminiPro,安卓开发 人员可以使用 GeminiNano 完成构建。
【全球巨头角逐激烈,AI 算力需求增长和应用场景或拓宽】
谷歌作为全球人工智能龙头之一,无论在算力、算法还是商业化各个方面都 积蓄了优势,Gemini 系列大模型的如期推出,打破此前市场关于延期发布的传 闻,同时 Gemini 系列在传统文本领域以及多模态领域能力均对标 GPT-4,总体超出市场预期。
随着人工智能巨头在大模型领域的竞争依然白热化,在此背景下继续看好 AI 算力需求的增长,同时当下对于多模态 AI 的激烈角逐也将持续拔升大模型的 整体能力水平,有助于不断拓展大模型的应用场景和边界,想象空间广阔。
当前,我国通用人工智能产业政策逐步完善,国产大模型能力持续升级。美国对华半导体出口管制升级,将倒逼我国国产 AI 芯片产业链加快成熟。随着国产大模型厂商和 AI 芯片厂商的持续发力,我国 AIGC 产业未来发展前景广阔。
算力方面:海光信息、中科曙光、紫光股份、浪潮信息、龙芯中科、神州数码、寒武纪、景嘉微
算法方面:科大讯飞、海天瑞声、拓尔思、零点有数、汇纳科技、中科创达
应用场景方面:金山办公、万兴科技、拓尔思
网络安全方面:启明星辰、电科网安、锐捷网络
我们筛选出以下潜力标的
海光信息(688041) 海光 DCU 协处理器主要部署在服务器集群或数据中心,为应用程序提供高性能、高能效比的算力,支撑高复杂度和高吞吐量的数据处理任务,应用于大数据处理、人工智能、商业计算等计算密集类应用领域。
零点有数(301169) 公司应用人工智能技术,开发数据智能应用软件,在智能政 务、智能警务、智能税务和供应链智能化管理领域已有持续扩展的研发积累和客户合作。其中在人工智能技术的算法技术产业化方面,公司目前是积极的引领者之一。
万兴科技(300624) 公司致力于通过软件技术创新和产品能力提升助力新生代创作者高效、便捷创作。目前公司已布局虚拟数字人、虚拟场景、虚拟直播等创新 业务,并与近日在2022全球元宇宙大会论坛上宣布布局AIGC赛道,公司旗下首款AI绘画软件“万兴AI绘画”正式开启公测。
参考资料: 平安证券-计算机行业动态跟踪报告:多模态能力表现亮眼,谷歌携Gemini 王者归来-231208.pdf
免责声明:
本文由投资顾问:冯利勇(执业证书编码: A1280620060001)、 何军(执业证书编码: A1280621060001)、 罗力川(登记编号: A1280622110002) 等编 辑整理,仅代表团队观点,任何投资建议不作为您投资的依据,您须独立作出投 资决策,风险自担。请您确认自己具有相应的权利能力、行为能力、风险识别 能力及风险承受能力,能够独立承担法律责任。所涉及个股仅作投资参考和学习交流,不作为买卖依据。投资有风险,入市需谨慎!
审核编辑 黄宇
-
谷歌
+关注
关注
27文章
6164浏览量
105323 -
AI
+关注
关注
87文章
30763浏览量
268913 -
算力
+关注
关注
1文章
966浏览量
14796
发布评论请先 登录
相关推荐
评论