0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

LLM之外的性价比之选,小语言模型

E4Life 来源:电子发烧友网 作者:周凯扬 2024-06-03 05:15 次阅读



电子发烧友网报道(文/周凯扬)大语言模型的风靡给AI应用创造了不少机会,无论是效率还是创意上,大语言模型都带来了前所未有的表现,这些大语言模型很快成为大型互联网公司或者AI应用公司的杀手级产品。然而在一些对实时性要求较高的应用中,比如AI客服、实时数据分析等,大语言模型并没有太大的优势。

在动辄万亿参数的LLM下,硬件需求已经遭受了不小的挑战。所以面对一些相对简单的任务,规模较小的小语言模型(SLM)反而更加适合。尤其是在端侧的本地AI模型,在低功耗算力有限的边缘AI芯片支持下,小语言模型反而更适合发挥最高性能,而不是促使硬件一味地去追求更大规模模型的支持。

微软Phi

2023年,微软推出了一个基于Transformer架构的小语言模型Phi-1,该模型只有13亿参数,且主要专注于基础的Python编程,实现文本转代码。整个模型仅仅用到8块A100 GPU,耗时四天训练完成的。

这也充分说明了小语言模型的灵活性,在LLM普遍需要成百上千块GPU,花费数十乃至上百天的时间完成模型的训练时,SLM却只需要千分之一的资源,就可以针对特定的任务打造适合的模型。

近日,微软对Phi模型进行了全面更新,推出了Phi-3-mini、Phi-3-small和Phi-3-medium三个版本。其中Phi3-mini是一个38亿参数的小语言模型,同步推出的Phi-3-small和Phi-3-medium分别为70亿参数和140亿参数的模型。

Phi-3-mini有支持4K和128K两个上下文长度的版本,也是这个规模的模型中,第一个支持到最高128K上下文长度的版本,微软声称其性能甚至超过不少70亿参数的大模型。通过在搭载A16芯片的iPhone 14上测试,在纯粹的设备端离线运行下,Phi-3-mini可以做到12 token每秒的速度。

谷歌Gemma


在Gemini模型获得成功后,基于大语言模型框架Gemini,谷歌也开发了对应的轻量小语言模型Gemma。Gemma分为20亿参数和70亿参数的版本,其中20亿参数的Gemma可以在移动设备和笔记本电脑上运行,而70亿参数的版本则可以扩展至小型服务器上。虽然资源占用不高,但Gemma在各项基准测试中,依然可以与更大规模的模型相媲美,比如130亿参数的Llama-2等。

此外,谷歌不仅提供了预训练版本的Gemma,也支持通过额外的训练来实现模型调优,用于修改Gemma模型的行为,提高其在特定任务上的表现,比如通过人类语言互动进行训练,提高聊天机器人中响应式对话输入的表现等。

 
Gemma与Llama-2的性能对比/谷歌


在对运行设备的要求上,Gemma自然比不上大哥Gemini,但谷歌与英伟达合作,针对从数据中心到云端再到RTX AI PC的GPU都进行了优化,这样一来不仅具有广泛的跨设备兼容性,也能确保扩展性和高性能的双重优势。

写在最后


小语言模型的出现为行业带来了新的选择,尤其是在大多数大模型应用还是在不断烧钱的当下,小语言模型加速落地的同时,也提供了训练成本更低的解决方案。但与此同时,小语言模型的缺陷依然不可忽视,比如其规模注定了无法存储足够的“事实性知识”,其次这类小语言模型很难做到多语言支持。但我们必须认清小语言模型的存在并不是为了替代大语言模型,而是提供一个更加灵活的模型方案。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3229

    浏览量

    48813
  • 大模型
    +关注

    关注

    2

    文章

    2427

    浏览量

    2647
  • LLM
    LLM
    +关注

    关注

    0

    文章

    286

    浏览量

    327
收藏 人收藏

    评论

    相关推荐

    什么是LLMLLM在自然语言处理中的应用

    随着人工智能技术的飞速发展,自然语言处理(NLP)领域迎来了革命性的进步。其中,大型语言模型LLM)的出现,标志着我们对语言理解能力的一次
    的头像 发表于 11-19 15:32 538次阅读

    如何训练自己的LLM模型

    训练自己的大型语言模型LLM)是一个复杂且资源密集的过程,涉及到大量的数据、计算资源和专业知识。以下是训练LLM模型的一般步骤,以及一些关
    的头像 发表于 11-08 09:30 507次阅读

    使用LLM进行自然语言处理的优缺点

    自然语言处理(NLP)是人工智能和语言学领域的一个分支,它致力于使计算机能够理解、解释和生成人类语言。大型语言模型
    的头像 发表于 11-08 09:27 423次阅读

    新品|LLM Module,离线大语言模型模块

    LLM,全称大语言模型(LargeLanguageModel)。是一种基于深度学习的人工智能模型。它通过大量文本数据进行训练,从而能够进行对话、回答问题、撰写文本等其他任务
    的头像 发表于 11-02 08:08 309次阅读
    新品|<b class='flag-5'>LLM</b> Module,离线大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>模块

    LLM模型推理加速的关键技术

    LLM(大型语言模型)大模型推理加速是当前人工智能领域的一个研究热点,旨在提高模型在处理复杂任务时的效率和响应速度。以下是对
    的头像 发表于 07-24 11:38 867次阅读

    模型LLM与ChatGPT的技术原理

    在人工智能领域,大模型(Large Language Model, LLM)和ChatGPT等自然语言处理技术(Natural Language Processing, NLP)正逐步改变着人类
    的头像 发表于 07-10 10:38 816次阅读

    llm模型本地部署有用吗

    在当今的人工智能领域,LLM(Large Language Model,大型语言模型)已经成为了一种非常受欢迎的技术。它们在自然语言处理(NLP)任务中表现出色,如文本生成、翻译、摘要
    的头像 发表于 07-09 10:14 489次阅读

    llm模型有哪些格式

    LLM(Large Language Model,大型语言模型)是一种深度学习模型,主要用于处理自然语言处理(NLP)任务。
    的头像 发表于 07-09 09:59 599次阅读

    LLM模型和LMM模型的区别

    LLM(线性混合模型)和LMM(线性混合效应模型)之间的区别如下: 定义: LLM(线性混合模型)是一种统计
    的头像 发表于 07-09 09:57 934次阅读

    llm模型和chatGPT的区别

    LLM(Large Language Model)是指大型语言模型,它们是一类使用深度学习技术构建的自然语言处理(NLP)模型
    的头像 发表于 07-09 09:55 1038次阅读

    LLM模型的应用领域

    在本文中,我们将深入探讨LLM(Large Language Model,大型语言模型)的应用领域。LLM是一种基于深度学习的人工智能技术,它能够理解和生成自然
    的头像 发表于 07-09 09:52 579次阅读

    语言模型(LLM)快速理解

    自2022年,ChatGPT发布之后,大语言模型(LargeLanguageModel),简称LLM掀起了一波狂潮。作为学习理解LLM的开始,先来整体理解一下大
    的头像 发表于 06-04 08:27 963次阅读
    大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>(<b class='flag-5'>LLM</b>)快速理解

    了解大型语言模型 (LLM) 领域中的25个关键术语

    1.LLM(大语言模型)大型语言模型(LLMs)是先进的人工智能系统,经过大量文本数据集的训练,可以理解和生成类似人类的文本。他们使用深度学
    的头像 发表于 05-10 08:27 1259次阅读
    了解大型<b class='flag-5'>语言</b><b class='flag-5'>模型</b> (<b class='flag-5'>LLM</b>) 领域中的25个关键术语

    深圳特信屏蔽器|GPS屏蔽器价格:性价比,实惠又实用

    深圳特信屏蔽器|GPS屏蔽器价格:性价比,实惠又实用
    的头像 发表于 04-18 09:05 507次阅读

    2023年大语言模型(LLM)全面调研:原理、进展、领跑者、挑战、趋势

    大型语言模型(LLM)是基于人工智能的先进模型,经过训练,它可以密切反映人类自然交流的方式处理和生成人类语言。这些
    的头像 发表于 01-03 16:05 1159次阅读
    2023年大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>(<b class='flag-5'>LLM</b>)全面调研:原理、进展、领跑者、挑战、趋势