0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Hugging Face科技公司推出SmolLM系列语言模型

要长高 2024-07-23 16:35 次阅读

7月22日最新资讯,Hugging Face科技公司在语言模型领域再创新高,正式推出了SmolLM系列——一款专为适应多样计算资源而设计的紧凑型语言模型家族。该系列包含三个版本,分别搭载了1.35亿、3.6亿及17亿参数,旨在以高效能应对不同应用场景。

据Hugging Face SmolLM项目的首席机器学习工程师Loubna Ben Allal介绍:“我们认识到,并非每项任务都需要庞大的模型来支撑,正如钻孔无需重型破碎球一样。专为特定任务定制的小型模型,同样能够胜任繁重的工作。”

尤为引人注目的是,即便是家族中最小的成员SmolLM-135M,在训练数据相对有限的情况下,其性能仍超越了Meta的MobileLM-125M模型,展现出非凡的潜力。而SmolLM-360M则自豪地宣称,在性能上已凌驾于所有参数少于5亿的模型之上。至于旗舰产品SmolLM-1.7B,更是在一系列基准测试中力压群雄,包括微软的Phi-1.5和Meta的MobileLM-1.5B等强劲对手。

Hugging Face不仅在技术上追求卓越,更在开放共享上树立了典范。公司决定将SmolLM的整个开发流程,从数据管理到训练步骤,全部对外开源。这一举措不仅彰显了公司对开源文化的坚定支持,也体现了对可重复研究的高度重视,为行业内的科研人员提供了宝贵的资源。

SmolLM系列的卓越表现,离不开其背后精心策划的高质量训练数据。这些模型依托于Cosmo语料库构建,该语料库融合了Cosmopedia v2(包含合成教科书与故事)、Python Edu(教育导向的Python示例)以及FineWeb Edu(精选教育网络内容)等多维度资源,确保了模型学习内容的丰富性与准确性。

Loubna Ben Allal强调:“SmolLM系列的成功,是对数据质量重要性的有力证明。我们创新性地结合了网络数据与合成数据,通过精心策划,打造出了这些性能卓越的小型模型。”这一成就不仅为语言模型领域注入了新的活力,也为未来智能应用的发展开辟了更加广阔的道路。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据管理
    +关注

    关注

    1

    文章

    277

    浏览量

    19555
  • 语言模型
    +关注

    关注

    0

    文章

    487

    浏览量

    10201
收藏 人收藏

    评论

    相关推荐

    谷歌推出效率与性能跃阶的全新开放模型标准

    AI 有可能解决人类面临的一些最紧迫的问题,但前提是每个人都拥有构建 AI 的工具。这就是我们在今年早些时候推出 Gemma 的原因,Gemma 是一系列轻量级开放模型系列,采用了与创
    的头像 发表于 09-09 15:43 230次阅读
    谷歌<b class='flag-5'>推出</b>效率与性能跃阶的全新开放<b class='flag-5'>模型</b>标准

    阿里通义千问Qwen2大模型发布

    阿里巴巴最近发布了其通义千问系列的新成员——Qwen2大模型,并在Hugging Face和ModelScope两大平台上实现了同步开源。这一举措无疑为人工智能领域的研究者和开发者们提
    的头像 发表于 06-07 15:59 601次阅读

    亚马逊云携手AI新创企业Hugging Face,提升AI模型在定制芯片计算性能

    Hugging Face作为一家估值为45亿美元的公司现已成为了众多AI研究员和开发者分享Chatbot和相关软件的核心平台,受到亚马逊、谷歌、英伟达等巨头的青睐。
    的头像 发表于 05-23 14:24 314次阅读

    Hugging Face提供1000万美元免费共享GPU

    全球最大的开源AI社区Hugging Face近日宣布,将提供价值1000万美元的免费共享GPU资源,以支持开发者创造新的AI技术。这一举措旨在帮助小型开发者、研究人员和初创公司,对抗大型AI
    的头像 发表于 05-20 09:40 513次阅读

    语言模型:原理与工程时间+小白初识大语言模型

    解锁 我理解的是基于深度学习,需要训练各种数据知识最后生成自己的的语言理解和能力的交互模型。 对于常说的RNN是处理短序列的数据时表现出色,耳真正厉害的是Transformer,此框架被推出后直接
    发表于 05-12 23:57

    Hugging Face推出开源机器人代码库LeRobot

    AI领域的佼佼者Hugging Face近日宣布重磅推出并全面开源其机器人工具包——LeRobot。这一创新工具包基于史上最大规模的众包机器人数据集,为开发者提供了一个前所未有的平台。
    的头像 发表于 05-09 10:32 449次阅读

    【大语言模型:原理与工程实践】大语言模型的应用

    ,它通过抽象思考和逻辑推理,协助我们应对复杂的决策。 相应地,我们设计了两类任务来检验大语言模型的能力。一类是感性的、无需理性能力的任务,类似于人类的系统1,如情感分析和抽取式问答等。大语言
    发表于 05-07 17:21

    【大语言模型:原理与工程实践】大语言模型的基础技术

    下游任务提供丰富的文本表示,如谷歌公司推出的BERT。(2) Decoder-Only 预训练语言模型:这类模型一般使用单向的 Decode
    发表于 05-05 12:17

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    关系,从而在各种任务中表现出色。Transformer架构的推出,标志着语言模型技术的重大突破。它摒弃了传统的递归方式,利用自注意力机制捕捉序列中的依赖关系。这一创新极大地提高了模型
    发表于 05-04 23:55

    Anthropic发布Claude 3系列语言模型,挑战OpenAI领先地位

    人工智能领域的创业公司Anthropic推出了其备受瞩目的Claude 3系列大型语言模型。该系列
    的头像 发表于 03-06 18:11 1113次阅读

    ServiceNow、Hugging Face 和 NVIDIA 发布全新开放获取 LLM,助力开发者运用生成式 AI 构建企业应用

    2024 年 2 月 28 日 - ServiceNow(NYSE:NOW)、Hugging Face 和 NVIDIA 于今日发布 StarCoder2,其为一系列用于代码生成的开放获取大
    发表于 02-29 11:12 210次阅读
    ServiceNow、<b class='flag-5'>Hugging</b> <b class='flag-5'>Face</b> 和 NVIDIA 发布全新开放获取 LLM,助力开发者运用生成式 AI 构建企业应用

    语言模型简介:基于大语言模型模型全家桶Amazon Bedrock

    本文基于亚马逊云科技推出的大语言模型与生成式AI的全家桶:Bedrock对大语言模型进行介绍。大语言
    的头像 发表于 12-04 15:51 645次阅读

    Hugging Face LLM部署大语言模型到亚马逊云科技Amazon SageMaker推理示例

     本篇文章主要介绍如何使用新的Hugging Face LLM推理容器将开源LLMs,比如BLOOM大型语言模型部署到亚马逊云科技Amazon SageMaker进行推理的示例。我们将
    的头像 发表于 11-01 17:48 767次阅读
    <b class='flag-5'>Hugging</b> <b class='flag-5'>Face</b> LLM部署大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>到亚马逊云科技Amazon SageMaker推理示例

    Hugging Face被限制访问

    目前尚不清楚 Hugging Face 何时出现访问限制问题。雅虎的报道称,早在今年 5 月起,就已经有用户在 HF 的论坛上抱怨连接问题。另外有报道称,至少从 9 月 12 日起,Hugging
    的头像 发表于 10-22 15:51 1528次阅读
    <b class='flag-5'>Hugging</b> <b class='flag-5'>Face</b>被限制访问

    Hugging Face语言模型优化技术

    von Platen 写道,使用 Flash Attention 是另一相关键的优化,它是大语言模型用来理解输入标记上下文关系的自注意力层的一种算法,有可能打破输入标记数量的二次增长。
    的头像 发表于 10-09 16:25 669次阅读