Hugging Face科技公司推出SmolLM系列语言模型-电子发烧友网

7月22日最新资讯，Hugging Face科技公司在语言模型领域再创新高，正式推出了SmolLM系列——一款专为适应多样计算资源而设计的紧凑型语言模型家族。该系列包含三个版本，分别搭载了1.35亿、3.6亿及17亿参数，旨在以高效能应对不同应用场景。

据Hugging Face SmolLM项目的首席机器学习工程师Loubna Ben Allal介绍：“我们认识到，并非每项任务都需要庞大的模型来支撑，正如钻孔无需重型破碎球一样。专为特定任务定制的小型模型，同样能够胜任繁重的工作。”

尤为引人注目的是，即便是家族中最小的成员SmolLM-135M，在训练数据相对有限的情况下，其性能仍超越了Meta的MobileLM-125M模型，展现出非凡的潜力。而SmolLM-360M则自豪地宣称，在性能上已凌驾于所有参数少于5亿的模型之上。至于旗舰产品SmolLM-1.7B，更是在一系列基准测试中力压群雄，包括微软的Phi-1.5和Meta的MobileLM-1.5B等强劲对手。

Hugging Face不仅在技术上追求卓越，更在开放共享上树立了典范。公司决定将SmolLM的整个开发流程，从数据管理到训练步骤，全部对外开源。这一举措不仅彰显了公司对开源文化的坚定支持，也体现了对可重复研究的高度重视，为行业内的科研人员提供了宝贵的资源。

SmolLM系列的卓越表现，离不开其背后精心策划的高质量训练数据。这些模型依托于Cosmo语料库构建，该语料库融合了Cosmopedia v2（包含合成教科书与故事）、Python Edu（教育导向的Python示例）以及FineWeb Edu（精选教育网络内容）等多维度资源，确保了模型学习内容的丰富性与准确性。

Loubna Ben Allal强调：“SmolLM系列的成功，是对数据质量重要性的有力证明。我们创新性地结合了网络数据与合成数据，通过精心策划，打造出了这些性能卓越的小型模型。”这一成就不仅为语言模型领域注入了新的活力，也为未来智能应用的发展开辟了更加广阔的道路。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据管理

数据管理

+关注

关注
1

文章
301

浏览量
19710
语言模型

语言模型

+关注

关注
0

文章
547

浏览量
10373

DeepSeek模型为何掀起如此大的波澜

DeepSeek-R1 是中国初创公司 DeepSeek 推出的人工智能模型，不久前，在人工智能开源平台 Hugging Face 上发布数

发表于 02-11 09:13 •317次阅读

Hugging Face推出最小AI视觉语言模型

Hugging Face平台于1月23日发布博文，推出了两款令人瞩目的轻量级AI模型——SmolVLM-256M-Instruct和SmolVLM-500M-Instruct。其中

发表于 01-24 14:15 •476次阅读

谷歌推出效率与性能跃阶的全新开放模型标准

AI 有可能解决人类面临的一些最紧迫的问题，但前提是每个人都拥有构建 AI 的工具。这就是我们在今年早些时候推出 Gemma 的原因，Gemma 是一系列轻量级开放模型系列，采用了与创

发表于 09-09 15:43 •471次阅读

谷歌<b class='flag-5'>推出</b>效率与性能跃阶的全新开放<b class='flag-5'>模型</b>标准

阿里通义千问Qwen2大模型发布

阿里巴巴最近发布了其通义千问系列的新成员——Qwen2大模型，并在Hugging Face和ModelScope两大平台上实现了同步开源。这一举措无疑为人工智能领域的研究者和开发者们提

发表于 06-07 15:59 •848次阅读

亚马逊云携手AI新创企业Hugging Face，提升AI模型在定制芯片计算性能

Hugging Face作为一家估值为45亿美元的公司现已成为了众多AI研究员和开发者分享Chatbot和相关软件的核心平台，受到亚马逊、谷歌、英伟达等巨头的青睐。

发表于 05-23 14:24 •473次阅读

Hugging Face提供1000万美元免费共享GPU

全球最大的开源AI社区Hugging Face近日宣布，将提供价值1000万美元的免费共享GPU资源，以支持开发者创造新的AI技术。这一举措旨在帮助小型开发者、研究人员和初创公司，对抗大型AI

发表于 05-20 09:40 •745次阅读

大语言模型：原理与工程时间+小白初识大语言模型

解锁我理解的是基于深度学习，需要训练各种数据知识最后生成自己的的语言理解和能力的交互模型。对于常说的RNN是处理短序列的数据时表现出色，耳真正厉害的是Transformer，此框架被推出后直接

发表于 05-12 23:57

Hugging Face推出开源机器人代码库LeRobot

AI领域的佼佼者Hugging Face近日宣布重磅推出并全面开源其机器人工具包——LeRobot。这一创新工具包基于史上最大规模的众包机器人数据集，为开发者提供了一个前所未有的平台。

发表于 05-09 10:32 •673次阅读

【大语言模型：原理与工程实践】大语言模型的应用

，它通过抽象思考和逻辑推理，协助我们应对复杂的决策。相应地，我们设计了两类任务来检验大语言模型的能力。一类是感性的、无需理性能力的任务，类似于人类的系统1，如情感分析和抽取式问答等。大语言

发表于 05-07 17:21

Snowflake推出面向企业AI的大语言模型

Snowflake公司近日推出了企业级AI模型——Snowflake Arctic，这是一款大型语言模型（LLM），专为满足企业复杂工作负载

发表于 05-07 10:03 •530次阅读

【大语言模型：原理与工程实践】大语言模型的基础技术

下游任务提供丰富的文本表示,如谷歌公司推出的BERT。（2) Decoder-Only 预训练语言模型：这类模型一般使用单向的 Decode

发表于 05-05 12:17

【大语言模型：原理与工程实践】揭开大语言模型的面纱

关系，从而在各种任务中表现出色。Transformer架构的推出，标志着语言模型技术的重大突破。它摒弃了传统的递归方式，利用自注意力机制捕捉序列中的依赖关系。这一创新极大地提高了模型的

发表于 05-04 23:55

Stability AI发布Stable Code Instruct 3B大语言模型，可编译多种编程语言

据报道，Stability AI公司近期推出了适配程序员使用的Stable Code Instruct 3B大语言模型，此款模型的显著特点是

发表于 03-27 10:04 •614次阅读

Anthropic发布Claude 3系列大语言模型，挑战OpenAI领先地位

人工智能领域的创业公司Anthropic推出了其备受瞩目的Claude 3系列大型语言模型。该系列

发表于 03-06 18:11 •1376次阅读

ServiceNow、Hugging Face 和 NVIDIA 发布全新开放获取 LLM，助力开发者运用生成式 AI 构建企业应用

2024 年 2 月 28 日 - ServiceNow（NYSE：NOW）、Hugging Face 和 NVIDIA 于今日发布 StarCoder2，其为一系列用于代码生成的开放获取大

发表于 02-29 11:12 •284次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

Hugging Face科技公司推出SmolLM系列语言模型

评论

DeepSeek模型为何掀起如此大的波澜

Hugging Face推出最小AI视觉语言模型

谷歌推出效率与性能跃阶的全新开放模型标准

阿里通义千问Qwen2大模型发布

亚马逊云携手AI新创企业Hugging Face，提升AI模型在定制芯片计算性能

Hugging Face提供1000万美元免费共享GPU

大语言模型：原理与工程时间+小白初识大语言模型

Hugging Face推出开源机器人代码库LeRobot

【大语言模型：原理与工程实践】大语言模型的应用

Snowflake推出面向企业AI的大语言模型

【大语言模型：原理与工程实践】大语言模型的基础技术

【大语言模型：原理与工程实践】揭开大语言模型的面纱

Stability AI发布Stable Code Instruct 3B大语言模型，可编译多种编程语言

Anthropic发布Claude 3系列大语言模型，挑战OpenAI领先地位

ServiceNow、Hugging Face 和 NVIDIA 发布全新开放获取 LLM，助力开发者运用生成式 AI 构建企业应用