2023年发布的25个开源大型语言模型总结-电子发烧友网

大型语言模型(llm)是一种人工智能(AI)，在大量文本和代码数据集上进行训练。它们可以用于各种任务，包括生成文本、翻译语言和编写不同类型的创意内容。

今年开始，人们对开源LLM越来越感兴趣。这些模型是在开源许可下发布的，这意味着任何人都可以使用、修改和分发它们。这使得研究人员、开发人员和企业都可以尝试LLM，并为它们开发新的应用程序。使用开源llm有很多好处。首先它们通常比专业的LLM更价便宜。并且它们更加透明，这意味着研究人员可以研究它们是如何工作的以及它们是如何做出决定的。最主要的是它们更加灵活，可以针对不同的任务进行定制。

本文总结了当前可用的开源llm的全部（几乎全部）列表，以及有关其许可选项和源代码存储库的信息，希望对你有所帮助。

▎SAIL 7B
基于LLaMa的搜索增强
参数：7B
许可类型：GPL-3.0
发布日期：2023年5月
论文：SAIL — Search Augmented Instruction Learning

▎Guanaco
采用高效微调方法QLoRA发布的LLM模型
参数：65B
许可类型：MIT
发布日期：2023年5月
论文：QLoRA — Efficient Finetuning of Quantized LLMs

▎RMKV
与transformer的LLM性能相当的RNN模型
参数：100M–14B
许可类型：Apache 2.0
发布日期：2023年5月
论文：Scaling RNN to 1.5B and Reach Transformer LM Performance

▎MPT-7B
MosaicML的基础系列模型
参数：7B
许可类型：Apache 2.0
发布日期：2023年5月
论文：MPT-7B — A New Standard for Open-Source, Commercially Usable LLMs

▎OpenLLaMa
在RedPajama数据集上训练的Meta AI的LLaMA 7B的另一个开源复制。
参数：3,7B
许可类型：Apache 2.0
发布日期：2023年5月
论文：Meet OpenLLaMA — An Open-Source Reproduction of Meta AI’s LLaMA Large Language Model

▎RedPajama-INCITE
基于RedPajama数据集上训练的指令调整和聊天Pythia模型。
参数：3B, 7B
许可类型：Apache 2.0
发布日期：2023年5月
论文：RedPajama-INCITE family of models including base, instruction-tuned & chat models

▎h2oGPT
H2O的微调框架和文档问答功能的聊天机器人UI
参数：12B,30B
许可类型：Apache 2.0
发布日期：2023年5月
论文：Building the World’s Best Open-Source Large Language Model：H2O.ai’s Journey

▎FastChat-T5
通过微调Flan-t5-xl对从ShareGPT收集的用户共享对话进行训练的聊天机器人
参数：3B
许可类型：Apache 2.0
发布日期：2023年4月
论文：FastChat-T5 — our compact and commercial-friendly chatbot!

▎GPT4All
用于训练和部署强大的定制llm的完整工具系统
参数：7–13B
许可类型：MIT
发布日期：2023年4月
论文：GPT4All：An ecosystem of open-source on-edge large language models.

▎MiniGPT-4
基于BLIP-2和Vicuna LLM的Visual LLM模型
参数：13B
许可类型：BSD-3-Clause
发布日期：2023年4月
论文：MiniGPT-4 — Enhancing Vision-Language Understanding withAdvanced Large Language Models

▎StableLM
StableLM的LLM模型系列
参数：7B
许可类型：CC BY-NC-SA-4.0
发布日期：2023年4月
论文：Stability AI Launches the First of its StableLM Suite of Language Models

▎BloomZ
通过多任务微调实现跨语言泛化
参数：176B
许可类型：Apache 2.0
发布日期：2023年4月
论文：Cross-lingual Generalization through Multitask Finetuning

▎Dolly
Pythia 12B LLM在Databricks ML平台上训练的模型
参数：12B
许可类型：Apache 2.0
发布日期：2023年4月
论文：Free Dolly — Introducing the World’s First Truly Open Instruction-Tuned LLM

▎Baize Chatbot
基于LLaMa的开源聊天模型
参数：30B
许可类型：GPL-3.0 license
发布日期：2023年4月
论文：Baize — An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data

▎ColossalChat
由ColossalAI开源发布的一个完整的RLHF流程训练的模型
参数：N/A
许可类型：Apache 2.0
发布日期：2023年4月
论文：ColossalChat — An Open-Source Solution for Cloning ChatGPT With a Complete RLHF Pipeline

▎Lit LLaMa
来自Lightning AI的LLaMA的开源实现
参数：13B
许可类型：Apache 2.0
发布日期：2023年4月
论文：Why We’re Building Lit-LLaMA

▎Cerebras-GPT
开放的，计算效率高的，大型语言模型
参数：111M-13B
许可类型：Apache 2.0
发布日期：2023年3月
论文：Cerebras-GPT — Open Compute-Optimal Language ModelsTrained on the Cerebras Wafer-Scale Cluster

▎Open Flamingo
Deepmind的Flamingo模型的开源实现
参数：9B
许可类型：MIT License
发布日期：2023年3月
论文：Openflamingo — An Open-source Framework For Training Vision-language Models With In-context Learning

▎Chat GLM
使用开放式双语(中英文)双向密集预训练模型
参数：6B-130B
许可类型：Apache 2.0
发布日期：2023年3月
论文：GLM-130B：An Open Bilingual Pre-trained Model

▎DLite
通过微调Alpaca数据集上最小的GPT-2模型
参数：124M
许可类型：Apache 2.0
发布日期：2023年3月
论文：Introducing DLite, a Lightweight ChatGPT-Like Model Based on Dolly

▎Alpaca 7B
描述：斯坦福大学发布的指令遵循LLaMA模型
参数：7B
许可类型：Apache 2.0
发布日期：2023年3月
论文：Alpaca — A Strong, Replicable Instruction-Following Model

▎Flan UL2
在预训练的UL2检查点上训练Flan 20B模型。
参数：20B
许可类型：MIT License
发布日期：2023年3月
论文：A New Open Source Flan 20B with UL2

▎Flan-T5
T5在各种数据集上的指令微调，提高预训练语言模型的可用性
参数：60M–11B
许可类型：Apache 2.0
发布日期：2023年2月
论文：Scaling Instruction-Finetuned Language Models

总结

最后再补充2个刚刚发布的模型，一个是llama-2，这个我们文章也在前几天介绍了微调和使用的方法。另外一个就是昨天刚看到的新闻，stabilityai发布的 FreeWilly2，它是在 Llama2 70B 上微调的结果，目前在open_llm_leaderboard上排第一。开源大型语言模型正在迅速发展，开源社区发布了许多模型。这些模型为开发人员、研究人员和爱好者提供了一个非常大机会，可以在没有专有系统的情况下试验尖端的语言技术。随着越来越多的组织和个人为这些模型的发展做出贡献，我们可以期待看到更强大、更容易使用和更创新的语言模型，它们将塑造自然语言处理的未来。

作者：Manikanth

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

语言

语言

+关注

关注
1

文章
97

浏览量
24281
开源

开源

+关注

关注
3

文章
3398

浏览量
42691
模型

模型

+关注

关注
1

文章
3298

浏览量
49183

Meta重磅发布Llama 3.3 70B：开源AI模型的新里程碑

新的高度。一，技术突破：开源智能的新高度 Llama 3.3 70B 模型的发布，标志着开源AI模型在智能水平上的一大飞跃。它不仅达到了之

发表于 12-18 16:46 •197次阅读

Meta重磅<b class='flag-5'>发布</b>Llama 3.3 70B：<b class='flag-5'>开源</b>AI<b class='flag-5'>模型</b>的新里程碑

大语言模型开发框架是什么

大语言模型开发框架是指用于训练、推理和部署大型语言模型的软件工具和库。下面，AI部落小编为您介绍大语言

发表于 12-06 10:28 •176次阅读

NVIDIA GeForce 256发布25周年

适逢 NVIDIA GeForce 256 发布 25 周年之际，我们共同庆祝它在游戏领域的突破，这一突破改变了娱乐方式，并为 AI 驱动的未来奠定了基础。

发表于 11-19 16:05 •341次阅读

谷歌计划12月发布Gemini 2.0模型

近日，有消息称谷歌计划在12月发布其下一代人工智能模型——Gemini 2.0。这一消息引发了业界的广泛关注，因为谷歌在人工智能领域一直保持着领先地位，而Gemini系列模型更是其重要的产品之一。

发表于 10-29 11:02 •748次阅读

搭建开源大语言模型服务的方法

本文我们将总结5种搭建开源大语言模型服务的方法，每种都附带详细的操作步骤，以及各自的优缺点。

发表于 10-29 09:17 •262次阅读

使用OpenVINO 2024.4在算力魔方上部署Llama-3.2-1B-Instruct模型

前面我们分享了《三步完成Llama3在算力魔方的本地量化和部署》。2024年9月25日，Meta又发布了Llama3.2：一个多语言

发表于 10-12 09:39 •698次阅读

2024 年 19 种最佳大型语言模型

大型语言模型是2023年生成式人工智能热潮背后的推动力。然而，它们已经存在了一段时间了。LLM是黑盒AI系统，它使用深度学习对超大数据集进行

发表于 08-30 12:56 •603次阅读

基于CPU的大型语言模型推理实验

随着计算和数据处理变得越来越分散和复杂，AI 的重点正在从初始训练转向更高效的AI 推理。Meta 的 Llama3 是功能强大的公开可用的大型语言模型（LLM）。本次测试采用开源

发表于 07-18 14:28 •620次阅读

英伟达开源Nemotron-4 340B系列模型，助力大型语言模型训练

近日，英伟达宣布开源了一款名为Nemotron-4 340B的大型模型，这一壮举为开发者们打开了通往高性能大型语言模型（LLM）训练的新天地

发表于 06-17 14:53 •626次阅读

智谱AI发布全新多模态开源模型GLM-4-9B

近日，智谱AI在人工智能领域取得重大突破，成功推出全新开源模型GLM-4-9B。这款模型以其卓越的多模态能力，再次刷新了业界对于大型语言

发表于 06-07 09:17 •815次阅读

了解大型语言模型 (LLM) 领域中的25个关键术语

1.LLM（大语言模型）大型语言模型(LLMs)是先进的人工智能系统，经过大量文本数据集的训练，可以理解和生成类似人类的文本。他们使用深度学

发表于 05-10 08:27 •1305次阅读

NVIDIA加速微软最新的Phi-3 Mini开源语言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM 是一个开源库，用于优化从 PC 到云端的

发表于 04-28 10:36 •631次阅读

谷歌发布轻量级开源人工智能模型Gemma

谷歌近日宣布推出开源人工智能（AI）模型系列Gemma，旨在为开发人员和研究人员提供一个负责任的AI构建平台。这一举措标志着自2022年OpenAI的ChatGPT引领AI聊天机器人热

发表于 02-23 11:38 •926次阅读

谷歌大型模型终于开放源代码，迟到但重要的开源战略

在人工智能领域，谷歌可以算是开源的鼻祖。今天几乎所有的大语言模型，都基于谷歌在 2017 年发布的 Transformer 论文；谷歌的

发表于 02-22 18:14 •503次阅读

大模型开源开放评测体系司南正式发布

近日，大模型开源开放评测体系司南（OpenCompass2.0）正式发布，旨在为大语言模型、多模态模型

发表于 02-05 11:28 •1143次阅读