中文对话式大语言模型Firefly-2b6开源，使用210万训练数据-电子发烧友网

在文章Firefly(流萤): 中文对话式大语言模型中，我们介绍了关于Firefly(流萤)项目的工作，并且分享了我们训练的firefly-1b4模型。这是Firefly项目开源的第一个模型，虽然取得了还不错的效果，但无论是训练数据还是模型参数量，都还有很大的优化空间。

所以，在firefly-1b4实验的基础上，我们对训练数据进行清洗，并且增加了数据量，得到210万数据，并用它训练得到了firefly-2b6模型。

在本文中，我们将对该模型进行分享和介绍。与firefly-1b4相比，firefly-2b6的代码生成能力取得了较大的进步，并且在古诗词生成、对联、作文、开放域生成等方面也有不错的提升。

firefly-1b4和firefly-2b6的训练配置如下表所示。无论是训练数据量，还是训练步数，firefly-2b6都更加充分。

参数	firefly-1b4	firefly-2b6
batch size	16	8
learning rate	3e-5	3e-5
warmup step	3000	3000
lr schedule	cosine	cosine
max length	512	512
training step	90k	260k
训练集规模	160万	210万

项目地址：

https://github.com/yangjianxin1/Firefly

模型权重链接见文末。

模型使用

使用如下代码即可使用模型：

from transformers import BloomTokenizerFast, BloomForCausalLM
device = 'cuda'
path = 'YeungNLP/firefly-2b6'


tokenizer = BloomTokenizerFast.from_pretrained(path)
model = BloomForCausalLM.from_pretrained(path)
model.eval()
model = model.to(device)
text = input('User：')
while True:
    text = '{}'.format(text)
    input_ids = tokenizer(text, return_tensors="pt").input_ids
    input_ids = input_ids.to(device)
outputs=model.generate(input_ids,max_new_tokens=250,do_sample=True,top_p=0.7,temperature=0.35,
                             repetition_penalty=1.2, eos_token_id=tokenizer.eos_token_id)
    rets = tokenizer.batch_decode(outputs)
    output = rets[0].strip().replace(text, "").replace('', "")
    print("Firefly：{}".format(output))
    text = input('User：')

代码生成

尽管在训练集中，代码的数据量不多，但令人惊喜的是，firefly-2b6已经具备一定的代码生成能力。

在笔者的实测中，对于一些编程题，firefly-2b6生成的代码可以做到无需修改，直接运行成功，并且得到正确的答案。下面将展示一些编程题的生成例子。

示例1：帮我用python写一个冒泡排序算法。

示例2：用python实现一个快速排序算法，输入为一个数组，返回排序好之后的数组。

示例3：用python写一个二分查找算法。

示例4：写一个函数，计算数组中偶数的个数，输入为数组，输出为偶数的个数。

示例5：用html生成一个教务管理系统的登录界面，要求包含用户名、密码输入框和登录按钮。

该html代码在浏览器中的效果如下图：

其他样例

同样，我们也对文言文、古诗词、文章生成等数据进行了清洗，提高数据的质量。实测下来，我们发现firefly-2b6的生成效果，确实提升了不少。

数据质量的优化，对文言文翻译任务的提升，尤为明显。在训练firefly-1b4时，文言文数据为较短的句子对。但在训练firefly-2b6时，我们使用了较长篇幅的文本对。

下面为一些实测的例子。

文章小结

虽然firefly-2b6已经初步具备代码生成能力，但由于训练集中的代码数据的数量不多，对于一些编程题，效果不如人意。我们觉得仍有非常大的优化空间，后续我们也将收集更多代码数据，提升模型的代码能力。

经过firefly-1b4和firefly-2b6两个模型的迭代，能明显感受到增加数据量、提升数据质量、增大模型参数量，对模型的提升非常大。

在前文中，我们提到，firefly-1b4在训练数据量、训练步数上都略有不足。为了探索"小"模型的效果上限，我们也将使用更多数量、更高质量的数据对firefly-1b4进行迭代。该项工作正在进行。

后续，我们也将在多轮对话、增大模型参数量、模型量化等方向上进行迭代，我们也将陆续开源训练代码以及更多的训练数据。期待大家的意见和建议。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

模型

模型

+关注

关注
1

文章
3400

浏览量
49436
代码

代码

+关注

关注
30

文章
4852

浏览量
69415
语言模型

语言模型

+关注

关注
0

文章
547

浏览量
10393

原文标题：中文对话式大语言模型Firefly-2b6开源，使用210万训练数据

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

大模型训练:开源数据与算法的机遇与挑战分析

进行多方位的总结和梳理。在第二章《TOP 101-2024 大模型观点》中，苏州盛派网络科技有限公司创始人兼首席架构师苏震巍分析了大模型训练过程中开源

发表于 02-20 10:40 •210次阅读

大<b class='flag-5'>模型</b><b class='flag-5'>训练</b>:<b class='flag-5'>开源</b><b class='flag-5'>数据</b>与算法的机遇与挑战分析

腾讯公布大语言模型训练新专利

近日，腾讯科技(深圳)有限公司公布了一项名为“大语言模型的训练方法、装置、计算机设备及存储介质”的新专利。该专利的公布，标志着腾讯在大语言模型

发表于 02-10 09:37 •132次阅读

AI大模型的训练数据来源分析

学术机构、政府组织或企业公开发布，涵盖了各种类型的数据，如图像、文本、音频、视频等。例如： ImageNet ：一个广泛用于图像识别任务的大规模图像数据集。 Common Crawl ：提供了大量的网页抓取数据以供自然

发表于 10-23 15:32 •2114次阅读

NVIDIA Nemotron-4 340B模型帮助开发者生成合成训练数据

Nemotron-4 340B 是针对 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 优化的模型系列，该系列包含最先进的指导和奖励模型，以及一个用于生成式 AI

发表于 09-06 14:59 •432次阅读

大语言模型的预训练

能力，逐渐成为NLP领域的研究热点。大语言模型的预训练是这一技术发展的关键步骤，它通过在海量无标签数据上进行训练，使

发表于 07-11 10:11 •662次阅读

英伟达开源Nemotron-4 340B系列模型，助力大型语言模型训练

近日，英伟达宣布开源了一款名为Nemotron-4 340B的大型模型，这一壮举为开发者们打开了通往高性能大型语言模型（LLM）

发表于 06-17 14:53 •678次阅读

大语言模型：原理与工程实践+初识2

的一系列变革。大语言模型是深度学习的应用之一，可以认为，这些模型的目标是模拟人类交流，为了理解和生成人类语言。为此，模型需要在大量文本

发表于 05-13 00:09

大语言模型：原理与工程时间+小白初识大语言模型

解锁我理解的是基于深度学习，需要训练各种数据知识最后生成自己的的语言理解和能力的交互模型。对于常说的RNN是处理短序列的数据时表现出色，

发表于 05-12 23:57

【大语言模型：原理与工程实践】大语言模型的应用

。关于大语言模型是否具备与人类“系统2”相似的能力，存在广泛的争议。然而，随着模型参数量的增加和大规模预训练的实施，大

发表于 05-07 17:21

【大语言模型：原理与工程实践】大语言模型的评测

和优化至关重要，它们能够提供准确的反馈，指导模型在训练和调优过程中的改进方向。大语言模型对话能力评测：

发表于 05-07 17:12

【大语言模型：原理与工程实践】大语言模型的预训练

大语言模型的核心特点在于其庞大的参数量，这赋予了模型强大的学习容量，使其无需依赖微调即可适应各种下游任务，而更倾向于培养通用的处理能力。然而，随着学习容量的增加，对预训练

发表于 05-07 17:10

【大语言模型：原理与工程实践】大语言模型的基础技术

处理各种自然语言任务时都表现出了惊人的能力。这促使一个新的研究方向诞生——基于Transformer 的预训练语言模型。这类模型的核心思想是

发表于 05-05 12:17

【大语言模型：原理与工程实践】揭开大语言模型的面纱

大语言模型（LLM）是人工智能领域的尖端技术，凭借庞大的参数量和卓越的语言理解能力赢得了广泛关注。它基于深度学习，利用神经网络框架来理解和生成自然语言文本。这些

发表于 05-04 23:55

Meta推出最强开源模型Llama 3 要挑战GPT

公司这次开源了Llama 3 8B与70B两款不同规模的模型，开发者可以免费使用，而Meta公司还将陆续推出一系列具备多模态、多语言对话、更

发表于 04-19 17:00 •951次阅读

名单公布！【书籍评测活动NO.30】大规模语言模型：从理论到实践

等多种形式和任务。这个阶段是从语言模型向对话模型转变的关键，其核心难点在于如何构建训练数据，包括

发表于 03-11 15:16

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

中文对话式大语言模型Firefly-2b6开源，使用210万训练数据

评论

大模型训练:开源数据与算法的机遇与挑战分析

腾讯公布大语言模型训练新专利

AI大模型的训练数据来源分析

NVIDIA Nemotron-4 340B模型帮助开发者生成合成训练数据

大语言模型的预训练

英伟达开源Nemotron-4 340B系列模型，助力大型语言模型训练

大语言模型：原理与工程实践+初识2

大语言模型：原理与工程时间+小白初识大语言模型

【大语言模型：原理与工程实践】大语言模型的应用

【大语言模型：原理与工程实践】大语言模型的评测

【大语言模型：原理与工程实践】大语言模型的预训练

【大语言模型：原理与工程实践】大语言模型的基础技术

【大语言模型：原理与工程实践】揭开大语言模型的面纱

Meta推出最强开源模型Llama 3 要挑战GPT

名单公布！【书籍评测活动NO.30】大规模语言模型：从理论到实践