0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

聊聊小公司如何做大模型

深度学习自然语言处理 来源:李文举说@知乎 2024-02-21 11:28 次阅读

在小公司做大模型,这个事情是可以的。

笔者在小公司,做了一年多的大模型。先列一下成绩单:

开源了目前业界可能是分类较完整(50类)、数量较大(1100+万)的SFT数据集:匠数科技大模型sft数据集[1]

通过SFT、DPO、RLHF等技术训练了领域写作模型。实测下来,在该领域写作上,强于国内大多数的闭源模型。

如何在小公司做大模型,笔者总结,有如下几点:

1、至少要有基础的硬件条件。

如果双卡3090都没有,那是比较难的。实在没有,可以说服老板,租机器训练。

2、要有选择跟进模型训练、部署的最新进展,选主流、走大道。

技术迭代太快,人力有限的情况下,不可能什么都跟进的。比如部署,市面上的部署方案很多了,但是主流的就是vllm,所以,集中精力将vllm搞懂用好,就够了,其他的可以了解,但不用重点关注。

再比如各种训练技术,经过验证好用的也就是那么几个。看起来过于旁门左道的论文,可以先放放,让子弹飞一会儿再说。提一点,DPO确实是小公司对齐训练的福音。

3、要坚持开放交流,多加群。

围绕llm,有很多社群,也有很多活动,可以选择性参加,但是切记切记,不要过分沉溺其中,以为这样就能紧跟时代前沿,掌握最新趋势了。假装学到很多,是很有害滴。记得前段时间不是有个什么架构,号称取代transformer吗?铺天盖地的宣传,笔者当时也听了作者的线上分享。现在呢?自己连个像样的模型都没搞出来。纯纯浪费太多精力。相信时间会证明一切。

4、要针对业务场景解决问题,不要陷入llm崇拜。

这种现象典型的就是不是llm的工作就提不起神,不想做。实话实说,这是病,得治。笔者根据业务问题需求,开源的cutword[2],就是为了替代jieba的新一代分词工具,同时,ner类型和效果都是目前开源中一流的,也收获了大家的认可。

解决问题才是关键。不能有了llm这个锤子,看什么都是钉子。具体问题具体分析的能力很重要。

审核编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 大模型
    +关注

    关注

    2

    文章

    2295

    浏览量

    2385

原文标题:如何在小公司做大模型

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    聊聊std::move函数和std::forward函数

    今天我们聊聊Modern cpp的两个非常重要的概念移动语义和转发引用。
    的头像 发表于 11-05 16:58 172次阅读

    华秋商城器件做EDA封装

    EDA相样封装,尤其小公司及创业公司研发人员。 3: 华秋的PCB 及SMT业务是个亮点。比竞争对手做得好。点赞!
    发表于 10-26 09:59

    从“可用”到“好用”,百度智能云如何做大模型的“超级工厂”?

    如果说,过去两三年大模型处于造锤子阶段,那么今年,更多的则是考验钉钉子的能力,面对各类业务场景大模型是否能够有的放矢、一击必中,为千行百业深度赋能。   当前市场上,已经有200多把这样的锤子在疯狂
    的头像 发表于 09-26 18:18 277次阅读
    从“可用”到“好用”,百度智能云<b class='flag-5'>如何做大</b><b class='flag-5'>模型</b>的“超级工厂”?

    潞晨训推一体机,画出大模型到企业的一条龙路线图

    企业做大模型,如何才能不折腾?
    的头像 发表于 06-14 09:41 1632次阅读
    潞晨训推一体机,画出大<b class='flag-5'>模型</b>到企业的一条龙路线图

    ASML任命新CEO,带领公司走向未来

    据了解,福奎特将延续文宁克制定的战略方向。十余年前,文宁克接手ASML时,这家荷兰小公司如今已成长为全球顶尖半导体制造商的重要合作伙伴。
    的头像 发表于 04-25 16:34 679次阅读

    sora模型中国可以使用吗 sora模型是哪个公司

    Sora,美国人工智能研究公司OpenAI发布的人工智能文生视频大模型(但OpenAI并未单纯将其视为视频模型,而是作为“世界模拟器” ,于2024年2月15日(美国当地时间)正式对外发布
    的头像 发表于 02-22 16:52 3103次阅读

    嵌入式产品开发的基本流程和注意事项

    需求定义用来描述产品的基本功能,对于公司来说,需求一般由该公司的市场销售部门或该公司的主要客户来制定;而对小公司或爱好者(就像armjishu.com里的爱好者一样),技术人员可以自己
    的头像 发表于 01-26 11:08 1909次阅读

    运营商大模型,数字中国的一枚“落子”

    中国并不缺大模型,为什么运营商还要做大模型
    的头像 发表于 01-23 09:11 2234次阅读
    运营商大<b class='flag-5'>模型</b>,数字中国的一枚“落子”

    变压器没有抽头如何做正负压?

    变压器没有抽头如何做正负压?
    的头像 发表于 01-20 10:28 1625次阅读
    变压器没有抽头<b class='flag-5'>如何做</b>正负压?

    聊聊嵌入式软件分层

    今天以控制LED闪烁为例,聊聊嵌入式软件分层
    的头像 发表于 12-28 09:22 627次阅读

    无刷电机技术演进与高速风筒行业现状【其利天下高速风筒PCBA方案】

    在市场层面,仿佛大品牌的逐步介入将推动高速风筒行业朝着更高水平发展。对于小公司而言,保持创新并构建良好的产品生态是关键。观察这个行业的动态,我相信未来将迎来更多的技术革新和市场变革,而小公司有望在这场高手如云的竞技中脱颖而出。
    的头像 发表于 12-27 21:40 1447次阅读
    无刷电机技术演进与高速风筒行业现状【其利天下高速风筒PCBA方案】

    适合小公司的自动化部署脚本

    在小小的公司里面,挖呀挖呀挖。快挖不动了,一件事重复个5次,还在人肉手工,身体和心理就开始不舒服了,并且违背了个人的座右铭:“偷懒”是人类进步的第一推动力。
    的头像 发表于 12-19 09:52 316次阅读
    适合<b class='flag-5'>小公司</b>的自动化部署脚本

    聊聊Redis的使用案例

    今天我们来聊聊 Redis 的使用案例。
    的头像 发表于 12-13 14:13 478次阅读

    如何使用adi电容数字转化器做大屏触摸驱动?

    请问各位大神,如何使用adi电容数字转化器做大屏触摸驱动,86寸液晶屏幕;投射式电容触摸sensor!
    发表于 12-07 06:54

    如何将ADI公司的Spice模型导入到Multisim仿真软件呢?

    请问如何将ADI公司的Spice模型导入到Multisim仿真软件呢? 当我导入时为什么找不到该文件呢?
    发表于 11-17 06:20