0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

鲲云科技AI芯片CAISA 430成功适配DeepSeek R1模型

鲲云科技 来源:鲲云科技 2025-02-07 09:57 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

鲲云科技全新一代的可重构数据流 AI 芯片 CAISA 430 成功适配 DeepSeek R1 蒸馏模型推理,这一创新举措为大模型应用的高效部署带来了全新的解决方案,标志着可重构数据流 AI 技术与大模型融合发展的又一重要里程碑,也展示了鲲云科技的可重构数据流技术的技术通用性和生态友好。

全新一代可重构数据流 AI 芯片 CAISA 430

此次适配的 CAISA 430 芯片是鲲云科技基于第四代可重构数据流架构技术研发,于 2023 年底回片,并于 2024 年实现量产,相较于上一代产品,其实测性能、通用性等关键指标实现了跨越性提升。该芯片采用国内成熟的 12nm 制程工艺生产,端到端芯片利用率最高可达 90%,有效算力指标表现突出。此外,凭借鲲云自主研发的 RainBuilder 编译工具链,CAISA 430 支持所有常用的 AI 算子和算法模型,展现出强大的通用性,可以满足不同深度学习算法的推理需求。

7af83a84-e475-11ef-9310-92fbcf53809c.png

▲ Rainbuilder 编译工具链

鲲云科技基于 CAISA 芯片推出了一系列 AI 算力产品,包括面向边缘端、数据中心进行深度学习推断的 AI 专用计算加速的星空加速卡 X3、X3A、N460H,面向低算力场景的星空 X6A、N430S/P/E 边缘小站,以及基于星空加速卡系列推出的智能计算服务器等,为计算机视觉、语音语义及大模型应用提供高性能、低延时、高算力性价比的 AI 算力支持。

高效适配,为 DeepSeek R1 推理提供底层 AI 算力支持

DeepSeek R1 作为一款先进的推理模型,基于 Transformer 架构,其参数规模庞大,对硬件的计算能力和内存容量提出了极高要求。CAISA 430 芯片凭借其高算力性价比和强大的通用性,能够为 DeepSeek R1 推理提供有力支持。CAISA 430 的高芯片利用率确保了在处理大规模模型时能够充分利用硬件资源,减少计算资源的浪费,从而提高推理效率。同时,CAISA 430 的可重构数据流架构能够根据 DeepSeek R1模型的特点进行动态配置,生成面向该模型的高性能定制化流水线,进一步优化推理性能。

7b11bcd4-e475-11ef-9310-92fbcf53809c.png

▲ DeepSeek R1 Llama 8B模型在RainBuilder上编译过程图示

鉴于 CAISA 430 强大的通用性,原生支持 DeepSeek R1 蒸馏模型的开源基础模型,DeepSeek R1 的QWen和 Llama 模型可直接在 CAISA 430 上运行,不需要复杂的适配工作,技术团队主要进行了精度验证和性能优化,适配模型包括已发布的 DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Llama-8B、DeepSeek-R1-Distill-Llama-70B。

7b2d1b28-e475-11ef-9310-92fbcf53809c.png

▲ DeepSeek R1 Llama 8B模型运行图示

大模型友好:助力 AI 应用高效部署,加速人工智能落地

在大模型时代,如何高效地部署和运行这些模型成为了一个关键问题。CAISA 430 芯片的适配为 DeepSeek R1 推理提供了更加灵活和高效的解决方案,能够为不同规模和需求的 AI 项目提供底层算力支持。

高精度和强大推理能力的应用场景,CAISA 430 能够充分发挥其高实测性能的优势,满足 DeepSeek R1 模型的计算需求。

对资源有限的应用场景,CAISA 430 的通用性和可重构性让用户可以根据实际情况对模型进行优化和调整,降低硬件资源的消耗。

基于可重构数据流架构底层优势,适配后的CAISA430芯片算力产品的优势主要体现在:

产品形态多样:支持边缘盒子、一体机、AI 服务器、算力中心服务器集群等边缘至中心不同产品形态,适配不客户不同场景的AI推理需求;

适配算法丰富:配套的星云 AI 开发平台支持超过 400 种视觉模型、视觉大模型、大语言模型等算法模型,可灵活搭配按需使用,无论是复杂的视觉识别任务还是大规

模的语言处理应用,都能高效运行;

行业方案落地:配套的星空系列算力平台,提供深入行业、满足行业需求的 AI 解决方案,当前已落地覆盖超过 30 个行业,帮助客户加速落地智能化项目。

截止到目前,CAISA 系列芯片产品已服务上千客户,落地 5000+项目,实现规模化的业务落地,充分验证了商业可行性。

CAISA 芯片在短时间内快速完成DeepSeek R1 大模型适配,充分展示了 CAISA 系列可重构数据流架构芯片在高算力利用率的同时,可以做到对于深度学习算法的通用、便捷、快速支持,体现了 CAISA 芯片与工具链经过 4 代架构迭代后的深厚积累。未来,鲲云科技将沿着 CAISA 创新架构的全新技术路线,提供下一代计算平台基座,加速千行百业人工智能产品落地。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41318

    浏览量

    302703
  • 鲲云科技
    +关注

    关注

    0

    文章

    61

    浏览量

    4612
  • DeepSeek
    +关注

    关注

    2

    文章

    855

    浏览量

    3414

原文标题:鲲云科技CAISA 430适配DeepSeek R1推理,开启高效AI应用新时代

文章出处:【微信号:鲲云科技,微信公众号:鲲云科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    寒武纪Day 0适配DeepSeek-V4模型

    代码已开源到GitHub社区(点击文末“阅读原文”可直接跳转)。这一果得益于寒武纪长期积累的自研 NeuWare 软件生态与芯片设计技术,也是寒武纪对芯片与算法联合创新持续投入的延续。此前,寒武纪已对
    的头像 发表于 04-29 10:14 300次阅读

    华为首发适配DeepSeek-V4模型

    4月24日,DeepSeek-V4模型正式发布并开源,华为首发适配DeepSeek-V4拥有百万Token超长上下文,在Agent能力、
    的头像 发表于 04-28 17:01 509次阅读

    【硬核搭档】迅为RK3588成功适配飞牛FnNAS,你的私有迎来性能猛兽!

    【硬核搭档】迅为RK3588成功适配飞牛FnNAS,你的私有迎来性能猛兽!
    的头像 发表于 02-25 15:43 1075次阅读
    【硬核搭档】迅为RK3588<b class='flag-5'>成功</b><b class='flag-5'>适配</b>飞牛FnNAS,你的私有<b class='flag-5'>云</b>迎来性能猛兽!

    广和通成功部署DeepSeek-R1-0528-Qwen3-8B模型

    近日,广和通在MediaTek MT8893平台上成功部署并运行了DeepSeek-R1-0528-Qwen3-8B模型,显著提升了端侧AI设备的处理效率与智能化水平,特别是在本地化复
    的头像 发表于 09-26 13:35 1011次阅读

    DeepSeek R1 MTP在TensorRT-LLM中的实现与优化

    。我们在之前的博客[1] 中介绍了 DeepSeek-R1 模型实现超低推理延迟的关键优化措施。本文将深入探讨 TensorRT-LLM 中的 MTP 实现与优化。
    的头像 发表于 08-30 15:47 4735次阅读
    <b class='flag-5'>DeepSeek</b> <b class='flag-5'>R1</b> MTP在TensorRT-LLM中的实现与优化

    边缘计算AI硬件如何接入DeepSeek吗?需要具备哪些条件?

    2025年伊始,一款来自中国初创公司“深度求索”的AI模型DeepSeek横空出世,惊艳全球。DeepSeek厉害之处在于,在中国被外国芯片
    的头像 发表于 08-21 10:30 2063次阅读
    边缘计算<b class='flag-5'>AI</b>硬件如何接入<b class='flag-5'>DeepSeek</b>吗?需要具备哪些条件?

    科技AI视频解决方案推动食品安全智慧监管

    深圳作为全国科技创新高地,持续推动人工智能技术在城市治理中的深度应用。科技凭借自主研发的可重构数据流 AI 芯片 CAISA 及多场景算
    的头像 发表于 08-20 17:50 1519次阅读

    如何在NVIDIA Blackwell GPU上优化DeepSeek R1吞吐量

    开源 DeepSeek R1 模型的创新架构包含多头潜在注意力机制 (MLA) 和大型稀疏混合专家模型 (MoE),其显著提升了大语言模型
    的头像 发表于 08-12 15:19 4526次阅读
    如何在NVIDIA Blackwell GPU上优化<b class='flag-5'>DeepSeek</b> <b class='flag-5'>R1</b>吞吐量

    速看!EASY-EAI教你离线部署Deepseek R1模型

    1.Deepseek简介DeepSeek-R1,是幻方量化旗下AI公司深度求索(DeepSeek)研发的推理模型
    的头像 发表于 07-25 15:22 1601次阅读
    速看!EASY-EAI教你离线部署<b class='flag-5'>Deepseek</b> <b class='flag-5'>R1</b>大<b class='flag-5'>模型</b>

    【「DeepSeek 核心技术揭秘」阅读体验】书籍介绍+第一章读后心得

    提升,达到 60TPS。 从书上得知,DeepSeek-V3的训练成本只需五百万美元,堪比AI领域的拼多多。而且其准确率在某几项评测指标上也达到了不错的水平 DeepSeek模型家族
    发表于 07-17 11:59

    信而泰×DeepSeekAI推理引擎驱动网络智能诊断迈向 “自愈”时代

    DeepSeek-R1:强大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基础技术研究有限公司开发的新一代AI模型。其核心优势
    发表于 07-16 15:29

    超低延时重构AI推理体验!白山发布“大模型API”产品

    白山科技正式发布“大模型API”产品,首发上线DeepSeek-R1-0528、DeepSeek-R1-0528-Qwen3-8B、Qwen3-32B-FP8等大语言
    的头像 发表于 07-02 17:26 1282次阅读
    超低延时重构<b class='flag-5'>AI</b>推理体验!白山<b class='flag-5'>云</b>发布“大<b class='flag-5'>模型</b>API”产品

    DeepSeek开源新版R1 媲美OpenAI o3

    ;还有一些网友的实测评价都显示, DeepSeek新版R1 的性能可以媲美OpenAI最新的o3模型高版本。妥妥的超高性价比的平替。 此外,关于DeepSeek
    的头像 发表于 05-29 11:23 1547次阅读

    瑞萨RZ/V2H平台支持部署离线版DeepSeek -R1大语言模型

    瑞萨RZ/V2H平台支持部署离线版DeepSeek -R1大语言模型
    的头像 发表于 05-13 17:07 1889次阅读
    瑞萨RZ/V2H平台支持部署离线版<b class='flag-5'>DeepSeek</b> -<b class='flag-5'>R1</b>大语言<b class='flag-5'>模型</b>

    摩尔线程MTT S4000完成DeepSeek R1-671B大模型适配验证

    我国人工智能技术产业近来取得显著进步,多款新发布的大模型已达到国际先进水平。我国AI芯片企业也在积极行动,和各国产大模型开展适配,共同构建智
    的头像 发表于 05-10 09:49 1505次阅读