0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Neuchips展示大模型推理ASIC芯片

SSDFans 来源:SSDFans 2025-01-06 17:30 次阅读

领先的AI专用集成电路ASIC)解决方案提供商Neuchips在CES 2024上展示了其革命性的Raptor Gen AI加速芯片(以前称为N3000)和Evo PCIe加速卡LLM解决方案。新的芯片解决方案Raptor使企业能够以现有解决方案的一小部分成本部署大型语言模型(LLM)推理。

NeuchipsCEO Ken Lau表示:“我们很高兴在CES 2024上向业界展示我们的Raptor芯片和Evo卡。Neuchips的解决方案代表了自然语言处理在性价比上的巨大飞跃。有了Neuchips,任何组织都可以在广泛的AI应用中从LLM中获得力量。”

LLM民主化

Raptor和Evo共同提供了一个优化的堆栈,使企业可以轻松访问市场领先的LLM。与现有解决方案相比,Neuchips的AI解决方案显著降低了硬件成本。高能效也最大限度地减少了用电量,进一步降低了总拥有成本。

在CES 2024上,Neuchips展示了Raptor和Evo,在个人AI助理应用程序上加速Whisper和LlamaAI聊天机器人。该解决方案突出了LLM推理对实际业务需求的强大功能。

其他技术会议将展示Raptor和Evo如何削减语音到文本应用程序的部署成本。

Raptor GenAI加速器为突破LLM性能提供动力

Raptor每个芯片的运算速度高达每秒200TOPS。它在AI推理操作(如矩阵乘法、向量和嵌入表查找)方面的出色性能适用于Gen-AI和基于变压器的AI模型。这一突破性的吞吐量是通过Neuchips为神经网络量身定制的专利压缩和效率优化来实现的。

Evo第5代PCIe卡为加速和低功耗设定新标准

与Raptor互补的是Neuchips的超低功耗Evo加速卡。Evo结合了8通道PCIe Gen 5和32GB LPDDR5,实现64 GB/s主机I/O带宽和1.6 Tbps每秒的内存带宽,每卡仅55瓦。

正如DLRM所展示的那样,Evo还具有100%的可扩展性,允许客户通过添加更多芯片来线性提高性能。这种模块化设计确保了对未来AI工作负载的投资保护。

公司2024年下半年推出了HHHL(half-height half-length)外形产品Viper,提供更大的部署灵活性。新系列在紧凑的设计中带来了数据中心级的AI加速。

原文链接:

https://www.techpowerup.com/317298/neuchips-to-showcase-industry-leading-gen-ai-inferencing-accelerators-at-ces-2024


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ASIC芯片
    +关注

    关注

    2

    文章

    92

    浏览量

    23801
  • LLM
    LLM
    +关注

    关注

    0

    文章

    292

    浏览量

    351

原文标题:Neuchips展示大模型推理ASIC芯片!

文章出处:【微信号:SSDFans,微信公众号:SSDFans】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    智谱推出深度推理模型GLM-Zero预览版

    近日,智谱公司正式发布了其深度推理模型GLM-Zero的预览版——GLM-Zero-Preview。这款模型标志着智谱在扩展强化学习技术训练推理模型方面的重大突破,成为其首个专注于增强AI推理
    的头像 发表于 01-03 10:42 118次阅读

    智谱GLM-Zero深度推理模型预览版正式上线

    近日,智谱公司宣布其深度推理模型GLM-Zero的初代版本——GLM-Zero-Preview已正式上线。这款模型是智谱首个基于扩展强化学习技术训练的推理模型,标志着智谱在AI推理领域
    的头像 发表于 01-02 10:55 109次阅读

    如何开启Stable Diffusion WebUI模型推理部署

    如何开启Stable Diffusion WebUI模型推理部署
    的头像 发表于 12-11 20:13 120次阅读
    如何开启Stable Diffusion WebUI<b class='flag-5'>模型</b><b class='flag-5'>推理</b>部署

    阿里云开源推理模型QwQ

    推理能力,尤其在数学和编程方面表现突出。其整体推理水平已经可以与OpenAI的o1模型相媲美,这充分展示了QwQ的强大实力和潜力。 QwQ(Qwen with Questions)是通
    的头像 发表于 11-29 11:30 577次阅读

    使用vLLM+OpenVINO加速大语言模型推理

    随着大语言模型的广泛应用,模型的计算需求大幅提升,带来推理时延高、资源消耗大等挑战。
    的头像 发表于 11-15 14:20 437次阅读
    使用vLLM+OpenVINO加速大语言<b class='flag-5'>模型</b><b class='flag-5'>推理</b>

    高效大模型推理综述

    模型由于其在各种任务中的出色表现而引起了广泛的关注。然而,大模型推理的大量计算和内存需求对其在资源受限场景的部署提出了挑战。业内一直在努力开发旨在提高大模型
    的头像 发表于 11-15 11:45 436次阅读
    高效大<b class='flag-5'>模型</b>的<b class='flag-5'>推理</b>综述

    FPGA和ASIC在大模型推理加速中的应用

    随着现在AI的快速发展,使用FPGA和ASIC进行推理加速的研究也越来越多,从目前的市场来说,有些公司已经有了专门做推理ASIC,像Groq的LPU,专门针对大语言
    的头像 发表于 10-29 14:12 523次阅读
    FPGA和<b class='flag-5'>ASIC</b>在大<b class='flag-5'>模型</b><b class='flag-5'>推理</b>加速中的应用

    澎峰科技高性能大模型推理引擎PerfXLM解析

    自ChatGPT问世以来,大模型遍地开花,承载大模型应用的高性能推理框架也不断推出,大有百家争鸣之势。在这种情况下,澎峰科技作为全球领先的智能计算服务提供商,在2023年11月25日发布了针对大语言
    的头像 发表于 09-29 10:14 498次阅读
    澎峰科技高性能大<b class='flag-5'>模型</b><b class='flag-5'>推理</b>引擎PerfXLM解析

    OpenAI即将发布“草莓”推理模型

    科技界迎来新动态,据可靠消息透露,OpenAI正紧锣密鼓地筹备着一项重大发布——预计在两周内,将正式推出名为“草莓”的新型AI推理模型,并将其无缝融入ChatGPT服务中。这款以卓越推理能力为核心的大模型,旨在突破现有GPT-4
    的头像 发表于 09-11 16:53 539次阅读

    LLM大模型推理加速的关键技术

    LLM(大型语言模型)大模型推理加速是当前人工智能领域的一个研究热点,旨在提高模型在处理复杂任务时的效率和响应速度。以下是对LLM大模型
    的头像 发表于 07-24 11:38 913次阅读

    如何加速大语言模型推理

    的主要挑战。本文将从多个维度深入探讨如何加速大语言模型推理过程,以期为相关领域的研究者和开发者提供参考。
    的头像 发表于 07-04 17:32 560次阅读

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    用于文本生成,根据提示或上下文生成连贯、富有创造性的文本,为故事创作等提供无限可能。大语言模型也面临挑战。一方面,其计算资源需求巨大,训练和推理耗时;另一方面,模型高度依赖数据,需要大规模训练数据才能
    发表于 05-04 23:55

    Groq LPU崛起,AI芯片主战场从训练转向推理

    人工智能推理的重要性日益凸显,高效运行端侧大模型及AI软件背后的核心技术正是推理。不久的未来,全球芯片制造商的主要市场将全面转向人工智能推理
    的头像 发表于 02-29 16:46 1197次阅读

    Groq推出大模型推理芯片 超越了传统GPU和谷歌TPU

    Groq推出了大模型推理芯片,以每秒500tokens的速度引起轰动,超越了传统GPU和谷歌TPU。
    的头像 发表于 02-26 10:24 1065次阅读
    Groq推出大<b class='flag-5'>模型</b><b class='flag-5'>推理</b><b class='flag-5'>芯片</b> 超越了传统GPU和谷歌TPU

    到底什么是ASIC和FPGA?

    神经网络推理,能够实现高效的卷积、池化等操作。一些手机芯片里,经常集成这玩意。 说到手机芯片,值得一提的是,我们手机现在的主芯片,也就是常说的SoC
    发表于 01-23 19:08