0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

两大AI模型性能提升 登上国际榜单

爱云资讯 2025-01-16 12:01 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,由盛大AI团队研发的模型Watt-tool-70B和Newsbang/homer-72B,登上国际知名AI排行榜榜首。其中,Watt-tool-70B是由盛大旗下Watt团队研发的旗舰模型,目前位列BFCL Leaderboard总榜单第一。

wKgZO2eIhJiAH1CJAANvX9TW0Qo480.png

据悉,榜单BFCL Leaderboard是由加州大学伯克利分校开发的评估LLM工具调用能力基准测试平台。作为目前大语言模型(LLM)最热门的研究方向之一,工具调用(Function-Calling)是为了让LLM理解,并能准确使用API(应用程序编程接口),来执行更复杂而具体的任务。在近期公布的最新一轮评估结果中,Watt的“多轮对话执行能力”相较于排名第二的GPT-4o 领先11分,比排名第十的Gemini-1.5-Pro 领先近40分。

“这个模型将加速大模型落地‘融合’过程。”Watt有关负责人说,还有助于从底层数据标注到人机交互的体系化建设,让大模型初步实现从“光说不练”到“能文能武”。

此外,由盛大集团NewsBang团队开发的Newsbang/homer-72B 模型位列Open LLM LeaderBoard v2榜单第一。Open LLM Leaderboard V2是由Hugging Face维护的开源语言模型评测平台升级版本,采用更全面和严格评估标准,对各类开源大语言模型进行多维度测试和排名。Newsbang/homer-72B重视提升模型在推理和思考方面的能力,通过搭配数据筛选机制等,在多个核心评测维度,该模型性能有了大幅提升。

wKgZPGeIhJiAM0HvAAHlAh0t4MU103.png

据公开报道,2023年初,盛大集团宣布All in AI战略,去年10月,联合多家高校发表了AI与长期记忆方面的论文,其自研的OMNE大模型多智能体框架登上GAIA 基准测试排行榜榜首;其旗下的天桥脑科学研究院(TCCI)与国际学术杂志《Science》合作推出全球AI驱动科学大奖,举办和支持包括“AI+精神健康”在内的各种高水平国际会议和夏校项目,助力培养跨学科青年AI人才等。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41432

    浏览量

    302779
  • 人工智能
    +关注

    关注

    1821

    文章

    50385

    浏览量

    267138
  • 语言模型
    +关注

    关注

    0

    文章

    575

    浏览量

    11349
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI Ceph 分布式存储教程资料大模型学习资料2026

    。如何构建高性能、高吞吐、高可扩展的 AI 分布式存储系统,已成为解锁大模型基建能力的核心科技命题。这不仅关乎数据存得下、读得快,更直接决定了 GPU 集群的利用率与模型训练的最终效率
    发表于 05-01 17:35

    昆仑万维天工AI模型SkyReels V4登上Artificial Analysis榜单全球第一

    3月19日,天工AI模型SkyReels V4登上Artificial Analysis榜单Text to Video (With Audio) 赛道全球第一,显著超越Kling 3
    的头像 发表于 03-26 10:10 1058次阅读

    昆仑万维AI音乐大模型Mureka V8登顶Artificial Analysis双榜单第一

    3月25日,昆仑万维旗下AI音乐大模型Mureka V8在全球权威第三方评测机构Artificial Analysis榜单中,登顶Vocals(人声)、Instrumental(乐器)双榜单
    的头像 发表于 03-26 10:02 586次阅读

    西井科技携手两大高校研究团队发布自动驾驶感知合作成果

    在自动驾驶、具身智能等智慧物流高速动态场景中,视觉感知的“反应速度”直接决定技术落地的安全性与可靠性。近日,西井科技与同济大学长聘教授、上海创智学院全时导师陈广研究团队,联合研究成果成功登上国际顶级
    的头像 发表于 03-20 10:22 600次阅读
    西井科技携手<b class='flag-5'>两大</b>高校研究团队发布自动驾驶感知合作成果

    中软国际荣登2025 AI智能体服务商TOP100榜单

    中软国际凭借自主研发的数智化审计智能体平台,成功入选《2025 AI智能体服务商TOP100》榜单。这一重要荣誉,不仅彰显了公司在AI智能体领域的领先技术实力与行业影响力,更标志着其在
    的头像 发表于 02-25 15:47 498次阅读

    使用NORDIC AI的好处

    不依赖持续联网,整体系统可靠性更高。[Edge AI 概述; Nordic Edge AI 技术页] 覆盖从“小 MCU”到“高性能 SoC”的完整产品线 Neuton 模型 :超
    发表于 01-31 23:16

    曦智科技荣登2025VENTURE50两大榜单

    2025年12月4日,由清科控股、投资界发起的 2025VENTURE50 榜单最终揭晓。曦智科技凭借卓越的创新实力与高成长性,荣登 “风云50” 与 “硬科技50” 两大榜单,收获来自资本市场与产业领域的双重认可!
    的头像 发表于 12-11 17:51 1388次阅读

    成都汇阳投资关于国产开源模型持续突破,国产AI 竞争力增强

           国产开源模型领跑 ,AI 生态有望加速繁荣 根据独立 AI 基准测试与分析平台 Artificial Analysis 最新榜单 , 国产
    的头像 发表于 11-24 14:01 769次阅读

    沐曦联合香港科技大学登上AI顶会

    近日,沐曦PDE-AI Solution团队与香港科技大学合作,在两大人工智能顶级会议NeurIPS2025与EMNLP 2025上发表重要研究成果,涵盖大语言模型(LLM)的多样化解码与高效训练优化方向,展现了中国企业在
    的头像 发表于 10-14 09:46 1890次阅读

    AI模型的配置AI模型该怎么做?

    STM32可以跑AI,这个AI模型怎么搞,知识盲区
    发表于 10-14 07:14

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的未来:提升算力还是智力

    本章节作者分析了下AI的未来在哪里,就目前而言有来那个种思想:①继续增加大模型②将大模型改为小模型,并将之优化使之与大
    发表于 09-14 14:04

    【「AI芯片:科技探索与AGI愿景」阅读体验】+内容总览

    是展望未来的AGI芯片,并探讨相关的发展和伦理话题。 各章的目录名称如下: 第1章 大模型浪潮下,AI芯片的需求与挑战免费 第2章 实现深度学习AI芯片的创新方法与架构 第3章 AI
    发表于 09-05 15:10

    水晶光电荣登2025年度浙江省两大榜单

    近日,浙江省经信厅公布2025年度"浙江省制造精品"和"浙江省优秀工业新产品"名单,水晶光电自主研发的高端摄像头蓝宝石保护器件与合式折叠光路微棱镜分别荣登两大榜单
    的头像 发表于 08-20 17:47 2696次阅读

    全球首个胃癌影像筛查AI模型发布

    浙江省肿瘤医院联合阿里巴巴达摩院,发布了全球首个胃癌影像筛查AI模型DAMO GRAPE,首次利用平扫CT影像识别早期胃癌病灶,并联合全国20家医院,在近10万人的大规模临床研究中大幅提升胃癌检出率。 相关论文在24日
    的头像 发表于 06-30 14:37 4004次阅读

    中兴通讯星云大模型登顶SuperCLUE推理专项榜单

    近日,中文大模型权威测评基准SuperCLUE发布《中文大模型基准测评2025年5月报告》。报告显示,中兴通讯自主研发的星云大模型NebulaCoder-V6在推理专项榜单中斩获
    的头像 发表于 06-04 16:44 1609次阅读