0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

现场Live震撼!OmAgent框架强势开源!行业应用已全面开花

科技见闻网 来源:科技见闻网 作者:科技见闻网 2024-07-08 15:36 次阅读

第一个提出自动驾驶并进行研发的公司是Google,巧的是,它发布的Transformer模型也为今天的大模型发展奠定了基础。

自动驾驶已经完成从概念到现实的华丽转变,彻底重塑了传统驾车方式,而大模型行业正在经历的,恰如自动驾驶技术发展的传奇征程——

最顶尖的研发团队竞相投身其中、不断加速抢跑的技术产品创新,以及持续被推向极致的用户体验。

在大模型赛道中,有一家企业始终以领先的身位,推动着行业边界向前拓展。

为什么是联汇科技?

当行业刚开始关注大模型,他们已经锚定多模态大模型,并高分取得了工信部大模型检测的001号证书;

去年,当人们关注“百模大战”,他们不仅发布了自研OmModel多模态大模型的V3版本,更发布了国内首批大模型驱动的自主智能体应用;

今年,世界人工智能大会期间,他们再次发布一系列技术成果,将大模型技术产品推向更深、更广的应用层面。

联汇科技技术团队有着极强的前瞻思维,这与他们的首席科学家赵天成博士紧密相关,这位师从国际AI领域顶尖学者的Maxine Eskenazi,在CMU LTI (卡内基梅隆大学语言技术研究所)完成硕博连读的天才少年,不仅称得上「AI 名门正派」,更难得的是,赵天成在技术发展和战略规划方面有着独到见解。

赵天成博士指出,在AI主导的第四次工业革命浪潮中,自主智能将成为变革的核心变量。随着人类第一次接触并掌握创造智慧的奥秘,我们将目睹一个新时代的到来——在这个时代中,机器、软件甚至系统,将被赋予前所未有的自主决策能力,自动化将广泛应用于各个工作领域,开启前所未有的效率和创新。

2024年是智能体元年。

我们正处于L2级别,并逐步向L3、L4迈进的过程中。

wKgaomaLlsaAAQuwAAS_Zh71-F8853.jpg

OmAgent来了!

WAIC期间,联汇科技正式发布第二代多模态智能体 OmAgent。

去年同期,联汇科技抢跑行业,率先发布了国内第一批由多模态大模型驱动的自主智能体,那么,今年联汇的第二代多模态智能体OmAgent有哪些惊喜?

首先是感知模块全新升级。

随着AI应用落地,联汇科技发现尽管万物感知模型在智能识别和处理方面具有巨大潜力,但受限于推理速度的瓶颈。相较于小型模型在推理速度上的优势,Idealab的G-DINO和联汇科技的OmDet在速度上的表现都不尽如人意,这极大地限制了它们在边缘计算设备上的应用。

联汇科技最新发布的OmDet V2,实现万物感知的全面加速,从底层重新构建了万物感知的模块,推出了EFH高性能融合头,包含了一系列模型加速的优化技术、语言向量缓存、轻量化特征编码与解码等技术,得益于EFH对每一个环节的机制优化,相较于G-DINO和联汇的第一代感知模型,OmDet V2在每一个环节上都实现了20倍以上的速度提高。

wKgaomaLlseAChUWAAMzcqs-cOk946.jpgwKgZomaLlsiAPRX3AAKp7nj50u8363.jpg

这样的提升意味着OmDet V2正在打开未来边缘AI与具身智能全新可能。

凭借OmDet V2的推理速度和精确分析能力,单个GPU就可以承载对500路视频流的实时万物感知分析,这是对技术性能的新一次刷新。同时,这也意味着打开边缘AI的可能,OmDet V2让万物感知模型摆脱云端束缚,走向边缘设备,为人形机器人、家庭智算中心等前沿应用提供了强大的智能支持。

这种创新不仅重新定义了大模型产品的开发思维,更为构建一个更实时、更安全、更注重隐私的大模型应用环境奠定了基础。

第二是思考决策能力的提升。

思考是多模态智能体的核心,只有具备了思考能力,智能体才能够依据感知和记忆结果做决策判断和自主行为,成为真正的助手。但现有多模态思考模型存在着明显局限,比如只能基于单张图片进行思考和决策、无法对多个关联图片之间进行理解处理等。

为了解决这一问题,联汇科技全新发布了第二代思考大模型OmChat V2,一个基于多模态模型原生预训练的生成大模型,不仅提供8B、40B、60B多个版本,适配不同需求。更能非常好地支持视频、图文混合、文字等多种复杂输入,完美适配智能体决策过程中所需要的复杂场景。

wKgaomaLlsmAHeiTAAOTgvBWarQ326.jpg

OmChat V2支持高达512K、50万的上下文长度,折合视频长度30分钟,仅次于Google Gemin-1.5,并远超GPT-4o及微软LLaVa-1.5。

wKgZomaLlsmAIFcoAAKb0Ne-svU263.jpg

OmChat V2在Mantis-Eval、Q-Bench、MileBench Real、MVBench等测试中平均性能均在行业前列。

chaijie_default.png

更简单、直接的说法是,OmChat V2不仅能够看准时序关系,更能够看懂多图关系。

wKgZomaLlsuAELgOABu9PdIUsC0731.jpg

△时序关系判断

wKgaomaLlsyAHzyCAD59aphezAM603.jpg

△多图关系理解

为了大模型与智能体技术能够真正的普惠落地,联汇科技还率先完成了与多款国产GPU的适配与性能验证,通过高效稀疏激活、动态专家方法,提升推理效率20倍,OmOS大模型运行平台也是首个支持多地域大模型分布式推理平台,异构九头蛇推理能够提升算力利用率3倍。

wKgZomaLls6AKoUMAAN3Xc30PqM066.jpg

就此,联汇科技正式解锁海量行业应用场景。

wKgaomaLls-AcVpCADiYHpODwkI773.jpg

△自动化体育解说

wKgZomaLltGAeSaZABwqbppMKOE213.jpg

△影视剧内容解构

wKgaomaLltOAQYTFAClYj2jbDMY582.jpg

△工业智能助手

OmAgent框架全面开源!

联汇科技在多模态智能体技术上已经取得了多项突破性成果,对于是否开源的问题,赵天成博士始终从更宏观、更长远的角度看待。

他表示:我们选择将OmAgent框架全面开源,是因为想要鼓励更多企业、开发者参与,通过知识共享和技术创新构建一个更加开放、更加丰富的智能体生态,进而能够带动整个行业更好的发展。

OmAgent框架不仅包含了感知、记忆、决策等综合模块,并整合融入OmDet、OmChat等多个不同类型的大模型能力,极大方便企业与开发者的应用开发,推动智能体技术向更深层次、更广领域的赋能。

wKgZomaLltWAAABPAAO8GWOZYXo117.jpg

通过OmAgent,能够快速、准确解决各类场景下的复杂问题。比如,从影视剧中总找出某个问题的答案,尽管影片没有直接呈现答案,但是OmAgent依然可以通过对全片的整体理解,掌握剧情并根据原片内容进行思考、作答。

Step 01

wKgaomaLltaAQ0B9AAsImnrYKgU076.jpg

Step 02

wKgZomaLlteAWsAFABuZ0ZuABu4615.jpg

Step 03

wKgZomaLltiAbyagABn9l5t-Hy4663.jpg

Step 04

wKgaomaLltqAQU-BACoajkXLoCI975.jpg

目前,OmAgent框架已全面开源。

wKgaomaLltuAZdX6AABRZsVtmCE703.jpg

在WAIC,联汇科技对OmAgent做了完整的现场互动演示。

为了让智能体更快地融入日常工作与生活,联汇正式发布了Om多模态智能体全新产品系列——空间运营智能体、知识服务智能体,为行业用户打造“超级助手”。

空间运营智能体是通过摄像头、拾音器等物联设备以及接入的各类数据源对空间物理环境全面感知,深度融入大模型的思考能力,准确处理、分析多模态数据信息,洞察运营中的关键问题、潜在机会,基于智能体角色设定的目标任务,结合记忆和学习,实现面向物理空间的思考、规划与决策,成为用户进行空间管理的得力助手。

wKgaomaLlt-AaVqBAAOpYrDyyBY885.jpg

应用范围覆盖线下零售、营业厅、机房、产业园区、文旅景区、城市街区等各类单体空间、连锁环境,实现对空间的精细化运营与管理。

wKgZomaLluKAfIazAACf1LbPWLw032.jpg

相较于空间运营智能体对现实物理世界的运营管理,知识服务智能体更强调对数字世界的管理和对数字资产的价值挖掘。

wKgaomaLluOAd-vkAAKdQWUMTdk646.jpg

它可以作为专为行业定制的人工智能助手,广泛应用于办公、生产、运维、营销、培训、客服等场景,将企业、组织和个人在特定领域内积累的经验、技术、业务流程等转化为结构化的行业专用知识,通过知识管理、知识检索、知识问答与知识生成等核心能力,提升用户决策质量、优化操作流程,最终将无形的知识资产转化为有形的生产力。

2024无疑将是智能体元年,智能体也正在成为大模型落地的最佳途径。

关于未来,赵天成博士透露了他的预判——

智能体的未来不是单打独斗,而是大模型的组合拳,尤其是当多种类大模型协同作战时,它们能释放出远超单一大语言模型的潜力。

智能体将打破传统聊天机器人的界限,它们的应用形态将经历一场革新,变得更加多样化和深入人类活动的各个方面。

随着边缘AI的兴起,大模型将不再局限于大型服务器,它们将走向边缘,被嵌入到众多小型设备中,实现真正的无处不在。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 框架
    +关注

    关注

    0

    文章

    398

    浏览量

    17430
  • 开源
    +关注

    关注

    3

    文章

    3244

    浏览量

    42385
  • 自动驾驶
    +关注

    关注

    783

    文章

    13680

    浏览量

    166121
  • 大模型
    +关注

    关注

    2

    文章

    2321

    浏览量

    2470
收藏 人收藏

    评论

    相关推荐

    PerfXCloud重磅升级 阿里开源最强视觉语言模型Qwen2-VL-7B强势上线!

    「重磅通知」 :PerfXCloud 再度华丽升级,现已全面支持迄今为止 最为卓越的开源视觉模型 Qwen2-VL-7B 。这一重大突破将为用户带来更加震撼的视觉体验,进一步拓展创意的边界,快来
    的头像 发表于 10-23 11:07 224次阅读
    PerfXCloud重磅升级  阿里<b class='flag-5'>开源</b>最强视觉语言模型Qwen2-VL-7B<b class='flag-5'>强势</b>上线!

    Matepad pro12.2 上市半个月,但是还没有在开源网站看到该项目的开源信息,违背开源精神

    Matepad pro12.2 上市半个月,本人自己也购买了同款12+256的pad,想要同步学习下这款pad的一些体验还不错的功能点,但是目前为止还没有在开源网站看到该项目的开源信息,也查询不到
    发表于 08-27 17:25

    谷歌推出Gemini Live,开启AI语音聊天新纪元

    在万众瞩目的Pixel 9系列手机发布会上,谷歌震撼宣布了一项创新服务——Gemini Live,该服务自今日起,率先向使用英语的Gemini Advanced订阅用户敞开大门。这一举措标志着谷歌在人工智能语音交互领域迈出了重要一步,旨在为用户带来前所未有的移动对话体验。
    的头像 发表于 08-15 17:29 680次阅读

    英伟达将全面转向开源GPU内核模块

    英伟达公司近期宣布了一项重大决策,即全面转向开源GPU内核模块,并计划最终以此取代闭源驱动程序。这一战略转变标志着英伟达在开源领域迈出了重要一步,旨在为用户提供更强大、更全面的Linu
    的头像 发表于 07-19 15:26 534次阅读

    万界星空科技商业开源MES系统全面解析

    开源MES系统具有定制化、节省成本、开放性和适应性等优势和特点,可以帮助企业更好地管理生产流程。万界星空MES制造执行系统的Java开源版本,为制造业企业提供了全面的生产管理解决方案。
    的头像 发表于 07-15 14:02 305次阅读
    万界星空科技商业<b class='flag-5'>开源</b>MES系统<b class='flag-5'>全面</b>解析

    全球首个芯片设计开源大模型SemiKong正式发布

    在科技日新月异的今天,全球首个芯片设计开源大模型SemiKong的正式发布,无疑为半导体行业投下了一枚震撼弹,预示着一场深刻的行业变革即将拉开序幕。这款由Aitomatic与FPT S
    的头像 发表于 07-14 10:01 791次阅读

    蚂蚁集团发布首个开源金融场景多智能体框架

    在第七届数字中国建设峰会上,蚂蚁集团宣布了一项引人注目的举措:正式开源其多智能体框架agentUniverse。这一框架不仅是金融领域的首个开源多智能体技术
    的头像 发表于 05-28 09:25 674次阅读

    Android系统引入新功能,提升Live Caption功能表现

    Live Caption 早在 2019 年就投放市场,它独具特色,能在本地手机上实时将音频内容转换成字幕,适用于多种场景,如播客、视频网站、语音消息及本地拍摄视频等。
    的头像 发表于 05-18 14:13 923次阅读

    AI推理框架软件ONNX Runtime正式支持龙架构

    近日,知名AI推理框架开源社区ONNX Runtime正式发布支持龙架构的版本1.17.0。
    的头像 发表于 03-12 12:23 541次阅读
    AI推理<b class='flag-5'>框架</b>软件ONNX Runtime正式支持龙架构

    星动纪元开源人形机器人训练框架Humanoid-Gym

    星动纪元,这家专注于人形机器人技术的创新公司,近日宣布计划将其训练框架Humanoid-Gym进行开源。Humanoid-Gym是一个为人形机器人设计的训练框架,其开源将极大地推动人形
    的头像 发表于 03-06 18:13 1919次阅读

    谷歌模型框架是什么软件?谷歌模型框架怎么用?

    谷歌模型框架通常指的是谷歌开发的用于机器学习和人工智能的软件框架,其中最著名的是TensorFlow。TensorFlow是一个开源的机器学习框架,由谷歌的机器学习团队开发,用于构建和
    的头像 发表于 03-01 16:25 796次阅读

    边缘计算平台开源框架有哪些类型

    边缘计算平台开源框架是指基于边缘计算概念开发的开源软件框架,用于构建和管理边缘计算平台。这些框架提供了一套工具和技术,用于将计算和存储资源推
    的头像 发表于 12-27 15:17 1159次阅读

    无线通信模块管理框架RIL简介

    大家好,今天分享一个开源框架 RIL(Radio Interface Layer),嵌入式平台的无线通信模块管理框架
    的头像 发表于 12-21 09:24 1918次阅读
    无线通信模块管理<b class='flag-5'>框架</b>RIL简介

    基于gin封装的web服务框架升级

    自动生成框架内容可前往开源项目gingen按如下命令执行
    的头像 发表于 12-05 09:33 488次阅读

    上海站报名启动! 2023年开源产业生态大会OpenHarmony生态分论坛

    ,目标是面向全场景、全连接、全智能时代、基于开源的方式,搭建一个智能终端设备操作系统的框架和平台,促进万物互联产业的繁荣发展。 开源三年以来,OpenHarmony已成为智能终端领域发展速度最快的
    发表于 11-24 14:55