联汇科技发布自主智能体 OmBot 欧姆智能体及 OmBot OS 操作系统-电子发烧友网

今年加入 OpenAI 的大牛、前特斯拉 AI 总监 Karpathy 在最近的一次开发者活动上表示：AI 智能体，代表了 AI 的一种未来!

不仅是他，全球 AI 领域的大佬和科技巨头对 AI 智能体的发展都表现出极大兴趣，并寄予厚望。

大语言模型的出现，无疑给 AI 智能体的发展带来了全新的想象力，因此尽管在众多 AI 智能体还未达到完全模拟人类智能的程度的情况下，仍然吸引了全球关注，因为它的出现意味着人类在未来实现通用人工智能的目标上迈出的重要一步。

这个在大模型技术与应用之上诞生的全新赛道，抢跑的人意味着能够拥有先发优势。

OmBot自主智能体的诞生

在今天的 2023 世界人工智能大会上，联汇科技发布了基于大模型能力的自主智能体(Auto AI Agent )——OmBot 欧姆智能体，并针对典型场景需求，推出了首批应用。

OmBot 欧姆智能体横空出世的背后，是联汇科技技术团队的一次 “蓄谋已久”。

公司核心团队来自全球计算机殿堂 —— 卡内基梅隆大学，实验室对于自主化智能体的探索从 90 年代就已经开始。2014 年，联汇科技首席科学家赵天成攻读博士时，已经成功研发了全球第一个多模态智能体平台DialPort，让不同高校的智能体(机器人)在一个平台汇集，并让他们一同协作帮助人类完成各种任务。

这些智能体的专业领域各不相同。

例如有些是帮助订餐厅，有些是帮你分析电影，有些是帮你处理文案等等。随着智能程度的不断增加，DialPort 汇集了超过 100 个智能体能力，为超过 100 篇学术研究项目提供了智能体的基础平台，更是影响了包括 AmazonAlexa 在内的众多目前已经成熟的交互智能体的设计思路。

自主智能体的初步探索

那么，什么是自主智能体呢?

联汇科技给出了明确的回答 ——智能体是能够感知环境、自主决策并且具备短期与长期记忆的计算机模型，它能够模仿人类大脑工作机制，根据任务目标，主动完成任务。

联汇自主智能体包含了认知、记忆、思考、行动四大核心能力，作为一种自动、自主的智能体，它以最简单的形式中在循环中运行，每次迭代时，它们都会生成自我导向的指令和操作。因此，它不依赖人类来指导命令，具备高度可扩展性。

自主智能体核心能力

认知是智能体获取环境信息的过程。将原始数据转化为计算机可以理解和处理的形式，而人类 80% 的信息输入来自于视觉。

记忆是智能体存储和提取信息的能力。包括短期记忆和长期记忆，前者用于存储临时的信息，后者用于存储更持久的知识和经验，并最终由记忆在决策和行动中发挥价值。

思考是智能体对感知和记忆进行分析、推理和决策的过程。使用各种算法和技术来处理感知数据和记忆信息，以生成合理的决策和行动计划。其中，语言是我们思考的核心逻辑。

行动是智能体基于感知、记忆和思考结果采取的具体行为。包括控制机制和执行器，用于将决策转化为实际的物理行动或其他形式的输出。

第一批自主智能体是什么

当自主智能体具备了以上 4 类核心能力后，自然而然面向不同行业、不同需求、不同场景的第一批智能体应运而生 —— 视频小欧、文档小欧和 AIGC 小欧。

是的，联汇首次推出的自主智能体并不止一个，而是一批。

他们能做什么呢?

视频小欧可以成为新零售场景中的智慧店长。通过与摄像头视觉信息结合，利用欧姆大模型智能识别店内发生的一切，形成机器人记忆，并自主决策提示交互信息。自主关注店内值得关注的事件，在必要时进行提示。通过与机器人对话交互，用户可以随时询问店内发生过的一切，协助店铺的管理运营。

视频小欧成为自主思考的智慧店长

文档小欧可以成为个人和企业的学习助理。面对电力、石油、医学等行业专业知识学习成本高、查询困难的痛点，文档问答机器人可以将专业知识有效集成到向量数据库，并存储记忆，形成专业机器人，通过多模态内容理解与内容生成，智能回复用户问题，并给出专业的回答。

文档小欧帮助行业小白解决专业问题

AIGC 小欧可以成为媒体、文化、游戏等行业的剪辑助手。通过 AIGC 实现媒体视频素材的一键成片，针对视频主题，语言模块完成视频内容文案生成，随后拆分为更加细节的视频镜头描述，依托语言理解能力，对素材库视频进行搜索、剪辑和生成，最终大幅降低视频制作门槛。

AIGC 小欧一键成片

现场，联汇科技行嗨发布了基于 OmBot 欧姆智能体与大模型技术的行业级智慧文旅底座，为文旅全行业提供包含元宇宙、AIGC、智慧助手等典型场景快速赋能。

面向行业、企业、个人等不同主体千变万化的需求，OmBot 欧姆智能体将通过高效调教，实现个性化智能体的快速生成与进化，未来的自主智能体，不是一个，也不是一批，而是 “人均” 单位下的应有尽有。

自主智能体会像孙悟空的分身猴毛，有需要就可以快速的实现。

欧姆大模型 3.0 来了!

仔细体验首批自主智能体，不难发现，在应用过程中，认知与思考是自主智能体核心能力的核心。

对于认知与思考的解决方案，联汇依赖的是背后的多模态大模型。

早在 2019 年，联汇科技就与 OpenAI CLIP 模型同期推出了欧姆模型 1.0，实现跨模态搜索，随后的欧姆大模型 2.0，聚焦开放目标识别，实现了从图文检索的到目标理解的跃迁。

目前，联汇科技正式推出欧姆大模型 3.0，直指行业性能最强、真正落地应用的大模型。

这次的欧姆大模型 3.0 实现了哪些飞跃呢?

OmModel V3 正式发布

开放识别方面，欧姆大模型支持对视觉图像、视频进行标签全开放识别。预训练中已经包含了数十亿的高质量图文匹配数据，包含大量的环境背景，目标类型，目标属性与行为特征，叠加全图细粒度级别的理解，图文的语义匹配，图文问答等多任务的训练，使欧姆大模型 3.0 具备了能力涌现的保障。

欧姆大模型 3.0 不再局限于固定的目标类型清单，而是通过语义理解去理解视觉中的任意目标，甚至是描述的方式去定义目标。

开放识别

视觉问答方面，构建了私有的十亿级媒体数据和物联网数据，包括无人机视角，监控视角等，通过多任务训练，欧姆大模型 3.0 将包括自然语言解析、逻辑推理、图像理解以及自然语言生成等AI 能力进行深度融合。将视觉模型和语言模型进行细粒度的对齐，让其可以理解人类指令，并合理作答。

另外，欧姆大模型可以在针对图片进行问答之后进行多轮对话推理，并扩充视觉之外的信息。

视觉问答

认知推理方面，通过不断提升欧模大模型的内容理解与多模态的语义对齐的能力，结合语言模型的能力，欧模大模型能够做到基于视觉认知的推理，并由此支撑智能体所需要的认知与推理能力。

例如，看到儿童摔倒，模型可以推理要立即检查儿童有没有受伤。看到有小孩在窗边，模型可以提醒要注意儿童的安全。看到瓶子破裂饮料打翻，模型可以提醒马上清理防止有人滑倒。

在开放识别、视觉问答的基础上，认知推理的能力能够赋能智能体从被动的识别转为主动推理，进行思考与决策，并提出相应的智能解决方案。

推理认知

高效微调方面，针对传统全参数微调消耗大量 GPU 计算与存储资源的情况，联汇从模型训练和模型推理两方面入手，使得欧姆大模型能够好用、易用。

在模型训练上，联汇自主设计 PEFT 羽量微调技术，与标准全参数微调相比，仅微调模型参数的一小部分，训练参数量小于 1%，在大幅降低计算和存储成本的同时，实现媲美全参数微调的性能表现。这样的做法能够真实降低大模型的微调训练门槛，快速适配用户长尾场景的训练需求。

训练参数量小于 1%

在模型推理上，联汇推出针对多模态大模型的推理运行系统 ——Hydra 九头蛇部署架构，通过多卡集群部署蛇身，由多个公用的底座模型组成，而各个算法任务只需要部署羽量级的蛇头模型，实现 MaaS 架构。在推理时，蛇头模型可与任意公用蛇身模型结合产生识别结果，且新增算法任务只需增加羽量级蛇头模型。从而实现了 GPU 集群资源的高效利用，并突破算法任务部署显存资源的上限。

Hydra 九头蛇部署架构

作为成熟的大模型，欧姆大模型拥有良好性能的同时，依旧在不断自我进化。联汇研发团队构建了一套完善的人在环路指令学习进化体系。

人在环路指令学习进化体系

对于一个迭代升级后的新版本大模型，首先需要经过质量部的锤炼，通过基于内部量化数据集进行能力验证，再配置并测试各种算法任务，确保模型的升级成功。在模型实际部署上线后，持续跟踪算法任务运行情况，记录并反馈模型潜在缺陷和优化点。

数据部据此对新算法任务、长尾场景和模型识别缺陷等关键点，使用完整的数据回流体系进行针对性的数据采集、数据清洗、和指令学习数据集生成等操作。

在指令学习数据集完成累积周期后，算法组将基于质量组的反馈以及数据组采集的数据对欧姆大模型进行新一版本的迭代优化训练，针对性提高模型在业务算法上的能力，增强泛化能力。

基于由效果评估、升级策略、数据回流、优化升级构成的人在环路指令学习进化体系，欧姆大模型可以对底座模型进行有效的指令学习、迭代升级，从而在现有的算法任务上有更好的表现。

这也意味着每隔几个月，欧姆大模型都会迭代进化得更加强大。

完善的工具链和工程化框架

成功的大模型在应用层面落地需要与之配套的工具链与工程化框架。

为了帮助用户更好、更快的使用大模型技术与产品，联汇正式发布欧姆大模型工具软件集合，用 AI - 原生的思路，重新想象 AI 智能体的开发工具，让开发者可以快速构建未来的爆款智能体!

欧姆大模型应用体系

过去几年间，联汇科技构建了完善的针对视觉理解场景的工具链平台。开发者可以利用自然语言灵活的表述识别需求，OmVision Studio、OmVision OS 等平台与系统，提升算法生产效率的同时，有效降低了人工智能技术的应用门槛，为更多的企业与行业赋能。

OmVision 应用体系

今天，联汇科技首次发布针对智能体的 OmBot OS 操作系统。开发者可以基于灵活的模块配置，将多模态大模型、向量数据库、人机交互认知架构进行深度融合，为构建基于多模态数据感知、认知、思考与行动的智能体奠定基础。

OmBot OS 架构

OmBot OS 提供自带的长期记忆模块，同时允许开发者用户编写主动思考模块与交互响应模块，支持响应式问答与主动推荐思考的任务场景。同时支持记忆反思模块，模拟人类对于长期记忆的主动压缩与思考过程，从繁杂的原始记忆中抽取出更加高维度的抽象记忆信息，让我们的智能体更加人性化。

OmBot OS 让开发者可以基于灵活的模块配置，将多模态大模型、向量数据库、人机交互等技术进行深度融合，为构建基于多模态数据进行感知、认知、思考与行动的智能体奠定了基础。

以更开放的方式拥抱 AGI 时代

完善的产品矩阵与人在环路指令学习进化体系为联汇科技的技术生长打下扎实基础，在此之上的对外开放能力同样令人期待。

联汇首席科学家赵天成博士表示，我们相信在未来，每个人与每一家企业都可以在 AI 的能力加持，具备更好的记忆、认知和决策能力，我们现在的技术方向，就是让机器不断与我们人类对齐，持续进化，最终真正为人类所用。

在这样的过程中，联汇科技始终以用户为中心，不断进化能力、迭代产品、开放生态，推动降低人工智能使用门槛，加速推动普惠 AI 赋能千行百业。

在 AGI 时代来临之际，人工智能的范式变革正在加速，曾经的故事正在成为现实。

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
31009

浏览量
269355
智能体

智能体

+关注

关注
1

文章
152

浏览量
10592
OpenAI

OpenAI

+关注

关注
9

文章
1097

浏览量
6563

【「具身智能机器人系统」阅读体验】+初品的体验

。这些技术的综合应用使得具身智能系统能够进行复杂的环境感知、决策制定和物理操作。例如通过多模态感知技术，智能体能够综合视觉、听觉和触觉得数据，从而可以更全面地理解和响应其所处的环境。

发表于 12-20 19:17

联想百应智能体正式发布

近日，联想集团高级副总裁、中国方案服务业务群总经理戴炜出席“WISE2024 商业之王”大会，正式发布业内首款面向中小企业的IT服务智能体——联想百应智能

发表于 12-02 17:20 •364次阅读

微软Copilot Studio新功能：支持定制Agent 赋能用户构建自主智能体

微软宣布重大更新，用户可通过Microsoft Copilot Studio构建自主智能体。麦肯锡、汤森路透等全球知名企业己利用智能体，实现

发表于 11-10 09:59 •623次阅读

微软Copilot Studio新功能：支持定制Agent 赋能用户构建<b class='flag-5'>自主</b><b class='flag-5'>智能</b><b class='flag-5'>体</b>

联想发布智能体一体机解决方案

近期，联想公司正式推出了全新的智能体一体机解决方案，旨在为企业和教育用户提供高效、便捷的人工智能应用落地途径。该方案包含两大核心类型：面向企业用户的

发表于 10-31 11:19 •438次阅读

荣耀发布个人化全场景AI操作系统MagicOS 9.0

近期，手机市场迎来了一波密集的新品发布，其中AI技术成为了各大厂商竞相追逐的焦点。　　10月23日，荣耀公司发布了行业首个搭载智能体（AI Agent）的个人化全场景AI

发表于 10-29 16:48 •819次阅读

联发科技新推智能体AI芯片天玑9400

10月10日资讯，联发科技揭晓了其最新的5G智能体AI芯片——天玑9400，该芯片采用了台积电的第二代3nm制程技术，并宣布vivo的X200系列将作为全球首款搭载此芯片的智能手机。

发表于 10-10 17:08 •666次阅读

长虹发布沧海智能体AI TV与智汇家AI大模型

2024年德国柏林消费电子展览会（IFA2024）盛大启幕，长虹集团携全球首款沧海智能体AI TV与长虹美菱智汇家AI大模型惊艳亮相。沧海智能体

发表于 09-10 18:21 •875次阅读

聚徽触控-工业一体机选择什么操作系统好

工业一体机选择操作系统时，需要考虑稳定性、安全性、易用性、兼容性以及具体应用场景等多个因素。以下是对常见操作系统的一些分析：

发表于 07-21 11:14 •446次阅读

华为发布鸿蒙原生智能，OS深度融合AI，小艺升级为系统级智能体

Beta。鸿蒙原生智能是基于软硬芯云协同的硬件与基础设施架构，AI与OS深度融合的智能系统。小艺智能体

发表于 06-24 14:30 •554次阅读

黑芝麻智能与均联智及联合推出首款舱驾一体软件开放平台

4月25日，2024（第十八届）北京车展开幕，黑芝麻智能与均联智及（NESINEXT）共同向行业发布了基于黑芝麻智能武当系列C1296智能汽

发表于 04-26 10:50 •479次阅读

OPPO发布1+N 智能体生态战略，联发科携手OPPO打造AI手机生态

最近，OPPO举办AI战略发布会，发布由 OPPO AI 超级智能体和 AI Pro 智能体开发

发表于 02-21 17:03 •1074次阅读

OPPO发布1+N智能体生态战略

OPPO近日在全球科技界掀起了波澜，正式发布了其独特的1+N智能体生态战略，标志着这家科技巨头在人工智能领域的全新布局。该战略的核心在于两大组件：AI超级

发表于 02-21 10:36 •740次阅读

联想今年将发布AI OS操作系统

联想正式宣布，将把AI PC和个人Agent作为2024年的核心业务推进重点，并计划在今年内推出全新的“AI OS操作系统”以及一系列搭载此系统的“AI PC”。这一创新举措标志着联想在人工智

发表于 02-18 11:10 •1044次阅读

阿里发布手机操作智能体框架Mobile-Agent

阿里巴巴与北京交通大学的联合团队近日在学术界引起了广泛关注，因为他们共同推出了一款全新的手机操作智能体框架——Mobile-Agent。这款框架旨在为手机用户提供更高效、便捷的操作体验

发表于 02-05 10:41 •1558次阅读

荣耀推出自研操作系统MagicOS 8.0

荣耀正式推出了自主研发的全新操作系统——MagicOS 8.0（中文名：魔法OS 8.0）。这款操作系统凭借其独创的平台级AI使能的意图识别人机交互，引领了

发表于 01-12 15:11 •2291次阅读

搜索历史

联汇科技发布自主智能体 OmBot 欧姆智能体及 OmBot OS 操作系统

评论

【「具身智能机器人系统」阅读体验】+初品的体验

联想百应智能体正式发布

微软Copilot Studio新功能：支持定制Agent 赋能用户构建自主智能体

联想发布智能体一体机解决方案

荣耀发布个人化全场景AI操作系统MagicOS 9.0

联发科技新推智能体AI芯片天玑9400

长虹发布沧海智能体AI TV与智汇家AI大模型

聚徽触控-工业一体机选择什么操作系统好

华为发布鸿蒙原生智能，OS深度融合AI，小艺升级为系统级智能体

黑芝麻智能与均联智及联合推出首款舱驾一体软件开放平台

OPPO发布1+N 智能体生态战略，联发科携手OPPO打造AI手机生态

OPPO发布1+N智能体生态战略

联想今年将发布AI OS操作系统

阿里发布手机操作智能体框架Mobile-Agent

荣耀推出自研操作系统MagicOS 8.0