0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

智能体已经能像人一样刷视频了?国内联汇科技OmAgent智能体试用!

新众报 来源:jf_48880855 作者:jf_48880855 2024-11-22 18:59 次阅读

智能体已经能像人一样刷视频了?国内知名大模型独角兽级别公司,资深AI玩家联汇科技退出了OmAgent智能体,已经开启试用。


当你正在观看一部紧张刺激的动作电影,忽然好奇:

“那个角色到底是在哪一集说的那句话?”

“这里的背景音乐是什么?”

又或者在一场足球比赛中,你错过了那个决定性的进球,却又想再次回放。诸如此类的需求,如果仅凭人力寻找,无疑存在极大的工作量。

但是 AI 能够为机器配置双眼与大脑,让它们能够看懂视频、理解剧情,对于普通人来说,这不仅是提高了搜索效率,更是扩展我们与数字世界的互动方式。

英伟达最新发布的 NVIDIA AI Blueprint 希望帮助人们解决这一问题。这是一种预训练的、可自定义 AI 工作流,他为开发者构建和部署用于典型用例的生成式 AI 应用程序提供了一套完整的解决方案。

比如在英伟达提供的试用界面中,你可以选择三个视频片段中的一个进行内容问答

wKgaoWdAZACAAiaPAAEkwiGwqls755.png

在几轮测试过后,我们发现 Blueprint 对视频问答还是有不错的效果的。你可以提问某个事件发生的时间,也可以提问某个对象的状态。
例如当我们提问 “工人在什么时候掉落了箱子”,Blueprint 可以正确的回答出时间区间。二类似于 “叉车往哪个方向开” 这种基于连续过程的问题,Blueprint 也可以轻松应答。
不过对于某些细节,例如 “谁捡起了掉在地上的箱子”,Blueprint 则给出了错误的答案。

wKgZoWdAZACAbe6-AADGVe1SurQ102.png

尤其令人遗憾的是,在试用过程中我们不断遇到流量限制,无限验证等问题,试用体验可以说一言难尽。并且目前 Blueprint 仍然处于早期申请使用制阶段,没有办法快速进行使用。

wKgaoWdAZAGAL0xhAAFFNrr4ZdM801.png

Blueprint 之外,我们还有什么选择?

经过一番搜索和调研,我们在 Github 上发现了 OmAgent 这个项目,这是一个多模态智能体框架,提供了同样强大的视频问答功能。

wKgZoWdAZAGAS8aLAAFgY5obiRk207.png

项目地址:https://github.com/om-ai-lab/OmAgent

OmAgent 是什么

OmAgent 是一个开源的智能体框架,支持简单快速地面向设备进行智能体系统的开发,为智能手机、智能可穿戴设备、智能摄像头乃至机器人等各类硬件设备赋能。OmAgent 为各种类型的设备创建了一个抽象概念,并大大简化了将这些设备与最先进的多模态基础模型和智能体算法相结合的过程,使每个人都能基于设备建立最有趣的 AI 应用。

wKgaoWdAZAKAaM5MAADlcoPXPys526.png

OmAgent 的设计架构遵循三个基本原则:
1. 基于图的工作流编排,支持分支、循环、并行等复杂逻辑操作;2. 原生多模态,提供对音视图文等多种模态数据的支持;3. 设备中心化,提供便捷的设备连接和交互方法。
简单来说,开发者可以基于 OmAgent 设计开发基于图工作流编排的面向设备的原生多模态智能体。这里的设备不光包含智能手机,智能可穿戴设备(智能眼镜等),智能家居,还包括命令行以及 web 端,开发者只需要专注于智能体本身,而不用分神处理设备。
OmAgent 项目里提供了 6 个示例项目,由浅入深展示了如何搭建一个智能体的完整过程,其中视频理解智能体工作流被 EMNLP 2024 主会收录,实现了和 Blueprint Demo 相似的功能。


OmAgent 表现如何?


根据项目文档只需要进行简单的配置就可以将 OmAgent 部署运行在本地环境。我们首先对 Blueprint 提供的测试视频进行预处理,在这个阶段视频会被分解为若干个片段,每个片段会被大模型进行总结,并向量化存储在数据库中。接下来使用之前的问题对 OmAgent 进行测试,可以看到智能体可以正确定位事件以及发生的时间。
Q: When did the worker drop the box?

A:

wKgZoWdAZAOAD3bnAAFzkSYaMrs552.png

Q: Which direction did the forklift go?

A:

wKgaoWdAZAOASgm2AAGehcmUwq4016.png


Q: Who picked up the box that fell on the ground?

A:

wKgZoWdAZAOARBJBAADmjQr1png710.png

接下来我们进行更复杂的测试,OmAgent 可以支持音频信息以及超长视频索引。我们选取了最近大火的剧集《双城之战》第二季第一集作为素材,基于其中的画面和剧情进行提问。
Q: 凯特琳收到的钥匙代表了什么?

A:

wKgaoWdAZASAcdA1AAEdrKqU-UI948.png


Q: 凯特琳和蔚在争执些什么?

A:

wKgZoWdAZASAV-WbAAFZb73r65Q400.png

Q: 视频最后几个议员在讨论什么?

A:

wKgaoWdAZASATh9wAAEBsHz15Rs437.png


Q: 议员开会的时候谁闯入了进来?

A:

wKgZoWdAZAWARw98AAFgj5fdgO8724.png

可以看到,即使面对如此复杂的视频素材,OmAgent 依然可以游刃有余。
除了视频问答之外,OmAgent 的最大特点是可以将智能体直接应用在硬件设备上,我们也对此进行了测试。使用项目提供的 app,我们可以运行示例项目中的穿衣搭配推荐智能体。智能体会根据你的需求,以及你已有的衣橱信息,为你推荐合适的穿衣建议。在这个过程中智能体会和用户进行多轮沟通以确定用户需求,并最终返回最合适的搭配。

如果想了解更多OmAgent智能体技术信息,可以通过联汇科技官网联系!

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 智能体
    +关注

    关注

    1

    文章

    147

    浏览量

    10575
  • 大模型
    +关注

    关注

    2

    文章

    2427

    浏览量

    2650
收藏 人收藏

    评论

    相关推荐

    【「具身智能机器系统」阅读体验】+初品的体验

    解决许多技术的和非技术的挑战,如提高智能的自主性、处理复杂环境互动的能力及确保行为的伦理和安全性。 未来的研究需要将视觉、语音和其他传感技术与机器技术相结合,以探索更加先进的知识表示和记忆模块,利用强化学习进
    发表于 12-20 19:17

    《具身智能机器系统》第1-6章阅读心得之具身智能机器系统背景知识与基础模块

    Intelligence)这概念有深入理解。本书开篇和大部分书籍文章一样,都是立足宏观角度,先把视角引申到世界经济形势。书中阐述具身智能机器
    发表于 12-19 22:26

    AI智能是什么_AI智能如何重塑企业业务流程

    AI技术的飞速发展令人瞩目。就在企业领导者们刚开始熟悉AI助手时,AI智能Agent(国际版)已经迅速成为讨论的焦点。它们之所以受到广泛关注,是因为正如每位员工都将配备AI助手一样
    的头像 发表于 12-19 17:55 230次阅读

    【书籍评测活动NO.51】具身智能机器系统 | 了解AI的下个浪潮!

    解和响应人类情感方面的个重要步骤;谷歌的 Atlas 机器人和特斯拉的 Tesla Bot 展 示在物理能力和智能控制方面的先进成果;丰田的 T-HR3 机器则在遥控操作 技术方
    发表于 11-11 10:20

    封装一样的磁棒电感通用吗

    电子发烧友网站提供《封装一样的磁棒电感通用吗.docx》资料免费下载
    发表于 10-28 11:15 0次下载

    工控一体机在智能机器领域应用的优势与市场展望

    随着科技的不断发展,智能机器人在工业领域扮演着越来越重要的角色。而工控一体机作为智能机器的核心部件之,具有许多独特的优势,为
    的头像 发表于 10-14 16:41 316次阅读
    工控<b class='flag-5'>一体</b>机在<b class='flag-5'>智能</b>机器<b class='flag-5'>人</b>领域应用的优势与市场展望

    如何让智能客服真人一样对话?容联七陌揭秘:多Agent大模型

    科技云报到原创。     经历多年的“答非所问”、“问三不知”,很多人已经厌倦所谓的“智能客服”。哪怕是技术
    的头像 发表于 09-26 18:41 473次阅读
    如何让<b class='flag-5'>智能</b>客服<b class='flag-5'>像</b>真人<b class='flag-5'>一样</b>对话?容联七陌揭秘:多Agent大模型

    请问studio中可以裸机一样调用定时器中断吗?

    studio中可以裸机一样调用定时器中断吗?我调用后显示出错了,使用hal库还需要添加什么吗
    发表于 09-13 08:18

    长虹发布沧海智能AI TV与智家AI大模型

    2024年德国柏林消费电子展览会(IFA2024)盛大启幕,长虹集团携全球首款沧海智能AI TV与长虹美菱智家AI大模型惊艳亮相。沧海智能
    的头像 发表于 09-10 18:21 847次阅读

    请问全差分运算放大器般运算放大器一样设计加法器吗?

    全差分运算放大器般运算放大器一样设计加法器吗?
    发表于 08-09 06:26

    Stem32CubeIDEKeil一样指定不同文件下的代码编译吗?

    Stem32CubeIDEKeil一样指定不同文件下的代码编译
    发表于 07-23 06:22

    Meta高管称大语言模型永远无法人类一样

    Meta的人工智能主管杨立昆近日表示,尽管ChatGPT等生成式人工智能产品备受瞩目,但其背后的大型语言模型(LLM)永远无法实现像人类一样的推理和计划能力。
    的头像 发表于 05-27 09:50 436次阅读

    智能传感器有什么不一样

    走向市场。 智能传感器的结构及特点 传感器的五官一样,是获取信息的重要工具。它在工业生产、国防建设和科学技术领域发挥着巨大的作用。但与飞速发展的计算机相比较,作为“五官”的传感器远
    的头像 发表于 05-07 09:23 380次阅读

    stm8cube不能stm32cube一样来自动生成工程吗?怎么操作?

    stm8cube不能stm32cube一样来自动生成工程吗?有知道怎么操作的吗?
    发表于 05-07 08:01