卡奥斯智能交互引擎是卡奥斯基于海尔近40年工业生产经验积累和卡奥斯7年工业互联网平台建设的最佳实践,基于大语言模型和RAG技术,集合海量工业领域生态资源方优质产品和知识服务,旨在通过智能搜索、连续交互,实时生成个性化的内容和智能化产品推荐,为用户提供快速、可靠的交互式搜索服务,首创了聚焦工业领域的智能交互引擎。
详情戳:卡奥斯智能交互引擎
就像这样,轻轻一圈,选定目标立刻变身单独图层,再丝滑嵌入不同的背景视频,场景变换so easy~
想要调整一下镜头角度,交给AI,同样能一键完成:
还能一键消除、修改目标:
后期再也不用加班加到手抽筋(doge)。
划!重!点!这还不是实验室里的单一技术demo,而是马上就要开放内测,让创作者们直接可以用起来的一站式AI视频创作平台——“寻光”。
就是说,传统上分散在不同制作流程中的剧本创作、分镜图设计、视频素材编辑等步骤,现在都可以在AI加持下,在同一个平台上流畅完成。
演示一出,现场的观众都坐不住了。
而达摩院官方,也透露出了AI视频领域新成果背后更大的“野心”:
不对标Sora,而是走自己的路,希望更快让AI生产力匹配人类想象力。
“寻梦光影间”
所谓寻光,意指“寻梦光影间”:
即通过人工智能技术,提供全新的视频创作模式。
与Sora等今年备受关注的AI视频生成模型不同,寻光关注到的,是“Sora之后,视频工作流的变革”。
达摩院认为,Sora等AI视频生成模型给足了人们对视频生产方式彻底变革的想象力,但一方面,AI视频内容的可控编辑,包括对复杂剧情的理解、生成对象的一致性等,仍然是当前算法所面临的一大挑战。
另一方面,业界尚没有统一的AI视频编辑平台,能让创作者们一站式体验到AI加持的视频创作全流程。
举个例子,OpenAI创始成员Andrej Karpathy最近也玩上了AI视频,整出了个AI版《傲慢与偏见》。
在这个短片的制作过程中,他用到的工具包括Claude、Ideogram、Luma、ElevenLabs、VEED……而他本人也抱怨说:
老实说这个工作流非常混乱,工具与工具之间存在大量的复制粘贴,3个片段的简单小视频就花了我大约1个小时的时间。
这里面存在一个巨大的机会。谁正在打造100%的AI原生视频制作平台?
达摩院打造寻光,定位为PUGC一站式AI视频创作平台,目标正是针对以上问题,用AI能力重塑传统视频制作的全流程。
具体来说,寻光可以辅助用户创作剧本、分镜图等,支持对生成及上传素材进行丰富的AI编辑,包括人物控制、场景控制、运镜控制、目标新增/消除/修改等10多种功能。
并且在交互方面,主打“让视频编辑像操作PPT一样简单”。
以分镜设计环节为例,上传到寻光的原始视频素材,会由算法切分成多个分镜头。
在创作空间里,用户可以方便地查看到每一个分镜头,并用简单的拖拽操作对其进行调整。
在新建的空白分镜中,除了添加已有素材,寻光平台还支持用户调用多种多模态生成模型,生产新的内容。
而在编辑功能方面,寻光强调的是精细化的编辑和控制:在AI加持下,依据用户意图,在语义层面而不是像素层面实现编辑;同时,视频里的人体、人脸、前景、背景等任意局部目标,都可以进行精细化的编辑和修改。
在现场,达摩院视觉技术实验室高级算法专家陈威华着重提到了基于视频图层的编辑能力。
以前景图层功能为例,用户通过文本输入,即可生成符合描述的、具有透明背景的视频,并且一键就能将其融合到其他背景视频当中。
寻光也支持图层拆解功能,用户在视频第一帧选择想要提取的物体,算法就会自动跟踪,把整段视频中对应的目标拆解出来,形成独立的带透明背景的视频图层。
飘动的头发也扣得很精细的那种:
另外,在对视频全局元素的编辑方面,风格迁移上,寻光平台提供了20+不同风格。
运镜控制上,左右平移、上下平移、推进拉远、左右环绕等都能支持。
在对视频局部元素的编辑方面,除了目标消除,寻光平台还能实现人脸的精准控制:
△
视频取自国风武侠动漫《少年白马醉春风》第三集
轻轻一拉实现运动控制:
审核编辑 黄宇
-
AI
+关注
关注
87文章
30072浏览量
268332 -
人工智能
+关注
关注
1791文章
46820浏览量
237455
发布评论请先 登录
相关推荐
评论