字节跳动推出一款颠覆性视频模型—Boximator-电子发烧友网

来源｜AIGC开放社区

在 Sora 引爆文生视频赛道之前，国内的字节跳动也推出了一款颠覆性视频模型——Boximator。

与 Gen-2、Pink1.0 等模型不同的是，Boximator 可以通过文本精准控制生成视频中人物或物体的动作。

例如，下雨天，大风把一位女生的雨伞吹走了。目前，很少有视频模型能精准做到这一点。

Boximator 案例赏析

我们先看一下 Boximator 与 Gen-2、Pink1.0，在使用相同的文本提示词、图像生成的视频，所表现出来的不同动作。

为了方便观察，「AIGC 开放社区」将对比视频整合在一起，最左边的是 Boximator 生成的视频。

一个可爱的 3D 男孩站着，然后走路

在这个案例中，Pika 1.0 生成的视频男孩只是站着没有走动，Gen-2 的视频走动了但不明显，只有 Boximator 产生了明显的走动动作。

一位英俊的男人用他的右手从口袋里拿出一朵玫瑰，并且在看着这朵玫瑰

这个案例 Pika 1.0 和 Gen-2 表现的都非常不好，男士没有掏出玫瑰花的动作。Boximator 再一次完美理解文本语义并做出了相应的动作。

往杯子里加红酒

这个案例主要展示了控制物体动作的能力，Pika 1.0 和 Gen-2 都做出了倒酒的动作，但是杯子里的酒没有明显上升的动作。只有 Boximator 做到了倒酒 + 上升两个动作。

看了这 3 个案例，能感受到 Boximator 对文本语义精准理解，以及对动作控制的强大功能了吧。

Boximator 模型介绍

为了实现对视频中物体、人物的动作控制，Boximator 使用了“软框”和“硬框”两种约束方法。

硬框：可精确定义目标对象的边界框。用户可以在图片中画出感兴趣的对象,Boximator 会将其视为硬框约束, 在之后的帧中精准定位该对象的位置。

软框：软框定义一个对象可能存在的区域, 形成一个宽松的边界框。对象需要停留在这个区域内, 但位置可以有一定变化，实现适度的随机性。

两类框都包含目标对象的 ID, 用于在不同帧中跟踪同一对象。此外, 框还包含坐标、类型等信息的编码。

控制模块和训练策略

控制模块可以将框约束的编码与视频帧的视觉编码结合，用来指导视频的精准动作生成。包含框编码器和自注意力层两大块。

框编码器：将框的坐标、ID、类型等信息, 通过 Fourier 编码和 MLP 映射为控制向量。

自注意力层：将框的控制向量与视频帧的视觉向量通过自注意力建模其关系, 学习将框指导帧生成。

训练策略方面，Boximator 主要分为两个阶段: 自跟踪阶段，训练模型的同时生成视频内容和对应的框，并简化框与对象的关系学习。

正常训练，训练模型只生成视频内容, 框的内在表达已经学会指导对象生成。此外, 训练还使用多阶段策略，逐步过渡从硬框到软框的约束, 以及适当融合无框数据。

Boximator 实验数据

为获得视频训练数据, 研究人员从 WebVid-10M 数据集中，过滤出 110 万段动态明显的视频片段, 并自动为其注释了 220 万个对象的边界框。并在 PixelDance 和 ModelScope 这两个模型上训练了 Boximator。

实验数据显示，Boximator 在保持原模型视频质量, 具有非常强大的动作控制能力。同时可以作为一种插件，帮助现有视频扩散模型提升生成质量。

在 MSR-VTT 数据集上, 无论是视频质量还是框与对象对齐精度方面,Boximator 都优于原模型。在人类评估中,Boximator 生成的视频也在质量和运动控制上明显超过原模型。

字节跳动的研究人员表示，目前该模型处于研发阶段，预计 2-3 个月内发布测试网站。让我们期待一下国内挑战 Sora 的产品诞生吧！

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

字节跳动

字节跳动

+关注

关注
0

文章
333

浏览量
9011
Sora

Sora

+关注

关注
0

文章
82

浏览量
246

原文标题：字节跳动推出颠覆性文生视频模型，可自由控制动作！

文章出处：【微信号：AI前线，微信公众号：AI前线】欢迎添加关注！文章转载请注明出处。

字节跳动豆包大模型1.5 Pro发布

近日，字节跳动旗下的豆包大模型迎来了全新的升级——豆包大模型1.5 Pro正式发布。这款全新模型在知识、代码、推理、中文等多个测评基准上表现

发表于 01-23 15:24 •215次阅读

字节跳动发布豆包大模型1.5 Pro

字节跳动正式发布了豆包大模型1.5 Pro。全新的Doubao -1.5 - pro模型综合能力显著增强，在知识、代码、推理、中文等多个测评基准上，综合得分优于GPT - 4o、Cl

发表于 01-23 10:24 •147次阅读

字节跳动否认与中兴通讯合作传闻

大模型已经与多个手机品牌建立了合作关系，但并未涉及与中兴通讯在智能手机领域的合作。同时，字节跳动还强调，目前并不存在与中兴通讯关于芯片合作的具体计划。这一澄清使得市场上对于两家企业可能

发表于 12-18 10:08 •535次阅读

字节跳动自研视频生成模型Seaweed开放

近日，字节跳动旗下的AI内容平台即梦AI传来新消息，宣布自研的视频生成模型Seaweed即日起正式面向平台用户开放使用。这一举措标志着

发表于 11-11 14:31 •296次阅读

字节跳动计划在欧洲设立AI研发中心

字节跳动正积极布局欧洲市场，计划在该地区设立AI研发中心。据知情人士透露，字节跳动已开始在欧洲寻找LLM(Large Language Model，大语言

发表于 10-28 11:04 •643次阅读

今日看点丨Vishay裁员800人，关闭上海等三家工厂；字节跳动发布两款视频生成大模型

1. 字节跳动发布两款视频生成大模型面向企业市场开启邀测 9月24日，字节

发表于 09-25 15:48 •788次阅读

字节跳动豆包大模型已支持实时语音通话

字节跳动火山引擎今日隆重推出创新对话式AI实时交互解决方案，该方案以火山方舟大模型服务平台为核心，全面升级语音交互体验。该方案深度融合火山引擎RTC技术，实现了语音数据的即时采集、高效

发表于 08-12 16:13 •861次阅读

字节跳动豆包大模型全面开启对外服务

近日，字节跳动在2024年春季火山引擎Force原动力大会上宣布，其自主研发的豆包大模型正式开启对外服务。这一大模型家族涵盖了多个细分领域，

发表于 05-16 09:29 •548次阅读

字节跳动发布豆包大模型

在近日举行的火山引擎原动力大会上，字节跳动公司正式发布了其强大的豆包大模型。据火山引擎总裁谭待透露，这款大模型展现了惊人的数据处理能力，目前日均处理文本量高达1200亿Tokens，并

发表于 05-15 11:26 •766次阅读

南开大学和字节跳动联合开发一款StoryDiffusion模型

近日，南开大学和字节跳动联合开发的 StoryDiffusion 模型解决了扩散模型生成连贯图像与视频的难题。

发表于 05-07 14:46 •1337次阅读

Stability AI与Morph AI共同推出一体化AI视频创作工具

近日，业界领先的AI技术公司Stability AI与中国AI创业公司Morph AI达成重要合作。双方宣布共同推出一款革新性的all-in-one（一体式）AI

发表于 03-05 10:44 •929次阅读

字节跳动辟谣推出中文版Sora 期待国产Sora大模型

字节跳动辟谣推出中文版Sora 期待国产Sora大模型 “文成视频大模型”的热度持续火爆，大家都

发表于 02-21 17:29 •891次阅读

字节跳动辟谣推出中文版Sora

近日，有关字节跳动在Sora引爆文生视频赛道之前，已研发出“中文版Sora”的传言在网络上流传。据称，这款创新性视频

发表于 02-21 10:27 •772次阅读

字节跳动澄清未推出中文版Sora

近日，有传闻称字节跳动在Sora文生视频模型发布之前，已经推出了一款名为

发表于 02-20 13:58 •722次阅读

字节跳动推出创新视频模型Boximator，实现精确操控人物或物体动作

针对 Boximator 的相关问题，字节跳动方回应指出，这只是视频生成对象移动技术方法的研究项目，暂不可能成为完整可用的产品。相比国外优秀的视频

发表于 02-20 13:49 •573次阅读

搜索历史

字节跳动推出一款颠覆性视频模型—Boximator

评论