电子发烧友网报道(文/李弯弯)11月29日,美国AI初创公司Pika labs发布了全新的文生视频产品Pika 1.0,这款产品能够生成和编辑3D动画、动漫、卡通和电影。用Pika 1.0制作视频几乎不需要任何门槛,用户只需要输入一句话,就可以生成想要的各种风格的视频,并通过简单的描述,更改视频中的形象和风格。
一句话生成视频,颠覆传统视频制作
Pika成立于今年4月,创始人郭文景和联合创始人兼CTO Chenlin Meng,都是斯坦福大学AI Lab博士生。一位专注于NLP(自然语言处理)和图形学,另一位主攻计算机视觉方向,都有生成式AI的学术经历。今年7月,Pika在Discord推出服务器,截至目前用户已超50万,每周能生成数百万个视频。
11月29日,Pika Labs正式推出了最新一代视频生成模型Pika 1.0。Pika 1.0 不仅对视频生成质量进行了提升,还支持 3D 动画、动漫或电影等多种风格视频。此外,用户还能够通过 Pika 实现画布延展、局部修改、视频时长拓展等编辑需求。
具体来看,Pika 1.0的效果有多惊艳。视频生成方面,可以通过文字生成视频,也可以图片生成视频。比如,只需输入提示词“马斯克穿着太空服,3D动画”,一个动画版本、穿着太空服准备乘坐火箭上太空的马斯克即可生成,外形、动作、背景等元素均十分逼真,可以媲美花大成本制作的3D动画影像。
这是文字生成视频,另外也可以图片配合提示词生成视频,图片为第一帧,再用文字控制动画变化效果和镜头。比如,可以轻松让名画《最后的晚餐》变得生动起来。
除了文字生成视频,图片生成视频,还可以通过原有视频生成更高质量的视频。其展示了一个骑马的黑白原视频,通过Pika 1.0生成了物种不同风格的动画,几乎涵盖现有电影和动画大部分风格,看上去质量效果非常好。
除了视频生成,Pika 1.0还能够进行视频编辑,用户只需要选定编辑区域,就能根据文本提示词修改特定区域。比如,不喜欢视频中的衣服,可以轻松更换衣服的款式和颜色;只需要用鼠标框一下,输入“一副酷酷的太阳镜”,马上就能给视频中的狒狒带上墨镜。
此外,Pika 1.0还能够修改轻松修改视频尺寸。虽然这个技术在AI绘画领域早就实现了,但是目前Pika第一个将其用在视频领域。
总的来说,Pika 1.0的功能包括:文本生成视频、图像生成视频功能,只需要输入简单的文本描述,或上传图像配合文字,就可以创建高质量的视频;视频风格转换;对视频内容进行编辑,更改或者增加图片里面的元素,还能够更改视频的宽高比尺寸等。
据称,当前Pika Labs团队仅有4位全职成员,但兼具学术和创意两个领域的顶尖人才。Demi Guo 和 Chenlin Meng 同为 Stanford AILab 的博士研究人员,拥有顶尖的学术和科研经历;Karli Chen 作为团队第三位创始人及创始工程师拥有CMU的ML&CV硕士学位,Karlin 本科期间就在机器视觉公司 SenseTime 担任工程师;Matan Cohen-Grumi则在创意领域经验丰富。
在正式推出Pika 1.0的同一天,Pika也公开透露,目前已完成A轮融资,筹资总额达到5500万美元。投资人包括OpenAI创始成员安德烈·卡帕西(Andrej Karpath)、Github前CEO纳特·弗里德曼(Nat Friedman)、Quora创始人亚当·迪安杰罗(Adam D'Angelo)等。
目前Pika 1.0已经开启申请试用,该公司表示,正在努力修改算法进一步改进模型,并开发用于过滤受版权保护材料的模型。另外,目前Pika的产品还是免费的,但最终可能会推出分层订阅模式,付费用户能享受更多功能。同时Pika也在开启招聘计划,包括技术、产品、运营等,预计明年会将团队扩充到20人。
AI视频生成技术的前景及挑战
近段时间,除了Pika 1.0,已经有多家企业发布新的视频生成工具。11月16日,社交媒体巨头Meta发布工具Emu Video,能够基于文本和图像输入生成视频剪辑。几乎同时,字节跳动发布了PixelDance模型,通过描述(纯文本)+首帧指导(图片)+尾帧指导(图片),即可生成包含复杂场景和动作的视频。
11月21日,Runway动态笔刷Motion Brush面世,该工具发布的时候引起不小的关注,其特别之处在于,只需在任意图片上抹一笔,就能让其变成一段动态视频。作为最早探索视频生成领域的领头羊之一,过去一年,Runway先后发布了 Gen1、Gen2,此次推出的Motion Brush在可靠性上更是又向前迈进一大步。
11月24日,专注于开发人工智能产品的初创公司Stable AI发布了其最新的AI模型Stable Video Diffusion(稳定视频扩散模型),这款模型能够通过现有图片生成视频,是基于之前发布的Stable Diffusion文本转图片模型的延伸。
除此之外,Adobe也在文生视频领域有新动作。日前,该公司宣布已收购AI视频生成创业公司Rephrase.ai,后者主要通过AI技术将文本转换为虚拟形象视频。Adobe高级副总裁兼总经理Ashley Still称,Rephrase.ai团队在生成式AI音视频技术、文本到视频生成工具方面的专业知识将扩展Adobe的生成式视频功能。
从Adobe收购Rephrase.ai,及国内外企业纷纷布局AI视频生成领域,可以看到,AI生成内容大潮已经逐渐从文本和图片,进一步转向视频生成。
当前,短视频、短剧市场方兴未艾,AI视频技术的不断成熟和应用,有望让视频创作更简单,成本更低。正如在Pika 1.0发布之际,OpenAI创始成员安德烈·卡帕西(Andrej Karpathy)在X平台发文感慨“每个人都能成为多模式梦想的导演,就像《盗梦空间》中的建筑师一样。”
全世界最大的AI开源社区Hugging Face的CEO克莱门特(Clement)表示:“2024年,某个主流媒体领域将会充斥AI生成的内容。”
AI视频生成有着可想象的美好前景,同时当前来看,它也存在一些挑战。它与此前的AI生成图片有所不同,Pika Labs创始人Demi接受媒体采访时表示,视频有很多和图片不一样的问题,比如要确保视频的流畅性、确保动作,视频比图像更大,需要更大的GPU内存,视频生成需要考虑逻辑问题,还要考虑如何生成,是一帧一帧生成,还是一起生成,现在很多模型是一起生成,生成的视频就很短。如果要一帧一帧生成,要怎么做,其实视频生成有很多图片生成不会面临的新的技术问题。
该公司的联合创世人Chenlin谈到,虽然视频的每一帧都是一张图片,但比图片困难得多。每一帧的生成质量要高,相邻帧之间还要有关联性。当视频很长时,确保每一帧都协调一致是个相当复杂的问题。在训练时,处理视频数据时要处理多张图片,模型需要适应这种情况。比如,如何将100帧图片传输到GPU上是一个挑战。而在推理时,由于涉及到生成大量帧,推理速度相对于单张图片会更慢,计算成本也会增加。
从目前的情况来看,虽然现在的AI视频生成已经展现出很惊人的效果,不过仍然面临新的挑战,还有需要突破的地方,比如视频的时长,清晰度等等,相关企业对此还需要持续探索。
总结
过去两年,生成式AI大潮席卷全球,图片生成率先火出圈并获得大量使用,不少AI创业企业也因此实现盈利。如今,AI视频生成逐渐成为创业企业及资本追逐的新热点,目前已经有众多企业推出相关产品,随着Pika 1.0的发布,AI视频生成技术也走上了一个新高度。可以想象,随着技术的不断突破,AI视频生成技术将短视频、短剧等行业带来新的可能。
发布评论请先 登录
相关推荐
评论