0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

文生视频Pika 1.0爆火!一句话生成视频,普通人也能当“导演”

Carol Li 来源:电子发烧友网 作者:李弯弯 2023-12-01 01:08 次阅读

电子发烧友网报道(文/李弯弯)11月29日,美国AI初创公司Pika labs发布了全新的文生视频产品Pika 1.0,这款产品能够生成和编辑3D动画、动漫、卡通和电影。用Pika 1.0制作视频几乎不需要任何门槛,用户只需要输入一句话,就可以生成想要的各种风格的视频,并通过简单的描述,更改视频中的形象和风格。

一句话生成视频,颠覆传统视频制作

Pika成立于今年4月,创始人郭文景和联合创始人兼CTO Chenlin Meng,都是斯坦福大学AI Lab博士生。一位专注于NLP(自然语言处理)和图形学,另一位主攻计算机视觉方向,都有生成式AI的学术经历。今年7月,Pika在Discord推出服务器,截至目前用户已超50万,每周能生成数百万个视频。

11月29日,Pika Labs正式推出了最新一代视频生成模型Pika 1.0。Pika 1.0 不仅对视频生成质量进行了提升,还支持 3D 动画、动漫或电影等多种风格视频。此外,用户还能够通过 Pika 实现画布延展、局部修改、视频时长拓展等编辑需求。

具体来看,Pika 1.0的效果有多惊艳。视频生成方面,可以通过文字生成视频,也可以图片生成视频。比如,只需输入提示词“马斯克穿着太空服,3D动画”,一个动画版本、穿着太空服准备乘坐火箭上太空的马斯克即可生成,外形、动作、背景等元素均十分逼真,可以媲美花大成本制作的3D动画影像。





这是文字生成视频,另外也可以图片配合提示词生成视频,图片为第一帧,再用文字控制动画变化效果和镜头。比如,可以轻松让名画《最后的晚餐》变得生动起来。



除了文字生成视频,图片生成视频,还可以通过原有视频生成更高质量的视频。其展示了一个骑马的黑白原视频,通过Pika 1.0生成了物种不同风格的动画,几乎涵盖现有电影和动画大部分风格,看上去质量效果非常好。



除了视频生成,Pika 1.0还能够进行视频编辑,用户只需要选定编辑区域,就能根据文本提示词修改特定区域。比如,不喜欢视频中的衣服,可以轻松更换衣服的款式和颜色;只需要用鼠标框一下,输入“一副酷酷的太阳镜”,马上就能给视频中的狒狒带上墨镜。




此外,Pika 1.0还能够修改轻松修改视频尺寸。虽然这个技术在AI绘画领域早就实现了,但是目前Pika第一个将其用在视频领域。



总的来说,Pika 1.0的功能包括:文本生成视频、图像生成视频功能,只需要输入简单的文本描述,或上传图像配合文字,就可以创建高质量的视频;视频风格转换;对视频内容进行编辑,更改或者增加图片里面的元素,还能够更改视频的宽高比尺寸等。

据称,当前Pika Labs团队仅有4位全职成员,但兼具学术和创意两个领域的顶尖人才。Demi Guo 和 Chenlin Meng 同为 Stanford AILab 的博士研究人员,拥有顶尖的学术和科研经历;Karli Chen 作为团队第三位创始人及创始工程师拥有CMU的ML&CV硕士学位,Karlin 本科期间就在机器视觉公司 SenseTime 担任工程师;Matan Cohen-Grumi则在创意领域经验丰富。

在正式推出Pika 1.0的同一天,Pika也公开透露,目前已完成A轮融资,筹资总额达到5500万美元。投资人包括OpenAI创始成员安德烈·卡帕西(Andrej Karpath)、Github前CEO纳特·弗里德曼(Nat Friedman)、Quora创始人亚当·迪安杰罗(Adam D'Angelo)等。

目前Pika 1.0已经开启申请试用,该公司表示,正在努力修改算法进一步改进模型,并开发用于过滤受版权保护材料的模型。另外,目前Pika的产品还是免费的,但最终可能会推出分层订阅模式,付费用户能享受更多功能。同时Pika也在开启招聘计划,包括技术、产品、运营等,预计明年会将团队扩充到20人。

AI视频生成技术的前景及挑战

近段时间,除了Pika 1.0,已经有多家企业发布新的视频生成工具。11月16日,社交媒体巨头Meta发布工具Emu Video,能够基于文本和图像输入生成视频剪辑。几乎同时,字节跳动发布了PixelDance模型,通过描述(纯文本)+首帧指导(图片)+尾帧指导(图片),即可生成包含复杂场景和动作的视频。

11月21日,Runway动态笔刷Motion Brush面世,该工具发布的时候引起不小的关注,其特别之处在于,只需在任意图片上抹一笔,就能让其变成一段动态视频。作为最早探索视频生成领域的领头羊之一,过去一年,Runway先后发布了 Gen1、Gen2,此次推出的Motion Brush在可靠性上更是又向前迈进一大步。



11月24日,专注于开发人工智能产品的初创公司Stable AI发布了其最新的AI模型Stable Video Diffusion(稳定视频扩散模型),这款模型能够通过现有图片生成视频,是基于之前发布的Stable Diffusion文本转图片模型的延伸。

除此之外,Adobe也在文生视频领域有新动作。日前,该公司宣布已收购AI视频生成创业公司Rephrase.ai,后者主要通过AI技术将文本转换为虚拟形象视频。Adobe高级副总裁兼总经理Ashley Still称,Rephrase.ai团队在生成式AI音视频技术、文本到视频生成工具方面的专业知识将扩展Adobe的生成式视频功能。

从Adobe收购Rephrase.ai,及国内外企业纷纷布局AI视频生成领域,可以看到,AI生成内容大潮已经逐渐从文本和图片,进一步转向视频生成。

当前,短视频、短剧市场方兴未艾,AI视频技术的不断成熟和应用,有望让视频创作更简单,成本更低。正如在Pika 1.0发布之际,OpenAI创始成员安德烈·卡帕西(Andrej Karpathy)在X平台发文感慨“每个人都能成为多模式梦想的导演,就像《盗梦空间》中的建筑师一样。”

全世界最大的AI开源社区Hugging Face的CEO克莱门特(Clement)表示:“2024年,某个主流媒体领域将会充斥AI生成的内容。”

AI视频生成有着可想象的美好前景,同时当前来看,它也存在一些挑战。它与此前的AI生成图片有所不同,Pika Labs创始人Demi接受媒体采访时表示,视频有很多和图片不一样的问题,比如要确保视频的流畅性、确保动作,视频比图像更大,需要更大的GPU内存,视频生成需要考虑逻辑问题,还要考虑如何生成,是一帧一帧生成,还是一起生成,现在很多模型是一起生成,生成的视频就很短。如果要一帧一帧生成,要怎么做,其实视频生成有很多图片生成不会面临的新的技术问题。

该公司的联合创世人Chenlin谈到,虽然视频的每一帧都是一张图片,但比图片困难得多。每一帧的生成质量要高,相邻帧之间还要有关联性。当视频很长时,确保每一帧都协调一致是个相当复杂的问题。在训练时,处理视频数据时要处理多张图片,模型需要适应这种情况。比如,如何将100帧图片传输到GPU上是一个挑战。而在推理时,由于涉及到生成大量帧,推理速度相对于单张图片会更慢,计算成本也会增加。

从目前的情况来看,虽然现在的AI视频生成已经展现出很惊人的效果,不过仍然面临新的挑战,还有需要突破的地方,比如视频的时长,清晰度等等,相关企业对此还需要持续探索。

总结

过去两年,生成式AI大潮席卷全球,图片生成率先火出圈并获得大量使用,不少AI创业企业也因此实现盈利。如今,AI视频生成逐渐成为创业企业及资本追逐的新热点,目前已经有众多企业推出相关产品,随着Pika 1.0的发布,AI视频生成技术也走上了一个新高度。可以想象,随着技术的不断突破,AI视频生成技术将短视频、短剧等行业带来新的可能。








声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
收藏 人收藏

    评论

    相关推荐

    OpenAI又打出王炸!一句话生成60秒视频,马斯克:人类认输吧

    游戏中原意为称赞对方打得不错,但目前主流的含义是代表认输退出)。   文字生成视频的AI模型其实之前也有不少,比如去年11月美国AI初创公司Pika Labs发布的Pika
    的头像 发表于 02-19 09:02 3803次阅读
    OpenAI又打出王炸!<b class='flag-5'>一句话</b><b class='flag-5'>生成</b>60秒<b class='flag-5'>视频</b>,马斯克:人类认输吧

    腾讯混元大模型上线并开源文生视频能力

    近日,腾讯宣布其混元大模型正式上线,并开源了项令人瞩目的能力——文生视频。该大模型参数量高达130亿,支持中英文双语输入,为用户提供了更为便捷和多样化的视频生成体验。 据官方介绍,腾
    的头像 发表于 12-04 14:06 133次阅读

    晶科能源N型TOPCon技术为什么领跑行业

    晶科能源在N型TOPCon的领导者地位,用一句话形容就是:领先行业6个月!
    的头像 发表于 11-21 11:08 305次阅读
    晶科能源N型TOPCon技术为什么<b class='flag-5'>能</b>领跑行业

    开关电源布线 一句话:要运行最稳定、波形最漂亮、电磁兼容性最好

    开关电源在布线上最大的特点是拓扑引起的高频(高压)强电流与控制级的弱电信号交织在起,首先要保证强电流的存在不干扰电源内部的控制信号,其次要尽量减少对外部的干扰(EMC)。一句话:要运行最稳定、波形
    的头像 发表于 10-28 14:06 1333次阅读
    开关电源布线 <b class='flag-5'>一句话</b>:要运行最稳定、波形最漂亮、电磁兼容性最好

    Sora还在PPT阶段,“中国版Sora”已经开放使用了!

    电子发烧友网报道(文/梁浩斌)今年春节期间,OpenAI的AI文字生成视频模型Sora惊艳全世界,极高的视频生成效果、长达60秒的视频生成长度,让过去
    的头像 发表于 06-17 09:07 3393次阅读

    一句话让你理解线程和进程

    今天给大家分享下线程与进程,主要包含以下几部分内容:一句话说明线程和进程操作系统为什么需要进程为什么要引入线程图说明线程和进程的关系一句话让你理解进程和线程进程:是指⼀个内存中运⾏
    的头像 发表于 06-04 08:04 1155次阅读
    <b class='flag-5'>一句话</b>让你理解线程和进程

    智谱AI正研发对标Sora的国产文生视频模型

    智谱AI,这家国内估值超过200亿的AI大模型独角兽企业,正全力投入研发款与OpenAI的Sora相媲美的国产文生视频模型。据公司内部人士透露,该模型预计最快将在今年内发布,将成为AI视频生
    的头像 发表于 05-07 09:22 523次阅读

    文生视频,硬件成本是最大拦路虎

    的问题,毕竟个能够实现文生视频的应用,服务器成本要远远高于GPT类应用。   从文生视频模型的配置谈硬件成本   对于目前市面上的
    的头像 发表于 02-26 09:13 3724次阅读

    OpenAI文生视频模型Sora要点分析

    近日,美国人工智能公司OpenAI发布了首个视频生成模型Sora。不同于此前许多AI大模型文生图或视频时,会出现人物形象前后不致等问题
    的头像 发表于 02-22 16:37 1058次阅读
    OpenAI<b class='flag-5'>文生</b><b class='flag-5'>视频</b>模型Sora要点分析

    openai发布首个视频生成模型sora

    美国当地时间2024年2月15日 ,OpenAI正式发布文生视频模型Sora ,并发布了48个文生视频案例和技术报告 ,正式入局视频生成领域
    的头像 发表于 02-21 16:45 1251次阅读

    Sora助推OpenAI估值飙升275%

    近日,人工智能领域的领军企业OpenAI发布了其首个文生视频模型——Sora。这款模型具备令人惊叹的能力:用户只需通过一句话,便能生成长达1分钟的高清
    的头像 发表于 02-20 14:12 565次阅读

    OpenAI发布文生视频模型Sora,引领AI视频生成新纪元

    在人工智能(AI)领域掀起新轮革命浪潮的,正是OpenAI最新推出的文生视频大模型——Sora。这款被业界广泛赞誉的模型,以其“逼真”和“富有想象力”的视频生成能力,彻底颠覆了传统
    的头像 发表于 02-19 11:03 933次阅读

    OpenAI推出全新文生视频模型Sora

    近日,全球领先的人工智能研究公司OpenAI宣布推出其最新的文生视频大模型“Sora”。该模型具有突破性的功能,能够根据用户提供的文本指令或静态图像,自动生成长达1分钟的高清视频。这些
    的头像 发表于 02-19 10:56 813次阅读

    奥特曼发布王炸模型Sora OpenAI首个文生视频模型Sora正式亮相

    ;可以说是王炸级的文生视频大模型。目前Sora模型正面向部分成员开放,以评估关键领域的潜在危害或风险。 Sora是种扩散模型,相较其他模型,看起来似乎是已经具备了“理解”和“思考”能力。而且Sora不仅仅是只能把文本指令
    的头像 发表于 02-18 17:41 978次阅读

    谷歌推出一次生成完整视频的扩散模型

    该公司指出,当前众多文生视频模型普遍存在无法生成长时、高品质及动作连贯的问题。这些模型往往采用“分段生成视频”策略,即先
    的头像 发表于 01-29 11:14 529次阅读