“大语言模型为 AI 产业带来新的生机,然而语言模型的应用场景有限。要全面打开生成式 AI 的想象力,还是要依托多模态大模型。”IDC 中国研究总监卢言霞近日表示。Sora在文生视频领域真正迈出了第一步,真正做到生成式 AI 驱动生成短视频。接下来也将刺激其他科技巨头加快在该领域的技术攻关力度以及产品发布速度。
哪些公司有潜力快速推出类似产品呢?根据卢言霞的判断,几个最有潜力的群体包括,在大模型以及 AI 领域投入最为领先的科技巨头,如 BAT、科大讯飞等;在计算机视觉领域拥有深厚积累的公司,比如商汤、海康一类的公司;以及短视频类公司;更可大胆想象,也或许会培训出多模态大模型的全新创企。
多模态大模型将率先在短视频、广告、互娱、影视、媒体等领域采用,辅助人类员工生成视频,既可以提高生产速度又可以提高生产数量,还可以创造全新的视觉感受,能够帮助企业真正实现降本增效、提升用户体验。
根据预测,未来 5 年,生成式 AI 生成的文本类文件、图像类文件、视频类文件、软件代码类文件数量将会越来越平均。而这其中,与图像文件相关的数据量可能是文本文件的 100 倍,视频文件是图像文件的 10 倍。整体来看,由于 GenAI 的采用和使用日益增多,近期和远期所创建数据的增长速度都将快于近几年。
卢言霞指出,多模态大模型行业发展的挑战在于:
• 高质量数据的稀缺:图像、视频类数据掌握在少数公司手中。这些数据也需要标注,甚至重新采集,才能用于大模型的训练。
• 多模态大模型对算力的消耗更高,算力的可获取性以及成本将是挑战之一。
• 顶尖的大模型研发人才,也是行业发展的稀缺资源。
此外,多模态大模型将带来更严峻的安全方面的挑战。一方面多模态大模型将读取更多的图像、视频类数据,这些图像视频数据是否合规是否安全,需要得到保障;另一方面,生成的视频与真实世界之间的差异,是否会影响到人身安全、社会稳定、企业安全等,也需要注意。
当前 Sora 生成的是1分钟的视频,对于行业已经是重大突破,何时能生成2分钟、5分钟以上的视频还未知,无论如何多模态大模型的应用都将是颠覆性的。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
相关推荐
电子发烧友网报道(文/梁浩斌)今年春节期间,OpenAI的AI文字生成视频模型Sora惊艳全世界,极高的视频生成效果、长达60秒的视频生成长度,让过去Pika Labs推出的Pika 1.0、去年
发表于 06-17 09:07
•2501次阅读
OpenAI加入文生视频大模型的战局,AI大模型进入视频生成的阶段,这将进一步刺激AI芯片的需求。 OpenAI发布文生视频大模型Sora,
发表于 03-28 18:13
•632次阅读
Sora短期不会向公众开放 还处于反馈获取阶段 据外媒报道Sora核心团队在一次采访中透露,Sora短期不会向公众开放,Sora大
发表于 03-14 14:55
•475次阅读
汤姆猫在互动平台上透露,公司正在积极推进申请接入OpenAI的Sora模型,并计划进行相关素材制作的测试。目前,汤姆猫尚未正式接入Sora模型。
发表于 03-05 10:20
•562次阅读
Sora,美国人工智能研究公司OpenAI发布的人工智能文生视频大模型(但OpenAI并未单纯将其视为视频模型,而是作为“世界模拟器” ),于2024年2月15日(美国当地时间)正式对外发布
发表于 02-22 17:05
•920次阅读
时其估值约为290亿美元),且文生视频大模型将会大幅推动人工智能基础设施的需求,英伟达、OpenAI、软银等巨头公司都被曝正在进行AI芯片的制造布局,英伟达也因大模型训练需要GPU算力支持而股价大涨 。与此同时,受Sora发布的
发表于 02-22 17:00
•1395次阅读
Sora,美国人工智能研究公司OpenAI发布的人工智能文生视频大模型(但OpenAI并未单纯将其视为视频模型,而是作为“世界模拟器” ,于2024年2月15日(美国当地时间)正式对外发布
发表于 02-22 16:52
•2258次阅读
sora模型的上市公司目前没有相关官方的报道,因此无法给出准确的回答。 Sora能够获取现有视频并对其进行扩展或填充缺失的帧,这一功能在视频编辑、电影特效等领域具有应用前景,可以帮助用户快速完成视频
发表于 02-22 16:46
•730次阅读
美国当地时间2024年2月15日 ,OpenAI正式发布文生视频模型Sora ,并发布了48个文生视频案例和技术报告 ,正式入局视频生成领域 。Sora能够根据提示词生成60s的连贯视频,“碾压
发表于 02-22 16:42
•817次阅读
有推出“中文版sora” 有字节跳动相关人士透露Boximator是视频生成领域控制对象运动的技术方法研究项目,Boximator确实可以通过文本精准控制生成视频中人物或物体的动作;但是目前还不能作为一个完善的产品直接落地。 但是虽然说Boximator模型还处于研发
发表于 02-21 17:29
•577次阅读
奥特曼发布王炸模型Sora OpenAI首个文生视频模型Sora正式亮相 2月16日凌晨OpenAI的首个文生视频模型
发表于 02-18 17:41
•736次阅读
奥特曼,作为科技界的先驱者,近日携手OpenAI发布了其首个视频生成模型——Sora。这一创新模型完美继承了DALL·E 3的卓越画质和强大指令遵循能力,能够生成长达一分钟的高清视频。
发表于 02-18 10:06
•767次阅读
不同于单模态模型编辑,多模态模型编辑需要考虑更多的模态信息。文章出发点依然从单模态
发表于 11-09 14:53
•322次阅读
随着 GPT-4 和 Stable Diffusion 等模型多模态能力的突飞猛进,多模态大模型已经成为大模型迈向通用人工智能(AGI)目标
发表于 07-10 10:05
•540次阅读
AI大模型可分为自然语言处理大模型,CV大模型、科学计算大模型等。AI大模型支持的模态更加多样,
发表于 07-06 12:31
•1865次阅读
评论