0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

从“AI证件照”到“AI译制片”,爆款AIGC应用的商业化迷思

脑极体 来源: 脑极体 作者: 脑极体 2023-12-04 09:26 次阅读

让郭德纲飙英文、让霉霉说中文的翻译视频生成工具HeyGen和掀起AI证件照热潮的“妙鸭相机”一样,在一阵疯狂刷屏之后,又迅速在各大群里销声匿迹了。

十月份,由HeyGen制作的各种明星跨语言翻译视频,在全网疯传,大家震撼于AIGC地道的中英文表达,完全没有译制片的腔调,惟妙惟肖的音色还原、高度对齐的口型声音,让不少人表示,“真的有被吓到”“配音演员要失业了”……

太阳底下无新事,这个现象级AIGC应用,也逃不过“速朽”的命运。

如今我所在的LLM大模型讨论群里,偶尔有人发一个中英翻译视频,根本无人讨论,可能大多数人连点开看看,都提不起兴趣。

大众的新鲜感很快会过去,“明星译制片”只有看个乐子的娱乐属性,并不是高频刚需,猎奇尝鲜之后,到了真金白银付费的时候,自然风过了无痕。

wKgaomVrS_GAD-zxAACuGTZHvMM181.jpg

这一年,大模型无疑是全球最大的热点。但热归热,最终在商业市场立足的大模型应用仍然稀少。

明明已经是“百模争艳”,为何成功产品化的现象级应用,就那么几个?

而这些产品成熟也不缺热度的爆款AIGC应用,为何无法将流量转化为持久的经济效益,商业化仍是一团迷雾?

本文希望从“AI译制片”这个小切口,探讨一下大模型的产品化条件和商业化迷思。

一夜爆红,是产品化的胜利

首先要明确一点,妙鸭也好,HeyGen也好,AIGC应用的一夜爆红,对于大模型产业来说,绝对是一件正面的事。

大模型只是一种基础技术,相当于钢材,大模型厂商相当于炼钢厂,还要有人设计出洗衣机、跑步机、微波炉等一个个具体的产品,新技术才能为人所用。

而HeyGen的一夜爆红,正是产品化的胜利。

技术原理上,跨语言翻译视频制作并不是什么新事物,业内已经有很多科技公司、影视公司、后期制作公司在探索并推出了专业级工具平台。

简单来说,就是升级版的TTS(Text To Speech)技术。利用大语言模型对文本进行更地道的翻译,然后对声音空间进行更好的建模,训练一个跨语种迁移TTS模型,让风格迁移、音色迁移、情感迁移更加鲁棒,合成的语音更加自然、还原。

这种技术的特点就是高效,整个翻译过程全自动化,可以批量生成翻译视频。不过在自然度和表现力细节上,还是不如真人配音演员的演绎那么细腻、有创造力。

总结一下就是,HeyGen背后的技术原理,并非什么独家秘籍。

其火爆的原因,是极高的产品化能力。

一般来说,AI技术的产品化,要经历三个步骤:

第一步:选择工具。

工欲善其事,必先利其器,工具是开发人员喜欢花费大量时间争论的话题。HeyGen的工具选择,是比较务实的,甚至看起来特别“小白”,那就是头部闭源模型+开源“大礼包”。

有网友扒出,HeyGen是用Whisper将语音转文字,GPT4(目前未开源)进行文本翻译,声音克隆+生成音频用so-vits-svc,最后用GeneFace++,将翻译后的语音与视频中说话者的嘴唇动作同步。

大模型热潮以来,我们看到了许多开发者在衡量和挑选“最好”的大模型,而市面上有各种不同的基座模型供应商,提供类似的竞品服务,开发者想要找到绝对意义上最好的工具,几乎不可能。这些底层工具如基座模型、编程语言等,先进性都可能变化。选择好相对较优的工具组合,然后快速去开发demo、验证想法、迭代升级,才是开发者最应该做的。

wKgaomVrS_KAFgeRAABDafFfOl4527.jpg

第二步:原型设计。

HeyGen选择的工具,无论是GPT4的API,还是开源模型,都是比较容易获取的,但大多数普通人都不会从搜索GitHub仓库、处理软件bug中获得多少乐趣。

就拿跨语种视频翻译来说,其中涉及了多模态内容的翻译,包括语音、文本以及视频,在字幕翻译、语音合成、智能配音方面,目前都有很好的自动化,但将多模态功能集成到一起,实现端到端一键翻译的产品还不多见。

所以,HeyGen构建了一个简单易上手的访问界面,通过集成多种模型、多种工具,降低了翻译门槛,用户只需要上传初始视频-选择目标语言-一键输出,就可以坐等声音克隆完成了。

HeyGen的核心价值,就是让非技术用户不必陷入繁多的技术细节中,不需要安装N多个额外的工具,就可以与多个模型交互,完成转写、翻译、配音、图像处理、音画同步等一大堆复杂的事情,轻松进行高维度、可交互的内容创作。

wKgZomVrS_KAZIisAABFchkoYxs110.jpg

第三步:产品化。

明星、名人的跨语言翻译视频固然精彩,但只是一种用例,并且只能停留于C端用户玩梗,涉及自然人的声音、肖像等版权问题,是无法大规模普及并商用的。所以,虽然明星译制片带火了HeyGen,但HeyGen想要将产品投放市场并发挥价值,还需要更有说服力的产品力。

从HeyGen官网可以看到,数字人+跨语言翻译视频,才是HeyGen的核心产品力,并给出了跨境电商营销视频、跨语种品牌宣传、老师制作教学视频、社交媒体吸粉、为生日婚礼等纪念日制作令人难忘的个人视频等,一系列落地场景。

在此基础上,HeyGen让数字人跨语言翻译视频,可以通过自动化流水线来制作。

用户可以上传自己的照片,进行个性化形象定制,也可以在HeyGen提供的数字人素材和模板中选择,输入脚本后就能生成自己所需的多语种视频了。

wKgaomVrS_OAXBLNAAGNo7QhZiA280.jpg

至此, HeyGen顺利完成了AI译制产品化的转换,从而取得了巨大的成功,导致了“多年译制无人问,一朝HeyGen天下知”的景况。

从AI写真到AI译制片的爆火,一次次说明,产品化是承上启下、不可或缺的一步,再怎么强调也不为过。

可以肯定地说,不能完成从技术到原型设计再到产品化的转换,将是许多大模型投资回报率低的主要原因,也是许多AI创业项目失败的原因之一。

难逃“速朽”命运,商业化的魔咒

然而,即便如此成功的产品化,HeyGen又一次重复了“妙鸭”前辈的故事,在访问量陡增之后,又很快在各大群里销声匿迹了。

公域流量的退潮,似乎是爆款AIGC应用的共同命运。

对此,有人认为,HeyGen是在“闷声发大财”。虽然猎奇玩家散去了,但留下来的用户还是给HeyGen贡献了收入增长,HeyGen连续九个月环比增长率在50%以上。创始人Joshua Xu也在社交媒体上公布了相关数据,仅七个月时间,ARR年度经常性收入就达到了100万美元。

问题来了,HeyGen的商业化潜力是可持续的吗?

wKgZomVrS_OAePZYAAB_azYbi6c225.jpg

我们认为,HeyGen将要面临的商业化挑战,还是非常大的。

首先,技术工具无法被垄断,仅靠多模态AI无法建立商业模式。

HeyGen凭借大模型强大的多模态和理解能力,让跨语种翻译视频制作,达到了传统AI译制所望尘莫及的水平,这是非常厉害的工作。但大模型就像c++、数据库一样,只是一种新技术工具,它是无法被垄断的。HeyGen所使用的开源工具极易获得,闭源模型API也敞开了迎客,所以仅靠底层工具无法建立商业模式和竞争壁垒。

而产品创意、交互界面的开发门槛并不高,大量科技企业和个人开发者都可以轻松复刻并优化升级,产品被超越或许只在旦夕之间。

如今点开海外科技媒体的报道页面,会看到类似HeyGen(原movio)的视频生成工具,推荐清单高达95个之多。可以说,HeyGen提供了一个宝贵的AIGC用例,但很快就开启了一场白热化竞争,这对其后续收入的持续增长是很大的威胁。

wKgaomVrS_SASVnYAAFdWOknBtY278.jpg

其次,C端付费刚性,B端行业壁垒深,收入增长曲线会放缓。

目前,HeyGen收入主要靠C端客户付费。免费版本只支持一个免费的credits字幕,显然仅供玩票,而最低的创作者(Creator)付费档也要24美元/月,对于个人博主来说虽然不算太贵,但随着一大堆同质化产品的价格“内卷”,未来也会面临性价比不高的窘况。

wKgZomVrS_SAFAJEAABKwd5w2eg775.jpg

而商业用户(business)虽然付费能力强、价格接受度高,但对跨语言视频翻译的技术含金量则要求更为复杂。将HeyGen商业版本的客户,大多是制作电商营销广告、语言学习数字人、多语种新闻播报、译制片等,对翻译质量就会提出更为细粒度的要求,比如文本翻译的长度,要尽量和目标语言接近,来保持说话口型的一致性。还有,不同人说话的韵律不一样,停顿的位置、重音的位置都要对齐,才能高度还原个人风格。

再比如,老人、小孩说同一个文本时,因为角色人设的不同,遣词造句也应该不一样,翻译后的文本、语音都需要跟人设相对齐。

还有很多文化细节,是跨语种翻译中要进行强把控的,很多还是要人工译者去完成。毕竟商用场景不同于娱乐场景,跨语言容易产生歧义,一旦出现1%的错误,都可能让做对的99%工作打了水漂,面临丢单甚至海外市场合规风险。

所以说,商业用户需要复杂、高质量、高控制的产品。这就需要厂商在数据方面,尤其是小语种等少样本数据,有独家的、高质量的数据积累。模型训练,强行业知识等,都要长期积累和迭代,达到专业译者的水平。

目前,已经有AI公司针对精品化视频译制的需求,推出了ToB的产品解决方案,训练跨语种 Voice Conversion模型,采集配音演员的口型,由人工控制,再经由VC模型生成配音结果,比TTS模型的表现力更强,细节保留更多。

目前国内的AI巨头都很重视B端市场,资源充足,并且在机器翻译TTS、多模态AI技术方面的积累深厚,都可能是HeyGen商业用户的争夺者。

大模型的产品创新风口,才刚刚开始,要保持商业化的优势身位,如逆水行舟,“当红顶流”也不能掉以轻心。

爆款应用“速生速朽”,大模型的商业迷思

2022年11月30日,ChatGPT问世,在一周年刚刚过去之际,这场大语言模型的热潮,将所有人都席卷其中。或许还有人无知无觉,但也注定无法置身事外。

一年以来,时常有妙鸭相机、HeyGen这样的爆款应用,在社交媒体刷屏。这证明了几件事:

1.大模型是条件,而不是结果。运用好这些新工具,创造新产品的人,会获得新时代里无限多的机会。

2.基建是问题,但也不是问题。提到大模型,业界总会担忧算力卡被限制,国产大模型能力有差距,但悲观者正确,乐观者前行。实际上,无论算力基建、开发工具、基座模型,在今天都不是,也不该是应用开发者的阻碍。

业内有人说过,国产卡只要达到N卡60%的性能,用户就会买单。而一些开发者告诉我,密集使用了文心一言、讯飞星火等国产大模型,基础逻辑推理确实能叫板GPT 3.5-turbo,非基础能力比如func call、稳定性等也可圈可点。而妙鸭、HeyGen也都是中国企业所开发的,行动比洞见更重要。

3.产品化,是大模型商业化的必要条件。做了那么多通用大模型和行业大模型,如果没有大量产品化的成果,是无法转化为使用价值和经济效益的。“改变世界”的不是大模型,而是各种各样的产品,无数个HeyGen,帮助开发者完成从原型设计到产品化的转换,降低试错成本,将是接下来大模型厂商最重要的动作。

4.建立商业壁垒的,是刚需场景+强业务知识/数据+软件工程。HeyGen的商业化挑战,说明大模型不是壁垒,产品也不是壁垒,这些都是很容易被复制的。而行业知识/数据,大规模软件工程的流程控制、降本增效,可以针对特定场景的需求深入挖掘、快速开发、快速迭代优化,才符合AI技术特性,才是商业化的保障。

几位行业大模型应用的开发者,不约而同地跟我说过一件事:先找到场景,再优化产品和服务。也就是先想好商业变现的路线,确定自己的壁垒达到了,再去扎扎实实做产品,心里才能不慌。

比如一个ToC的民宿大模型,解决的是旅客入住民宿时,管家介入太深显得没有边界感,过度打扰;管家介入太浅,又缺乏服务价值感,无法及时解决问题。基于大模型的语音交互助手,就在旅客和管家之间,起到了很好的缓冲桥梁作用,让服务恰到好处。而旅客在当地的餐饮、游玩、购物等活动,也都是围绕“住”展开的,通过民宿大模型提供优质可靠的推荐服务,也带来了商业转换的潜力。

一个ToB的金融大模型应用开发者也表示,企业机构内部的多样化需求,是不可能由一个通用的、标准化的软件产品来承载的,所以ToB大模型创业,既要做业务分析咨询,又要做软件开发写代码,才能真正服务好客户。AI软件开发的流程化、自动化,对于控制成本非常重要,不能每个项目都靠一群博士“手搓”代码。

对商业和场景的深刻洞察,对行业和客户的理解,比掌握算法、掌握技术都要难得多,也是开发者最应该重视的核心能力。

最后我想说,虽然大模型已经非常火了,但别急着担心“泡沫”、害怕“追高”,这才是开始。

国际咨询机构的调查报告显示,65%的受访者目前有时或很少使用生成式人工智能,而约占90%的受访者认为,AI应该被“经常或总是”使用。

也就是说,大众对机器学习和生成式 AI (gen AI)的接受度很高,而实际渗透率并不高。妙鸭、HeyGen等现象级Gen AI产品,无疑迈出了一大步,而只有它们,是远远不够的。

爆款AIGC应用,只是AI和大模型价值潜力的一小部分。目前还没有一种商业模式长期跑通,恰恰说明技术的新大陆上,留给登陆者、建设者们的发挥空间还很大。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30095

    浏览量

    268352
  • AIGC
    +关注

    关注

    1

    文章

    356

    浏览量

    1504
  • 大模型
    +关注

    关注

    2

    文章

    2320

    浏览量

    2460
  • 生成式AI
    +关注

    关注

    0

    文章

    487

    浏览量

    458
收藏 人收藏

    评论

    相关推荐

    免费时代到来!价格战带领AI大模型走出商业化困局?

    试用。   大模型进入免费时代   5月21日,阿里云宣布通义千问4商业化模型和5开源模型大降价,其中GPT-4级别的主力模型Qwen-Long价格直降97%,从此前API输入0.02元/千
    的头像 发表于 05-23 09:09 2613次阅读
    免费时代到来!价格战带领<b class='flag-5'>AI</b>大模型走出<b class='flag-5'>商业化</b>困局?

    手机行业AI竞赛步入新阶段:颠覆体验提升

    自去年以来,手机行业掀起了一场生成式人工智能(AIGC)的竞赛热潮,各大厂商纷纷加大AI技术的研发力度。然而,经过近一年的发展,AI手机已逐渐初期的盲目发力转向理性认识与合理利用生成
    的头像 发表于 10-23 11:36 281次阅读

    AI for Science:人工智能驱动科学创新》第4章-AI与生命科学读后感

    了传统学科界限,使得科学家们能够更加全面和深入的角度理解生命的奥秘。同时,AI技术的引入也催生了一种全新的科学研究范式,即数据驱动的研究范式,这种范式强调大量数据中提取有价值的信息,从而推动科学研究
    发表于 10-14 09:21

    AIGC产业联盟在京成立,共促AI内容创新应用

    在第二十七届北京·香港经济合作研讨会上,石景山区专题推介活动亮点纷呈,其中AIGC产业联盟的正式成立尤为引人注目。该联盟汇聚多方力量,旨在通过构建资源共享、技术交流与合作平台,为AI生成内容(AIGC)技术打造蓬勃发展的创新生态
    的头像 发表于 09-25 15:55 303次阅读

    萝卜快跑火的背后,美格智能如何助力无人车商业化

    无人车商业化进程已经迈入加速赛,美格智能将继续坚持研发投入,与产业伙伴共同构建面向智能汽车产业的新质生产力,助力无人车商业化加速发展!
    的头像 发表于 07-16 16:39 426次阅读

    萝卜快跑火的背后,美格智能如何助力无人车商业化

    无人车商业化进程已经迈入加速赛,美格智能将继续坚持研发投入,与产业伙伴共同构建面向智能汽车产业的新质生产力,助力无人车商业化加速发展!
    的头像 发表于 07-16 16:37 1250次阅读
    萝卜快跑<b class='flag-5'>爆</b>火的背后,美格智能如何助力无人车<b class='flag-5'>商业化</b>?

    谈谈创意设计中的AI、AGI、AIGC

    在当今的数字化时代,创意设计领域正经历着前所未有的变革。随着人工智能(AI)、通用人工智能(AGI)以及人工智能生成内容(AIGC)的迅猛发展,设计师们的工作方式和创作手段都发生了深刻的变化。本文
    的头像 发表于 07-01 18:20 659次阅读
    谈谈创意设计中的<b class='flag-5'>AI</b>、AGI、<b class='flag-5'>AIGC</b>

    聚焦AI技术引领,智象未来全面赋能图片及视频内容生产

    当前,AIGC浪潮不断席卷各行各业,随着其技术的不断释放,全新行业价值正在显现,AI技术也在从产业应用向社会应用转变,深刻影响着产品创新、内容创作及
    的头像 发表于 06-24 13:36 284次阅读
    聚焦<b class='flag-5'>AI</b>技术引领,智象未来全面赋能图片及视频内容生产

    大模型产品,不过是三支舞

    AI产品的答案,才是AI商业化的起点
    的头像 发表于 06-13 09:27 1888次阅读
    大模型产品<b class='flag-5'>化</b>,不过是三支舞

    开发者手机 AI - 目标识别 demo

    。 NNRt host 实现了NNRt HDI接口功能,通过对接底层AI芯片接口为上层应用提供NPU硬件推理的能力。 功能实现 JS相机数据流获取一张图片,调用Native的接口进行目标识别的处理
    发表于 04-11 16:14

    NanoEdge AI的技术原理、应用场景及优势

    等领域。以下是一些具体的应用场景: 1 . 智能家居:通过将 NanoEdge AI 集成智能家居设备中,可以实现对家庭环境的实时监控和智能控制,如温度调节、照明控制、安防监控等。 2.工业自动
    发表于 03-12 08:09

    努比亚Flip 5G折叠屏手机证件照首曝,即将国内发售

    近日,匿名科技公司于MWC2024上发布的努比亚Flip 5G折叠屏手机已在工业和信息部网站上展示出其证件照片,预示着此款新品将在国内市场即将推出。
    的头像 发表于 02-29 14:22 788次阅读

    微软携手法国AI初创企业Mistral推动AI模型商业化

    微软近日与法国人工智能初创企业Mistral达成合作协议,旨在推动AI模型的商业化应用。据悉,微软将提供全方位支持,帮助这家成立仅10个月的公司将其先进的AI模型推向市场。同时,微软还将持有Mistral的少量股份,但具体的财务
    的头像 发表于 02-28 10:23 493次阅读

    基于AI大模型,千方科技做了哪些尝试呢?

    AI大模型逐步走入冷静期,思考大模型如何助力解决实际问题、实现商业化落地成为新趋势。
    的头像 发表于 01-12 09:18 613次阅读

    云知声全新推出AIGC内容创作平台蓝藻AI

    近日,云知声基于智能语音技术和山海大模型技术,全新推出AIGC内容创作平台——蓝藻AI,为创作者提供AI声音克隆、AI文字配音、AI文案创作
    的头像 发表于 01-10 13:38 767次阅读