在ITF World 2023半导体大会上,黄仁勋表示,人工智能的下一个浪潮将是具身智能(embodied AI),即能理解、推理、并与物理世界互动的智能系统。
同时,他也介绍了英伟达的多模态具身智能系统Nvidia VIMA,其能在视觉文本提示的指导下,执行复杂任务、获取概念、理解边界、甚至模拟物理学,这也标志着AI能力的一大显著进步。
而在今年3月,谷歌联合柏林工业大学团队发布PaLM-E,这是一种多模态具身视觉语言模型,也是史上最大的“通才”AI模型,其不仅可以理解图像,还能理解、生成语言,可执行各种复杂的机器人指令而无需重新训练,且表现出很好的迁移能力。
具身智能是智能科学的一个基础问题,也是一个大难题。而AIGC为具身智能的实现提供了新思路。
1950 年,图灵在他的论文——《Computing Machinery and Intelligence》中首次提出了具身智能的概念。在之后的几十年里,囿于技术问题,具身智能并没有取得很大的进展。
正如斯坦福大学计算机科学教授李飞飞所说,“具身的含义不是身体本身,而是与环境交互以及在环境中做事的整体需求和功能。”
与人、与环境的交互,是具身智能机器人形成对于客观世界的理解和改造能力的第一步,这方面,最直接的障碍在于,人们严重依赖手写代码来控制机器人,人类与人工智能面前,“巴别塔”高筑。
而进入AIGC时代,GPT等AI大模型提供了新的解决方案,已有不少研究者尝试将多模态的大语言模型作为人类与机器人沟通的桥梁。即通过将图像、文字、具身数据联合训练,并引入多模态输入,增强模型对现实中对象的理解,帮助机器人处理具身推理任务。
具身智能是什么?
具身智能简单来说就是AI的大脑加上躯体。它能够跟我们生活的环境进行交互,从而展现出智能行为。
而具身智能为什么被看作AI的iPhone时刻?
原来的人工智能可以看作第三人称的智能,也就是投喂数据给机器,让它学习什么它就学习什么。而现在具身智创造了一种机器自主学习的新方式,能够以第一人称的视角来感知和学习物理世界,并像人类一样理解和感知事物的能力,才能在此基础上进行相同思维的发展,最后表现出人类期待的行为方式。
Windows为何能统治操作系统,iPhone为何创造智能手机时代,最重要的原因就是他们创造了最简单、最直观的人机交互窗口。
发展人工智能的意义在于能够让机器造福人类,协助处理事务,提高生产力;更进一步则是让AI进行创造,推动科学研究的进展。而这一切的前提是:要让机器理解人类社会,要做到这一点,需要的就是具身智能。
具身智能的硬实力包括:机器视觉和多模态大模型。
具身智能是指通过身体和环境的相互作用来实现智能行为的能力。传统上,智能主要关注于基于符号和算法的符号推理和计算,而具身智能强调了身体感知、运动和与环境互动的重要性。
具身智能认为智能不仅仅是大脑内部的思考和计算过程,还涉及到与外部环境的交互。通过感知环境、运动控制和与环境的实时交互,智能体能够适应和应对复杂的情境和任务。
具身智能在机器人学、人工智能和认知科学等领域得到广泛应用。通过赋予机器人身体感知和运动能力,使其能够更好地理解环境、与环境进行交互,并通过实际操作来学习和解决问题。具身智能的研究旨在使机器具备更接近人类的智能表现,能够更自然、灵活地适应各种环境和任务要求。
具身智能和人工智能有什么区别
具身智能和人工智能是两个相关但不完全相同的概念。
人工智能是指通过计算机系统模拟和实现人类智能的能力。它涵盖了各种技术和方法,包括符号推理、机器学习、深度学习等,旨在让计算机能够感知、理解、学习和决策,以完成各种任务。
具身智能强调了智能与身体和环境的互动关系。它认为智能不仅仅局限于思考和计算的过程,还涉及到通过身体感知、运动和与环境互动来实现智能行为的能力。具身智能关注于将智能与实际物理世界结合起来,使机器能够通过感知和运动与环境进行实时交互,从而更好地适应和解决复杂任务。
总的来说,人工智能更侧重于模拟和实现人类智能的各种算法和技术,而具身智能则更关注于将智能与身体、感知和环境互动结合起来,以实现更真实、自然和灵活的智能表现。具身智能可以看作是人工智能的一种延伸,通过引入身体感知和运动能力,使智能系统更接近人类的交互方式和行为方式。
机器视觉是AI的感知工具,亦为数据生产的手段。在人类的五大感官中视觉获取的信息占比超过 80%。
机器视觉的端口是摄像头,作为看懂世界的“眼睛”;机器视觉的大脑是算法,承担分析功能。
什么是AICG
AIGC(Artificial Intelligence in Games and Computation)是人工智能技术在游戏和计算领域的应用。随着人工智能技术的不断发展,AIGC已成为一个重要的学科,它的发展将有助于提高游戏和计算系统的效率和智能性。本文将介绍AIGC的基本概念、技术实现、优势与不足、潜在问题以及未来发展方向,并结合一些比较热门的AIGC相关模型、产品或者应用,深入探讨AIGC技术的应用价值。
一、AIGC的基本概念
AIGC是指利用人工智能技术来开发更具智能性的游戏和计算系统的学科。AIGC的工作原理是利用人工智能技术,如机器学习、计算机视觉、自然语言处理等,来开发具有智能性的游戏和计算系统。AIGC的应用领域包括游戏开发、数据分析、计算机图形学、自动控制等。通过使用AIGC技术,我们可以开发出具有自主学习能力的游戏和计算系统,使它们能够根据环境的变化自动调整策略,从而提高效率。
近年来,随着AIGC技术的不断发展,一些热门的AIGC相关模型、产品或者应用也逐渐崭露头角。例如:
AlphaGo:由DeepMind公司开发的围棋人工智能程序,使用了深度学习和强化学习等AIGC技术,在2016年击败了人类顶尖的围棋选手李世石,引起全球关注。此后,AlphaGo又以不同的版本继续刷新人工智能的历史。在2017年,AlphaGo Zero和AlphaGo Master分别以100:0和60:0的比分战胜了之前的AlphaGo版本,并在同年与世界第一的围棋选手柯洁进行了三局对决,结果是AlphaGo Master以3:0完胜柯洁。在2018年,DeepMind公司推出了更先进的AlphaZero程序,它不仅可以玩围棋,还可以玩国际象棋和西洋跳棋,并在自我对弈中超越了所有人类或机器所创造的棋类程序。
OpenAI Five:由OpenAI公司开发的Dota 2人工智能团队,使用了深度学习、强化学习等AIGC技术,2019年成功地战胜了世界顶尖的Dota 2战队OG,展示了AIGC技术在实际应用中的强大能力。此后,OpenAI Five又以OpenAI Dota 2 as a Service (DAAS) 的形式向公众开放,让任何人都可以和它对战或者观看它的比赛。同时,OpenAI公司也在不断推出更多基于自然语言生成技术NLG的AIGC产品,例如OpenAI Codex和OpenAI DALL-E。OpenAI Codex是一个可以根据自然语言描述生成代码的程序,它可以帮助开发者快速编写各种应用。OpenAI DALL-E是一个可以根据自然语言描述生成图像的程序,它可以创造出各种有趣和惊奇的图像。
Unity Machine Learning Agents:由Unity Technologies公司推出的人工智能工具包,用于开发具有智能性的游戏和虚拟环境。该工具包使用了深度学习、强化学习等AIGC技术,使游戏和虚拟环境具有自主学习和决策能力。(这个例子可以替换为更新更广泛的AIGC相关产品或应用,例如ChatGPT、Stable Diffusion、Synthesia等。)
除了Unity Machine Learning Agents,还有许多其他的AIGC相关产品或应用,它们都展示了生成式技术在不同领域的创造力和潜力。
ChatGPT:由OpenAI公司开发的基于自然语言生成技术NLG的人工智能聊天平台,它可以根据用户的输入和上下文生成流畅、有趣和合理的对话。ChatGPT不仅可以用于娱乐、教育和社交目的,还可以用于协作创作,例如生成Stable Diffusion等图像生成平台所需的描述词12。
Stable Diffusion:由Midjourney公司开发的基于深度学习和强化学习等AIGC技术的图像生成平台,它可以根据用户提供的文字提示和风格类型,以及用户对中间结果的反馈,生成独特、高质量和逼真的图像。Stable Diffusion不仅可以用于艺术创作34,还可以用于游戏开发、广告设计等领域。
Synthesia:由Synthesia公司开发的基于深度学习和强化学习等AIGC技术的视频合成平台,它可以根据用户提供的文字或音频输入,以及用户选择或上传的人物形象,生成逼真、同步和定制化的视频。Synthesia不仅可以用于娱乐、教育和社交目的5,还可以用于商业演示、培训视频等领域。 这些AIGC产品或应用都是利用了生成式技术来实现内容创造,并且都具有高度互动性和可定制性。它们为用户提供了更多选择、更多灵感和更多可能性。
这些AIGC模型、产品或者应用不仅引领了AIGC技术的发展方向,也展示了AIGC技术在游戏、计算和内容生成领域的广泛应用前景。
二、AIGC的技术实现
AIGC技术的实现涉及多个方面,包括机器学习、计算机视觉、自然语言处理、优化算法等。下面将对其中几个主要技术进行简要介绍。
机器学习
机器学习是AIGC技术的核心之一。它是一种通过数据训练模型来实现自主学习和智能决策的方法。在AIGC中,机器学习可以被用于创建智能代理,例如游戏角色、机器人等,使它们能够根据不同的游戏状态和用户输入自动地进行决策和行动。机器学习的主要方法包括监督学习、无监督学习、半监督学习和强化学习。
计算机视觉
计算机视觉是另一个重要的AIGC技术。它可以使计算机理解和解释视觉信息,例如图像和视频。在AIGC中,计算机视觉可以被用于游戏中的自适应图形、虚拟现实和增强现实等方面,以及对玩家的行为进行跟踪和分析。计算机视觉的主要方法包括特征提取、图像分类、目标检测和语义分割。
自然语言处理
自然语言处理是另一个重要的AIGC技术。它使计算机能够理解和生成自然语言。在AIGC中,自然语言处理可以被用于游戏中的对话系统、自动生成任务和剧情等方面,以及对玩家输入的语言进行分析和处理。自然语言处理的主要方法包括语音识别、文本分类、情感分析和文本生成。
优化算法
优化算法是AIGC技术中的重要组成部分。它可以使计算机自动优化策略和行动,从而提高游戏和计算系统的效率和性能。在AIGC中,优化算法可以被用于解决强化学习中的探索与利用、高维状态空间等问题,以及在数据分析和决策中进行优化和搜索。优化算法的主要方法包括遗传算法、粒子群算法、蚁群算法和模拟退火算法。
除了上述主要技术之外,AIGC技术还涉及多个其他技术和工具,例如神经网络、深度学习、强化学习等。这些技术和工具相互配合,构成了AIGC技术的核心框,使得游。
三、AIGC的优势与不足
AIGC技术的优势不仅在于提高游戏和计算系统的效率和智能性,而且还能够为用户提供更好的游戏体验和服务。AIGC技术能够为游戏和计算系统带来更好的互动性和可用性,让用户可以享受到更加个性化和智能化的游戏和计算服务。此外,AIGC技术还具有自主学习和自我优化的能力,使得游戏和计算系统能够不断提高其智能性和效率,提供更好的用户体验。
当然,AIGC技术也存在一些不足之处。一方面,技术问题是一个比较突出的问题,如精度不高、效率不高等。虽然AIGC技术在算法和模型的研发方面取得了很大进展,但是在实际应用过程中,还存在一些技术问题和难题需要解决。另一方面,AIGC技术的实现难度也比较高,需要具备相关的技术知识和专业能力。同时,AIGC技术在应用过程中也存在一些安全问题,如数据泄露、恶意攻击等,需要得到重视和解决。
因此,为了发挥AIGC技术的优势和避免其不足之处,我们需要不断加强技术创新和应用实践,提高AIGC技术的精度和效率,降低AIGC技术的实现难度,同时也加强AIGC技术的安全性和可靠性。这需要技术人员、学者、政策制定者和产业界共同合作,制定出相应的技术政策和法规,推进AIGC技术的健康发展,为我们提供更加智能、高效、安全的游戏和计算系统。
四、AIGC的潜在问题
除了技术问题和安全问题外,AIGC技术的普及也可能对社会产生一些潜在影响,如劳动力市场的变化、社会秩序的变化等。
首先,AIGC技术的普及可能导致一些岗位的消失,特别是那些需要重复性工作的岗位。例如,自动化的制造流程可能导致工厂工人的数量减少。虽然AIGC技术的发展也将创造新的就业机会,如AIGC软件开发人员等,但是需要关注的是是否会出现技能不匹配的问题。
其次,AIGC技术的广泛应用也可能导致社会秩序的变化。例如,使用AIGC技术的自动化决策系统可能会对人类的生活方式产生影响,使人们更加依赖机器决策而非个人判断。此外,AIGC技术可能还会影响人类的社交互动模式,例如自动回复系统可能会取代人类的互动。
最后,AIGC技术如果滥用,也可能对人类造成潜在威胁,如信息操纵、数据泄露等。例如,虚假信息可能会被AIGC技术扩散得更快,从而引起社会恐慌。此外,AIGC技术也可能被黑客利用来攻击其他系统,从而造成安全风险。
这些问题需要得到重视,我们需要制定相应的技术政策和法规,以确保AIGC技术的健康发展,同时避免对人类造成不必要的负面影响。
什么是AIGC?AIGC是指通过人工智能来生成内容的方式。
从互联网过往发展的历史来看,创作门槛的降低,释放了内容创造力。我们此前经历的互联网时代被称作Web1.0和Web2.0。在Web1.时代内容的生产方式主要是由专家、专业人士生成(PGC),信息单向传递,内容生成数量少;随着人们对内容需求的不断增加,我们逐渐来到了Web2.0时代,内容主要由用户生成(UGC),比如我们在使用的抖音、快手、B、微博、小红书、等兴起等都有大量的内容是用户自己创作的。
随着时代继续发展,用户对内容消费的需求继续增长,UGC、PGC这样的内容生成方式也将难以满足需求增速,我们将迈入Web3.0时代,由人工智能生成内容(AIGC)。AIGC(人工智能生成内容)将是新的元宇内容生成解决方案,是元宇宙的新方向。
1)AIGC+传媒:写稿机器人、采访助手、视频字幕生成、语音播报、视频锦集、人工智能合成主播
2)AIGC+电商:商品3D模型、虚拟主播、虚拟货场
3)AIGC+影视:AI剧本创作、AI合成人脸和声音、AI创作角色和场景、AI自动生成影视预告片
4)AIGC+娱乐:AI换脸应用(如FaceAPP、ZAO)、AI作曲(如初音未来虚拟歌姬)、AI合成音视频动画
5)AIGC+教育:AI合成虚拟教师、AI根据课本制作历史人物形象、AI将2D课本转换为3D
6)AIGC+金融:通过AIGC实现金融资讯、产品介绍视频内容的自动化生产,通过AIGC塑造虚拟数字人客服
7)AIGC+医疗;AIGC为失声者合成语言音频、为残疾人合成肢体投影、为心理疾病患者合成医护陪伴
8)AIGC+工业:通过AIGC完成工程设计中重复的低层次任务,通过AIGC生成衍生设计,为工程师提供灵感
AIGC构建发展“加速度”
AIGC是利用人工智能技术来生成内容。2021年之前,AIGC生成的主要还是文字,而新一代模型可以处理的格式内容包括:文字、语音、代码、图像、视频、机器人动作等等。AIGC被认为是继专业生产内容(PGC,professional-generated content)、用户生产内容(UGC,User-generated content)之后的新型内容创作方式,可以在创意、表现力、迭代、传播、个性化等方面,充分发挥技术优势。2022年AIGC发展速度惊人,年初还处于技艺生疏阶段,几个月之后就达到专业级别,足以以假乱真。这让花费毕生所学进行创作的从业人员倍感焦虑和紧张。同时,AIGC的迭代速度呈现指数级爆发,这其中深度学习模型不断完善、开源模式的推动、大模型探索商业化的可能,成为AIGC发展的“加速度”。
(一)深度学习模型是AIGC加速普及的基础
视觉信息一直在网络中有较强的传播力且容易被大众感知,具有跨平台、跨领域、跨人群的优势,天然容易被人记忆和理解。同时视觉信息应用场景广泛,因此生成高质量的图像成为当前AI领域的一个现象级功能。
2021年,OpenAI团队将跨模态深度学习模型CLIP(Contrastive Language-Image Pre-Training,以下简称“CLIP”)进行开源。CLIP模型能够将文字和图像进行关联,比如将文字“狗”和狗的图像进行关联,并且关联的特征非常丰富。因此,CLIP模型具备两个优势:一方面同时进行自然语言理解和计算机视觉分析,实现图像和文本匹配。另一方面为了有足够多标记好的“文本-图像”进行训练,CLIP模型广泛利用互联网上的图片,这些图片一般都带有各种文本描述,成为CLIP天然的训练样本。据统计,CLIP模型搜集了网络上超过40亿个“文本-图像”训练数据,这为后续AIGC尤其是输入文本生成图像/视频应用的落地奠定了基础。
“对抗生成网络”GAN(Generative Adverserial Network, 以下简称“GAN”)虽然也是很多AIGC的基础框架,但是GAN有三个不足:一是对输出结果的控制力较弱,容易产生随机图像;二是生成的图像分别率较低;三是由于GAN需要用判别器来判断生产的图像是否与其他图像属于同一类别,这就导致生成的图像是对现有作品的模仿,而非创新。因此依托GAN模型难以创作出新图像,也不能通过文字提示生成新图像。
随后出现的Diffusion扩散化模型,则真正让文本生成图像的AIGC应用为大众所熟知,也是2022年下半年Stable Diffusion应用的重要推手。Diffusion模型有两个特点:一方面,给图像增加高斯噪声,通过破坏训练数据来学习,然后找出如何逆转这种噪声过程以恢复原始图像。经过训练,该模型可以从随机输入中合成新的数据。另一方面,Stable Diffusion把模型的计算空间从像素空间经过数学变换,降维到一个可能性空间(Latent Space)的低维空间里,这一转化大幅降低了计算量和计算时间,使得模型训练效率大大提高。这算法模式的创新直接推动了AIGC技术的突破性进展。
总的来看,AIGC在2022年实现破圈,主要是在深度学习模型方面有了长足进步:首先CLIP模型基于海量互联网图片进行训练,推动AI绘画模型进行组合创新;其次Diffusion扩散化模型实现算法创新;最后使用潜空间降维的方法来降低Diffusion模型在内存和时间消耗较大的问题。因此,AIGC绘画之所以能够帮助大众画出各种天马行空的画作,背后离不开大量深度学习模型的不断完善。
(二) “开源模式”成为AIGC发展催化剂
在算法模型方面,AIGC的发展离不开开源模式的推动。以深度学习模型CLIP为例,开源模式加速CLIP模型的广泛应用,使之成为当前最为先进的图像分类人工智能,并让更多机器学习从业人员将CLIP模型嫁接到其他AI应用。同时,当前AIGC绘画最热门的应用Stable Diffusion已经正式开源(包括模型权重和代码),这意味着任何用户都可以以此建立针对特定文本到图像的创作任务应。Stable Diffusion的开源直接引发2022年下半年AIGC引发广泛关注,短短几个月时间内出现大量二次开发,从模型优化到应用拓展,大幅降低用户使用AIGC进行创作的门槛,提升创作效率,并长期长期霸占GitHub热榜第一名。
在训练数据集方面,机器学习离不开大量数据学习,LAION作为全球非盈利机器学习研究机构,在2022年3月开放了当前规模最大的开源跨模态数据库LAION-5B,使得近60亿个“文本-图像”对可以用来训练,从而进一步加快AI图像生成模型的成熟,帮助研究人员加快推动从文字到图像的生成模型。正是CLIP和LAION的开源模式构建起当前AI图像生成应用的核心。未来,随着模型稳定,开源将成为AIGC成熟的催化剂,源模式有望让相关模型成为海量应用、网络和服务的基础,应用层面的创造力有望迎来拐点。
AIGC为创作领域带来的效率与模式的创新
(一) AIGC工具属性有助于效率提升
在捕捉灵感方面,AIGC可以帮助有经验的创作者捕捉灵感,创新互动形式。例如在游戏行业,制作人灵感往往难以准确表达,与美术工作人员经常由于沟通产生理解误差。通过AIGC系统可以在设计初期,生成大量草图,在此基础上制作人与美术人员可以更好的理解并确认彼此的需求。同时,创作灵感难以琢磨,可以提前通过AIGC来寻找“感觉”,进一步降低美术创作者大量前期工作和项目成本。例如,制作人先构建完整的背景故事后,由AIGC生成系列画作,之后再由专业的美术人员进行筛选、处理、整合,并将整个故事和画面进一步完善提升。
在提升效率方面,AIGC的出现将会让创作者拥有一个更加高效的智能创作工具,在内容创作环节进行优化,而非成为竞争对手。例如在极短的项目筹备时间内,AIGC可以大幅提升效率,验证了AI投入到工业化使用的可行性。尤其是对于艺术、影视、广告、游戏、编程等创意行业的从业者来说,可以辅助从业者进行日常工作,并有望创造出更多惊艳的作品。同时,还可以进一步降低成本和效率,为规模化生产构建市场增量。
(二) AIGC构建创意与实现的分离
在创意构思方面,AIGC构建了新的创意完善通路,传统的创作过程中消化、理解以及重复性工作将有望交由AIGC来完成,最终创意过程将变为“创意-AI-创意”的模式。
在创意实现方面,创作者和AIGC的关系类似于摄影师和照相机。摄影师构建拍摄思路并进行规划,对相机进行参数配置,但是不用了解相机的工作机制,一键生成高质量的内容。同样的,创作者构思并进行规划,对AI模型进行参数配置,不需要了解模型的原理,直接点击输出内容即可。创意和实现呈现出分离状态,实现过程变为一种可重复劳动,可以由AIGC来完成,并逐步将成本推向趋近于0。
(三) AIGC给创作者获得更多收益带来思路创新
创作者的成果是AIGC学习的对象,但创作者的创意才是关键,创意本身比AIGC生成的绘画更有价值,因此如何将创作者的“创意”进行量化,甚至定价,将有助于打造AIGC的商业模式。这其中“注意力机制”将成为AIGC潜在的量化载体。例如国内有机构专家提出,可以通过计算输入文本中关键词影响的绘画面积和强度,我们就可以量化各个关键词的贡献度。之后根据一次生成费用与艺术家贡献比例,就可以得到创作者生成的价值。最后在与平台按比例分成,就是创作者理论上因贡献创意产生的收益。
例如某AIGC平台一周内生成数十万张作品,涉及这位创作者关键词的作品有30000张,平均每张贡献度为0.3,每张AIGC绘画成本为0.5元,平台分成30%,那么这位创作者本周在该平台的收益为:30000*0.3*0.5*(1-30%)=3150元的收益,未来参与建立AI数据集将有望成为艺术家的新增收益。
(四) 从“大模型”到“大应用”,探索可行商业模式
基于深度学习算法数据越多,模型鲁棒性越强的特点,当前的大模型规模只增不减,比拼规模已经成为标配。例如,Open AI推出的GPT-3参数已经超过1750亿个。但“数据投喂”并非一种技术路径上的创新,更多的是在工程领域的微调。需要指出的是,模型规模越大,其实越难以在现实场景中落地部署。同时“海量数据”并不等同于“海量高质量数据”,有可能会导致反向效果产生。
AIGC的发展离不开预训练大模型的不断精进。大模型虽然在很多领域都表现出良好的使用效果,但是这些效果作为展示甚至噱头之后,很难形成良性的商业价值,与大模型的训练成本、基础设施投入更是相差甚远。如何推动“大模型”向“大应用”来转变,正在成为关键的考验。AIGC的破圈以及引发的关注,可以看到大模型商业化的潜力正在清晰化:一方面大模型企业可以根据C端用户实际“按需提供服务”和商业转化;另一方面带动对云计算、云存储的使用量上升。将AIGC从“尝鲜试试看”变成大众频繁使用的需求,再到与具体行业和领域深度结合,依托我国丰富的产业需求和应用场景,有望为大模型商业化和长期价值探索一条新路径。
AIGC发展面临的挑战
Gartner预计,到2025年,生成式人工智能将占所有生成数据的10%。根据《Generative AI :A Creative New World》的分析,AIGC有潜力产生数万亿美元的经济价值。AIGC在引发全球关注的同时,知识产权、技术伦理将面临诸多挑战和风险。同时AIGC距离通用人工智能还有较大的差距。
(一) AIGC引发“创造力”归属争论
传统印象中,人工智能在创造性工作领域与人类还无法进行竞争,主要擅长的是计算、挖掘,聚焦在海量数据分析领域。人类更擅长的是创新,例如诗词、设计、编程等需要创造性的事物上。与AI下棋相比,AI进行绘画创作给大众带来的冲击更为明显:棋类游戏具有明确的规则和定义,不需要AI具备创造性,但AIGC尤其是输入文字就能进行绘画、视频,让没有相关专业能力的人也可以制作出以假乱真的专业级别作品,则引发人们对自身引以为傲的“创造力”担忧。AI不会替代创作者,但是可能会替代不会AI工具的创作者。
(二) 知识产权引发创作者担忧
由于算法模型的进一步完善和成本快速下降,AIGC大规模商业化成为现实,过去遥不可及的专业能力已经具备从实验室飞入寻常百姓家的可能。与此同时,AIGC的飞速发展和商业化应用,除了对创作者造成冲击外,也对大量依靠版权为主要营收的企业带来冲击。具体来看:
一方面,AIGC难以被称为“作者”。根据我国《著作权法》的规定,作者只能是自然人、法人或非法人组织,很显然AIGC不是被法律所认可的权利主体,因此不能成为著作权的主体。但AIGC应用对生成的图片版权问题持有不同观点,图片属于平台、完全开源还是生成者,目前尚未形成统一意见。
另一方面,AIGC产生的“作品”尚存争议。根据我国《著作权法》和《著作权法实施条例》的规定,作品是指文学、艺术和科学领域内具有独创性并能以某种有形形式复制的智力成果。AIGC的作品具有较强的随机性和算法主导性,能够准确证明AIGC作品侵权的可能性较低。同时,AIGC是否具有独创性目前难以一概而论,个案差异较大。
由于创作者每次新的创作都在无形中对AIGC进行免费培训,这让众多版权机构产生巨大担忧。目前已经有大量艺术家和创作者宣布禁止AI学习自己的作品,从而保护自身知识产权。Getty Images、Newgrounds等网站也纷纷宣布禁止上传和销售AIGC作品。
(三) 距离通用人工智能还有较大差距
当前热门的AIGC系统虽然能够快速生成图像,但是这些系统是否能够真正理解绘画的含义,从而能够根据这些含义进行推力并决策,仍是未知数。
一方面,AIGC系统对输入的文本和产生的图像不能完全关联起来。例如,用户对AIGC系统进行测试,输入“骑着马的宇航员”和“骑着宇航员的马”内容时,相关AIGC系统难以准确生成对应的图像。因此,当前的AIGC系统还并没有深刻理解输入文本和输出图像之间的关系。另一方面,AIGC系统难以了解生成图像背后的世界。了解图像背后的世界,是判断AIGC是否具备通用人工智能的关键。目前来看,AIGC系统还难以达到相关的要求。比如,在Stable Diffusion 输入“画一个人,并把拿东西的部分变成紫色”,在接下来的九次测试过程中,只有一次成功完成,但准确性还不高。显然,Stable Diffusion 并不理解人的双手是什么。
知名AI专家发出的调查也印证了同样的观点,有86.1%的人认为当前的AIGC系统对世界理解的并不多。持相同观点的人还包括Stable Diffusion的首席执行官。
(四) 创作伦理问题尚未有效解决
部分开源的AIGC项目,对生成的图像监管程度较低。一方面,部分数据集系统利用私人用户照片进行AI训练,侵权人像图片进行训练的现象屡禁不止。这些数据集正式AIGC等图片生成模型的训练集之一。例如,部分数据集在网络上抓取了大量病人就医照片进行训练,且没有做任何打码模糊处理,对用户隐私保护堪忧。另一方面,一些用户利用AIGC生成虚假名人照片等违禁图片,甚至会制作出暴力和性有关的画作,LAION-5B数据库包含色情、种族、恶意等内容,目前海外已经出现基于Stable Diffusion模型的色情图片生成网站。
由于AI本身还不具备价值判断能力,为此一些平台已经开始进行伦理方面的限制和干预。例如DALL·E2已经开始加强干预,减少性别偏见的产生、防止训练模型生成逼真的个人面孔等。但相关法律法规的空白和AIGC应用研发者本身的不重视将引发对AI创作伦理的担忧。
AIGC的未来发展
AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用。
AIGC技术是一个非常重要的人工智能技术,其核心技术包括机器学习、计算机视觉、自然语言处理等多个方面。AIGC技术的应用领域非常广泛,包括游戏开发、数据分析、计算机图形学、自动控制等多个领域。虽然AIGC技术具有很多优势,但也存在一些技术问题和潜在问题,需要得到重视和解决。
AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。我们需要制定相应的技术政策和法规,以确保AIGC技术的健康发展,为我们提供更加智能、高效、灵活的游戏和计算系统,同时也为人类社会的发展提供重要的技术支持。
未来AI领域将是“具身智能”的天下
具身智能翻译于英文embodied AI,字面意思就是具有身体的人工智能。简单点说,就是能理解、推理、并与物理世界互动的智能系统。而搭载具身智能技术的“智能体”则具备自主决策和行动能力的机器智能,它可以像人类一样感知和理解环境,通过自主学习和适应性行为来完成任务。
谷歌“史上最大‘通才’AI模型”能引起业内轰动——它无需预先处理的场景,因此也不用人类对相关数据进行预处理或注释。只需要一句简单的指令,便可实现更为自主的机器人控制。更重要的是,PaLM-E生成的行动计划还具有“弹性”,即可对周围环境变化作出相应反应。
实现通用人工智能是行业的一大愿景。但人工智能中集成了太多概念,其中一些概念难以被测量或验证。而正如上海交通大学教授卢策吾所说的那样,虽然人工智能能给你输出一个表征,但很难检验它们是否真的理解了这些概念。“所以我们可以先在一些可验证、可测量的概念上面做出个闭环。而具身智能刚好是这样一个闭环,这样的具身智能可能是迈向通用智能的一个很好的起点,因为它可测量、可解释、可检验。”
具身智能指的是智能体通过与环境产生交互后,通过自身的学习,产生对于客观世界的理解和改造能力。
换言之,一个具身智能机器人需要:首先听懂人类语言,之后分解任务、规划子任务,移动中识别物体,与环境交互,最终完成相应任务。
若想要实现具身智能,离不开多个学科的交叉互助:
1)机器人学为具身智能提供机械身体和基本运动控制;
2)深度学习中的神经网络是具身智能中主要工具;
3)强化学习是具身智能机器人的主要学习手段之一;
4)机器视觉给具身智能提供了处理视觉信号的能力;
5)计算机图形学开发的物理仿真环境为具身智能提供了真实物理世界的替代;
6)自然语言给具身智能带来了与人类交流、从自然文本中学习的可能;
7)认知科学进一步帮助具身智能体理解人类、构建认知和价值。
就目前的发展趋势来看,可以说,未来,人工智能领域将是“具身智能”的天下,就是要创建软硬件结合的智能体。它能够像“生命体”一样,既可通过与环境的互动学习不断进化,也可通过“遗传”把进化成果遗传给下一代,从而进化成越来越高级的智能体。
如今,随着一套新的虚拟世界的建立和运行,具身智能体已经开始发挥这种潜力,在他们的新环境中取得了重大进展。不过,从人工智能到具身智能,未来还要有很长的路要走。但是毫无疑问,这也是人类科技的必由之路,期待具身智能为人类带来新一轮的科技变革。
审核编辑 :李倩
-
机器人
+关注
关注
210文章
28148浏览量
206086 -
人工智能
+关注
关注
1791文章
46738浏览量
237317 -
AIGC
+关注
关注
1文章
353浏览量
1497
原文标题:技术与市场:为具身智能突破技术瓶颈:AIGC
文章出处:【微信号:AIOT大数据,微信公众号:AIOT大数据】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论