0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI版“双手互搏”有多牛?

电子工程师 2018-03-25 10:53 次阅读

日前,《麻省理工科技评论》刊文评出了2018年十大突破性技术,“对抗性神经网络”(GAN)赫然在列。下面就随网络通信小编一起来了解一下相关内容吧。

什么是对抗性神经网络?为什么它能入选MIT十大突破性技术?它的发展脉络如何?与我们此前耳熟能详的神经网络有什么区别?能够应用在人工智能的哪些场景?还有哪些关键问题有待攻克?

中国自动化学会混合智能专委会副主任、中国人工智能学会机器学习专委会常委、复旦大学博士生导师张军平教授在接受科技日报记者采访时做了深入浅出的解释。

故事中的GAN幻影

张军平告诉记者,虽然GAN是科技领域的“新贵”,但其实在很久以前的中外小说中就能看到这个想法的影子。

这个想法最早可以追溯到奥地利小说家斯蒂芬·茨威格写于1941年的小说《象棋的故事》。

在该小说中,主人公B博士被长期囚禁在纳粹集中营中。在想尽了各种摆脱空虚和孤独的办法却徒劳无功后,B博士意外得到了一本国际象棋棋谱。

他背完书里的上千棋谱后,用送来的面包做了副国际象棋,开始自己跟自己下棋,最终演变成一盘接一盘的相互疯狂挑战,这令他棋力大涨。出狱后,在一艘游艇上,他居然轻松地在首盘就击败当时的世界冠军。

在中文小说里也有类似的影子,它出现在金庸写于1957年的武侠小说《射雕英雄传》中。

王重阳的师弟周伯通被东邪“黄药师”困在桃花岛的地洞里。为了打发时间,周伯通就用左手与右手打架,自娱自乐。其武功决窍在于要先“左手画圆、右手画方”,分心二用,保证可以同时使出两种武功,从而使得武力倍增。

这两部小说主人公功力大增的关键都是“自己跟自己决斗,试图倾尽全力击败对方”,而结果都是练成后,去跟高手过招时能轻松秒杀对手。用一句俗话来解释,叫“双拳难敌四手”。

让机器学会“左右互搏”

GAN网络的原理本质上就是这两篇小说中主人公练功的人工智能或机器学习版本。

一个网络中有两个角色,修炼的过程中左手扮演攻方,即生成器(generator),试图生成和自然世界中拟完成任务足够相似的目标;右手扮演守方,即判别器(discriminator),试图把这个假的、生成的目标和真实目标区分开来。经过反复多次双手互搏,左手右手的功力都会倍增,从而达到“舍我其谁”的目标。

明白这个道理,就不难明白为什么GAN网络一出,就有独孤求败的感觉了。

正是因为GAN网络的机理是“双手互搏、一心两用”,所以,虽然最初的应用场景是针对图像相关任务,但其机理是普适性的。只要能用这个“诀窍”的地方,都能把自己的功力提升一个档次。不过,需要注意的是,GAN只把双手互搏用来训练自己“双手”的功力。在多数实际应用中,它只用了自己千锤百炼出来的生成器,就得到了非常好的结果。

于是,自2014年GAN网络被Ian J. Goodfellow等人提出,至今其演绎出的各种版本就像攻城掠地般在各个领域蔓延。

在今年的人工智能顶级会议IJCAI、机器学习顶级会议ICML和NIPS、深度学习著名会议ICLR上,光读参会论文的标题,就能发现大量GAN网络的工作痕迹。图像处理、计算机视觉、自然语言处理、语音识别、智能驾驶、安全监控……似乎GAN已经无所不能了。

张军平用几个比较火的人工智能应用场景举例——

在年龄估计中,GAN能通过攻守互搏,基于给定的人脸图像实现对其人衰老或年轻时的样貌生成。

在多视角人脸识别、跨视角步态识别领域,采用类似的机理,实现对人脸角度和步态角度的自动旋转,从而有效提高了多视角、跨视角人脸和步态识别的精度。

自动驾驶领域,需要对智能汽车进行复杂环境下的虚拟训练。此时,就可以利用GAN来实现与实际交通场景分布一致的图像生成。具体来说,可以先给GAN输入一张随机噪声图像,通过其生成器来最小化与真实场景接近的图像,同时判别器最大化生成场景与真实场景间的差异。经过反复迭代的攻守博弈,从而获得与真实环境一致的交通场景。

“不光在应用领域上有了突破,互搏的方式也有了不少变化。既然可以双手互搏,那当然可以三手甚至更多手的互搏,也可以组团逐对互搏、成串互搏,诸如此类。还可以把圆和方换成其他东西或者所谓的函数或结构来互搏。但万变不离其宗,内在的机理是不变的。”张军平补充道。

GAN有什么“软肋”

“毫无疑问,这种可倍增‘功力’的技术入选MIT年度十大突破性技术是当之无愧的。但值得注意的是,这一技术仍然有较大需要改善的空间。”作为《IEEE Intelligent System》(智能系统)和《IEEE Transactions on Intelligent Transportation Systems 》(智能交通系统)等著名期刊的编委,张军平对GAN的“软肋”了如指掌——

首先,对抗不好是容易出问题的。比如那位B博士。国棋象棋的世界冠军在觉察到他的强烈焦躁与急切情绪后,就有意识地放慢下棋速度。结果诱发了B博士的精神分裂,使得他再次陷入狂乱的自我对弈之中,最终才幡然醒悟而告别了棋局。对抗网也是如此,稳定性一直是其存在的问题之一。尽管理论上Wasserstein GAN (WGAN)可以部分解决其收敛性问题,但实际的效果还没有达到尽人意的地步。

其次,枪打出头鸟,既然这项技术这么牛了,过来挑战的也不少。据不完全报告,似乎已经有十五波“武林高手”对GAN网络的抗击打能力进行了挑战。极端情况,在图像中加一个像素就可能使GAN网络产生误判。

第三,GAN网络也是深度网络的一种,在可解释性这条路上,仍然没有找到非常明确的方向。

最后,双手互搏的基础还是手。而这一基础的结构并没有从近几十年来人工智能发展的框架中脱离出来。

因此,张军平提醒,期望以GAN之奇技,从弱人工智能冲击“能真正推理和解决问题,且有知觉、有自主意识的”的强人工智能还遥遥无期。

以上是关于网络通信中-AI版“双手互搏”有多牛?的相关介绍,如果想要了解更多相关信息,请多多关注eeworld,eeworld电子工程将给大家提供更全、更详细、更新的资讯信息。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30887

    浏览量

    269061
  • GaN
    GaN
    +关注

    关注

    19

    文章

    1935

    浏览量

    73401
收藏 人收藏

    评论

    相关推荐

    展现真实多元肤色,传音肤色影像技术

    近日,由传音控股旗下手机品牌TECNO发起的#ToneProud活动在全球范围内掀起热潮,参与者们为“打破审美偏见,捍卫真实肤色”发声。据悉,此次活动以 TECNO Universal Tone
    的头像 发表于 11-15 16:22 253次阅读

    美国IP服务器和美国服务器什么区别

    美国IP服务器和美国服务器什么区别 美国IP服务器和美国服务器在概念、功能以及应用场景上存在明显的区别。主机推荐小编为您整理发布
    的头像 发表于 11-11 10:22 199次阅读

    天玑9400生成式AI技术太了!打造最强AI体验

    联发科技再度突破技术前沿,推出全新天玑9400旗舰芯片,这是业界首款集成智能体AI的5G SoC。继天玑9300首次将生成式AI应用引入手机后,天玑芯片继续巩固其在端侧AI领域的领导地位。此次发布
    的头像 发表于 10-14 14:06 271次阅读
    天玑9400生成式<b class='flag-5'>AI</b>技术太<b class='flag-5'>牛</b>了!打造最强<b class='flag-5'>AI</b>体验

    Build 2024发布多项Azure AI Speech全新模态功能

    客户们持续使用 Azure OpenAI 和 Azure AI Speech 进行创新,为企业引入新的效率,并构建新的模态体验。
    的头像 发表于 05-28 09:08 572次阅读
    Build 2024发布多项Azure <b class='flag-5'>AI</b> Speech全新<b class='flag-5'>多</b>模态功能

    微电子:集3D视觉感知、AI及SLAM为一体的3D空间计算芯

    有限责任公司研发副总裁周凡在论坛上介绍了“集3D视觉感知、AI及SLAM为一体的3D空间计算芯片NU4500”。   合肥银微电子有限责任公司研发副总裁周凡   银微电子是一家专注3D空间计算及人工智能芯片及产品设计的高科技
    的头像 发表于 05-17 10:18 928次阅读
    银<b class='flag-5'>牛</b>微电子:集3D视觉感知、<b class='flag-5'>AI</b>及SLAM为一体的3D空间计算芯

    谷歌发布模态AI新品,加剧AI巨头竞争

    在全球AI竞技场上,谷歌与OpenAI一直稳居领先地位。近日,谷歌在I/O开发者大会上掀起了一股新的技术浪潮,发布了多款全新升级的模态AI产品。
    的头像 发表于 05-16 09:28 453次阅读

    虹软科技PhotoStudio AI入驻千、深拓电商市场

    据官方发布,虹软PhotoStudio® AI (简称PSAI)正式入驻阿里巴巴集团旗下的千商家工作台,为广大淘宝卖家、天猫商家提供更直接、便捷、高效的图像生成与处理解决方案。通过千工作台“图片
    的头像 发表于 05-10 09:09 577次阅读
    虹软科技PhotoStudio <b class='flag-5'>AI</b>入驻千<b class='flag-5'>牛</b>、深拓电商市场

    虹软PhotoStudio AI正式入驻阿里巴巴集团旗下的千商家工作台

    5月8日,虹软PhotoStudio® AI (简称PSAI)正式入驻阿里巴巴集团旗下的千商家工作台,为广大淘宝卖家、天猫商家提供更直接、便捷、高效的图像生成与处理解决方案。
    的头像 发表于 05-09 09:43 750次阅读

    李未可科技正式推出WAKE-AI模态AI大模型

    李未可科技模态 AI 大模型正式发布,积极推进 AI 在终端的场景应用   4月18日,2024中国生成式AI大会上李未可科技正式发布为眼镜等未来终端定向优化等自研WAKE-
    发表于 04-18 17:01 600次阅读
    李未可科技正式推出WAKE-<b class='flag-5'>AI</b><b class='flag-5'>多</b>模态<b class='flag-5'>AI</b>大模型

    什么是电平逆变电路?电平逆变电路几种形式,各特点是什么?

    什么是电平逆变电路?电平逆变电路哪三种形式,各特点是什么? 电平逆变电路是一种能够产生多种输出电平的电路,它将直流电源转换成交流电源。
    的头像 发表于 04-08 18:22 2826次阅读

    谷歌推出模态VLOGGER AI

    谷歌最新推出的VLOGGER AI技术引起了广泛关注,这项创新的模态模型能够让静态肖像图“活”起来并“说话”。用户只需提供一张人物肖像照片和一段音频内容,VLOGGER AI就能让图片中的人物仿佛真的在朗读这段音频,面部表情丰
    的头像 发表于 03-22 10:45 839次阅读

    微电子3D视觉感知方案赋能小米CyberDog系列仿生四足机器人

    2024年3月21日,合肥银微电子宣布小米CyberDog系列仿生四足机器人的AI模态融合感知决策系统正式采用银的双目立体视觉产品解决方案。
    的头像 发表于 03-21 13:55 833次阅读

    使用cube-AI分析模型时报错的原因哪些?

    使用cube-AI分析模型时报错,该模型是pytorch的cnn转化成onnx ``` Neural Network Tools for STM32AI v1.7.0 (STM.ai v8.0.0-19389) INTER
    发表于 03-14 07:09

    你知道激光钻孔技术吗?看完这篇文章你就明白了

    你知道激光钻孔技术吗?看完这篇文章你就明白了
    的头像 发表于 02-29 17:09 966次阅读

    MWC2024:高通推出全新AI Hub及前沿模态大模型

    2024年世界移动通信大会(MWC)上,高通再次展现其技术领导力,通过发布全新的高通AI Hub和展示前沿的模态大模型技术,推动了5G和AI技术的融合创新。
    的头像 发表于 02-26 16:59 1271次阅读