从风火轮到内容处理
微软AI能做哪些超乎想象的工作?
设计一款新玩具、总结一次会议、创作一则内容……这些以往必须由专业人员处理的工作内容现在可以完全交给AI系统,AI不止可以为设计者提供无穷的创意,可以将自然语言转化成最终作品,还可以根据每个不同的对象生成个性化图像和内容,极大提升生产力和创作力,现在就让我们一起来看看强大的微软AI为各行各业做出的那些令人惊叹的事情。
最近美泰玩具公司的设计师们被要求设计一款新的风火轮模型车时,他们从DALL∙E 2中寻找灵感。DALL∙E 2是一个由OpenAI开发的AI系统,可以根据简单的语言描述内容量身定做图像和艺术作品。
使用该工具时,设计师可以输入一条指示,如“一辆老爷车的缩尺模型”,然后DALL∙E 2会生成一个玩具古董车的图像,也许会是银色的车身加白壁轮胎。
下一步,设计者可以擦除车顶,然后输入“变成敞篷车”,DALL∙E 2会将汽车图像更新为敞篷车。设计师可以继续调整设计,要求DALL∙E 2把车涂成粉色或蓝色,打开敞篷等等。
在面向开发者和信息技术专业人士的Ignite大会上,微软宣布DALL∙E 21将加入全球Azure平台上的 OpenAI服务,先期受邀请的AzureAI客户可以使用文本或图像生成自定义图像。
微软表示,通过Azure OpenAI服务2提供的DALL∙E 2为美泰这样的客户提供了AI的云基础设施,有机结合了文本到图象生成技术的前沿创新和Azure云平台的合规性及负责任的AI护栏与认证。
美泰公司的设计师们能够生成几十张图片,每一次迭代都能激发和打磨创意,有助于设计出一个新的风火轮汽车模型的内容详实的最终效果图。
加利福尼亚州埃尔塞贡多市美泰未来实验室的产品设计总监卡丽·布斯表示:“人们会感叹‘噢,我怎么没有想到这个!’”。她把AI技术视为一种帮助设计师产生更多创意的工具。她提到:“追根究底,质量是最重要的,但有时积累数量可以得到质量。”
微软也正在将DALL∙E 2整合到其面向消费者的应用程序和服务中,从新宣布的微软Designer3应用程序开始,很快它将被并入到微软必应的Image Creator中。
在微软产品和服务中推出DALL∙E 2反映了该公司在AI研究方面的投资是如何将AI注入其创造、生产和发行的多个方面,以帮助每个人提高生产力和创新力。
在过去的一年半时间里,我们已经看到了这种技术已经渐渐应用到对最终用户有用的实际场景和流程中。
这一趋势是AI能力取得非线性突破的结果,而突破来自于将更多的计算带入到更多的数据来训练更丰富更强大的模型。
模型的力量已经跨过了质的门槛,现在它们在更多的应用中发挥作用。我们现在看到的另一个趋势是,所有的产品开发者都开始认真思考他们可以如何在其产品中使用AI,既是为了方便操作也是为了说“哦,如使用AI,我的产品能有更好表现。”
埃里克·博伊德
微软公司负责AI平台副总裁
DALL∙E 2的训练是在微软为OpenAI专门打造的一台托管在Azure的超级计算机进行的。同一台Azure超级计算机还被用来训练OpenAI的GPT-3自然语言模型和Codex,该模型为编程工具GitHub Copilot和微软Power Apps中使用Azure OpenAI的某些功能提供了支持4。Azure使这些AI工具能够迅速生成图像、文本或代码建议,供用户参考和借鉴。
DALL∙E 2的加入建立在微软和OpenAI持续合作5的基础上,并扩宽了Azure OpenAI服务内的使用案例的丰富能力。处于预览阶段的Azure OpenAI服务是Azure认知服务系列的最新产品,它提供了内置于微软Azure的安全性、可靠性、合规性、数据保密和其它企业级功能。
由微软开发并通过Azure认知服务6提供的其它AI技术,如语言翻译、语音转录、光学字符识别和文档摘要,也出现在微软Teams7、微软Power Platform8和微软3659等产品和服务中。
微软公司业务应用和平台副总裁查尔斯·拉曼纳说:“在过去的一年半时间里,我们已经看到了这种技术已经渐渐应用到对最终用户有用的实际场景和流程中。”“这是这些大型语言模型的产品化。”
收到老板的电子邮件时,
向我的手机发送一条短信。
拉曼纳说,这些AI功能旨在卸除繁琐的工作,使员工能够专注于有更高价值的任务,比如让销售人员与客户交谈时10无需做笔记。这些新工具还可以将目前占用人们工作日数小时时间的流程自动化,如撰写销售电话的总结并将总结添加到客户数据库中。
拉曼纳表示:“现在我们可以注入AI的能力,让AI听取对话并通过转录文字、记录行动项目、进行总结会议、识别常用短语或分析‘我是一个好的倾听者吗?’来帮助人们提高产出效率。”“这需要使用最新的AI能力并升级数字协作工具。”
拉曼纳专注于打造出使任何拥有计算设备的人都能使用微软Power Platform创建自己的由AI驱动的应用程序的工具。例如,他的团队正在Power Automate中推出一项具有AI辅助功能的性能11,让人们能够使用自然语言来建立链接微软云中运行的各种服务的工作流程。
拉曼纳解释道:“用户可以说,‘嘿,收到老板的电子邮件时,给我的手机发一条短信,并在我的Outlook里放置一个待办事项。’”只要他们发话,它就会自动生成。
他说,这种将一句话变成工作流程的能力极大地增加了能够提供AI软件解决方案的人数。他又补充道,拥有更多技术知识的人可以利用微软动力平台中的低代码工具和图形界面,如AI Builder中的智能文档处理技术12,进一步定制和完善他们的应用程序。
律师可以利用这项技术定制一个应用程序,每当有新的合同上传到公司的门户站点SharePoint网站时就会被启动。这个应用程序可以提炼关键信息,如谁拟的合同、关联方和行业部门,然后通过电子邮件将合同的摘要和这些细节信息发送给公司里负责该行业部门或客户的律师。
在将这种AI自动化工作流程与今日完成此类任务的常规方式进行对比时,拉曼纳说:“这有点神奇”。“你查看SharePoint网站,打开了一个新文件,然后浏览文件作总结,来看看是否与你有关。AI正在帮助人们摆脱这种单调任务,让计算机做对人们最有利的事情。”
内容AI
过去几年的数字化转型让世界各地的人们生产的内容更加泛滥。例如,微软客户现在每天向Microsoft 365 添加约16亿条内容。想想看营销演示文档、合同、发票和工作指令及Teams会议的视频录制和文字记录。
微软协作应用和平台总裁杰夫·特伯表示:“他们在创建文件,他们在Teams上进行合作,他们把文件储存在SharePoint体验中。”“我们想做的是将AI技术与这些内容结合起来,这样客户就可以进行更多的条理性活动,如审批合同、管理发票管理和监管备案。”
这就是为什么微软又打造了微软Syntex13。微软Syntex是Microsoft 365的一个新的内容AI产品,它利用Azure认知服务和其它AI技术来改变内容创建、处理和挖掘方式。无论是数字内容还是纸质内容,它都可以读取、标记和索引,使其可以在特定的应用程序中检索和使用或作为可重复使用的信息。它还可以通过安全和保留设置来管理内容生命周期。
例如,TaylorMade 高尔夫公司曾向微软Syntex14寻求一个综合性文件管理系统来整理和保护电子邮件、附件和其它知识产权及专利文件。而当时,公司的律师需要手动管理这些内容,花费数小时时间来归档和移动文件,以便后期共享和处理。
有了微软Syntex,这些文件会以一种更安全的方式被自动归类、标记和筛选,而且它们易于通过搜索查找,不再需要在传统的文件和文件夹系统中翻找。TaylorMade 公司还在探索如何使用微软Syntex来自动处理订单收据和其它应付账款和财务团队的事务性文件。
例如,TaylorMade 高尔夫公司曾向微软Syntex14寻求一个综合性文件管理系统来整理和保护电子邮件、附件和其它知识产权及专利文件。而当时,公司的律师需要手动管理这些内容,花费数小时时间来归档和移动文件,以便后期共享和处理。
有了微软Syntex,这些文件会以一种更安全的方式被自动归类、标记和筛选,而且它们易于通过搜索查找,不再需要在传统的文件和文件夹系统中翻找。TaylorMade 公司还在探索如何使用微软Syntex来自动处理订单收据和其它应付账款和财务团队的事务性文件。
特伯指出,其他客户正在使用微软Syntex进行合同管理和汇编。虽然每份合同都或有其特殊内容,但它们基本都是围绕财务条款、变更控制、时间表等通用条款构成。与其每次都从头开始撰写这些通用条款,人们可以使用Syntex从各种文件中汇编这些条款,然后进行修改。
他说:“他们需要AI和机器学习来查对,‘嘿,这一段与我们的标准条款非常不同,可能需要额外的注意’”。
他补充道:“如果你试图阅读一份100页的合同并查找有重大变化的内容,没有AI的帮助,这将是一项非常繁重的工作。然后围绕这些合同的工作流程是:谁来审批它们?把它们存放在哪里?以后如何找到它们?这其中有很大一部分是元数据。”
个性化DALL∙E 2
在Azure OpenAI服务中使用DALL∙E 2激发了德国RTL公司不断探索如何根据客户的兴趣生成个性化图像,该公司是德国最大的私营跨媒体企业。例如,在RTL的数据研究和AI功能中心,数据科学家正在测试各种策略,通过生成图像来提升用户体验。
德国RTL的流媒体服务RTL+正在扩展,现在可按需读取数百万视频、音乐专辑、播客、有声读物和电子杂志。RTL数据团队的数据产品和技术高级副总裁马克·埃格说,该平台主要依靠图片来吸引人们的注意力。
他说:“即使你的推送很完美,你依然不知道用户是否会点击它,因为用户是通过视觉线索来决定他们是否有兴趣消费某物。因此插图真的很重要,必须为合适的人准备合适的插图”。
试想一下一部关于一名职业足球运动员被调往巴黎并与一名法国体育记者相爱的浪漫喜剧电影。如果有足球比赛的画面,体育迷可能会更愿意去看这部电影,而喜欢看言情小说或旅游的人可能会对情侣在埃菲尔铁塔下接吻的画面更感兴趣。
埃格表示,将DALL∙E 2的力量与用户互动过的内容元数据结合起来有可能提供以前无法想象的规模的个性化图像。
他说道:“如果你有数百万用户和数以百万计的资产,你会遇到无法解决的问题,那就是工作人员不够。图形设计师数量永远不够来设计你想要的所有个性化图片。因此,这种技术可以让你做到动用其它方式无法做到的事情。”
埃格的团队也在考虑如何在Azure OpenAI服务中使用DALL∙E 2为目前缺乏图像的内容打造视觉效果,如播客剧集和有声读物场景。例如,一部播客剧集的元数据可以用来生成一个独特的图像来搭配它,而不是反复使用相同的通用播客图像。
德国最大的私营跨媒体企业德国RTL正在探索如何在Azure OpenAI服务中使用DALL∙E 2来吸引人们浏览其流媒体服务RTL+。其中一个构想是使用DALL∙E 2生成独特的图像来给每个播客集作插图,而不是用一样的播客封面。
按照类似思路,在手机上听有声读物的人通常看到的是每一章都相同的封面。DALL∙E 2可以用来生成一个独特的图像用来搭配每个章节的各个场景。
埃格补充说,通过Azure OpenAI服务使用DALL∙E 2可以在一个地方访问其他Azure服务和工具,这使他的团队能够高效和不间断地工作。“与所有其它软件即服务的产品一样,我们可以肯定,如果我们需要由DALL∙E 2创作的大量图像,我们不用担心线上操作问题。”
恰当和负责任地
使用DALL∙E 2
据AzureAI微软首席小组项目经理萨拉·伯德称,没有哪项AI技术像DALL∙E 2这样能够从自然语言描述中生成图像的系统那样引起人们的兴奋。
她在谈到DALL∙E 2时说:“人们喜欢图像,但对于像我这样完全没有视觉艺术细胞的人来说,我能用它做出比用其它视觉工具漂亮得多的东西”。“它提供给人类一个新的工具来创造性地表达自己,并以引人入胜妙趣横生的方式进行交流。”
她的团队专注于开发工具和技术以指导人们正确和负责任地使用AI工具15,如Azure AI中的DALL∙E 2,并对可能会产生危害的使用方式进行限制。
为了防止DALL∙E 2在Azure OpenAI服务中输出不当内容,OpenAI从用于训练模型的数据集中删除了最明显的性和暴力相关内容,而且Azure AI部署了筛选程序来拒止违反内容政策的提示。
除此之外,该团队还整合了一些技术,防止DALL∙E 2创建名人图像及经常被用来欺骗系统生成性或暴力内容的对象。在输出端,该团队添加了一些模型用来删除AI生成的包含成人、血腥和其它类型不当内容的图像。
我们正在设计界面来帮助用户......使用这个工具来得到他们想要的效果。
DALL∙E 2仍然受到许多AI系统都会遇到的挑战:只有用于训练它的数据足够好,系统才会好。如果没有用来了解用户意图的上下文,输入DALL∙E 2的描述性较差的提示会出现嵌入在训练数据(网络文本和图像)中的偏差。
这就是为什么伯德正在与微软产品团队合作教人们如何使用DALL∙E 2来帮助他们实现他们的目标,例如使用更多的描述性提示帮助AI系统更好地理解他们所追求的效果。
她说:“我们正在设计界面来帮助用户更顺利地生成创造,并分享今天的限制条件,以便用户能够使用这个工具来获得他们想要的效果,而不是网上那些平庸的效果”。
“你如何预测未来?”
最近布斯加入了美泰未来实验室,该实验室正在探索元宇宙和NFT(非同质化代币)等想法以扩大玩具业务的范围。她正在利用DALL∙E 2辅助她想象虚拟体验可能的样子。
她在说明DALL∙E 2正在帮助其团队预测未来时说道:“随便滑动手指,选一个描述词,森林、美人鱼,随便什么都可以,来思考虚构世界会发生什么,非常有趣。”。“如何预测未来?不断地给自己灌输更多的信息、画面与想法,想象它们将如何组合在一起。”
微软公司Azure平台副总裁博伊德表示,DALL∙E 2和支持它的大型语言模型家族正在释放客户的创造性力。AI系统是想象力的助燃器,它让用户产生新的有趣的想法,并在演示文稿和文件中生动展现这些想法。
他说道:“我认为,最令人激动的是,我们对这些大型语言模型的力量还只是触及皮毛”。
[1]https://info.microsoft.com/ww-landing-ai-interest-capture-execution-for-ignite-keynote.html?lcid=en-usus/free/ai/search/
[2]https://azure.microsoft.com/en-us/products/cognitive-services/openai-service/
[3]https://www.microsoft.com/en-us/microsoft-365/blog/2022/10/12/new-tools-from-microsoft-365-edge-and-bing-bridge-the-gap-between-productivity-and-creativity/
[4]https://blogs.microsoft.com/ai/how-ai-makes-developers-lives-easier-and-helps-everybody-learn-to-develop-software/
[5]https://news.microsoft.com/2019/07/22/openai-forms-exclusive-computing-partnership-with-microsoft-to-build-new-azure-ai-supercomputing-technologies/
[6]https://azure.microsoft.com/en-us/products/cognitive-services/
[7]https://www.microsoft.com/en-us/microsoft-teams/group-chat-software
[8]https://powerplatform.microsoft.com/en-us/
[9]https://www.microsoft.com/en-us/microsoft-365
[10]https://cloudblogs.microsoft.com/dynamics365/bdm/2022/10/12/bringing-more-intelligence-to-sales-teams-with-dynamics-365/
[11]https://powerautomate.microsoft.com/zh-cn/blog/new-ways-to-innovate-with-ai-and-microsoft-power-automate/
[12]https://powerautomate.microsoft.com/zh-cn/blog/new-ways-to-innovate-with-ai-and-microsoft-power-automate/
[13]https://www.microsoft.com/en-us/microsoft-365/blog/2022/10/12/welcome-to-microsoft-syntexcontent-ai-integrated-in-the-flow-of-work/
[14]https://customers.microsoft.com/en-us/story/1556853242544319473-taylormade-golf-retailers-microsoft-syntex
[15]https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1%3Aprimaryr6
原文标题:设计一款风火轮模型车?竟如此简单
文章出处:【微信公众号:微软科技】欢迎添加关注!文章转载请注明出处。
-
微软
+关注
关注
4文章
6575浏览量
103974
原文标题:设计一款风火轮模型车?竟如此简单
文章出处:【微信号:mstech2014,微信公众号:微软科技】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论