0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

亚马逊云科技智能2D数字人方案为教育行业赋能

科技新思路 来源:科技新思路 作者:科技新思路 2023-08-30 14:28 次阅读

早在大语言模型如GPT-3.5等的兴起和被日渐广泛的采用之前,教育行业已经在AI辅助教学领域有过各种各样的尝试。在教育行业,人工智能技术的采用帮助教育行业更好地实现教学目标,提高教学质量、学习效率、学习体验、学习成果。例如,人工智能技术可以帮助教师更好地管理课堂,更好地识别学生的学习需求,更好地提供个性化的学习内容,更好地评估学生的学习成果,更好地提供学习支持。此外,人工智能技术还可以帮助教育行业更好地实现自动化,提高教育行业的效率和效果。总之,人工智能技术在教育行业的采用将会带来巨大的变化,为教育行业带来更多的发展机遇。

亚马逊科技也一直致力于提供更方便快捷,功能更强大的AI服务来支持教育行业客户的技术创新和业务创新。特别是Amazon Transcribe、Amazon Polly、Amazon Textract、Amazon Translate、Amazon Personalize、Amazon Rekognition、Amazon SageMaker等产品分别从自然语言处理、图形图像处理、模型研发部署等方面为教育行业提供了强有力的技术支持。

本文结合Amazon Transcribe、Amazon Polly,以及OpenAI的大语言模型和D-ID.com公司的2D数字人生成技术,介绍实现一个演示用的可语音对话的智能2D数字人设计的服务和具体的实现过程。

方案架构

为了能在一个统一的用户界面呈现语音输入、语音输出,以及2D数字人视频播放的整体效果,本方案选择Gradio框架实现WebUI的功能。呈现的WebUI如下:

用户可以通过直接输入文字内容或者使用麦克风输入语音,文字内容会使用Langchain附加上一定的上下文后送给OpenAI的GPT接口调用,语音输入会先调用Amazon Transcribe服务进行语音到文字的转换。经过GPT接口返回的文字内容,会调用AWS Polly形成语音文件,同时语音文件会作为D-ID.com提供的API渲染出2D的动态视频在前端自动展示和播放。

本方案中语音输入,语音输出,文字响应生成,以及数字人视频生成的功能都可以做自由的组合和替换。特别是对于OpenAI接口的调用可以置换为对自部署的大语言模型的调用,同时2D数字人视频的生成也可以考虑其他类似服务,如Heygen等。

具体实现

语音输入部分

Amazon Transcribe支持实时转录语音(流式传输),也可以转录Amazon S3存储桶中的语音文件(批处理)。Transcribe支持多达几十种的不同国家的语言。

Transcribe的实时转录能力非常的强大,处理流数据的同时,不断的利用之前的上下文进行结果的实时矫正,可以通过下面这个截图看到Transcribe实时转录输出的效果:

应答内容生成部分

在本方案里,应答内容的生成借助Langchain这个开源框架,调用基于OpenAI的coversation接口,同时使用memory库对对话的上下文做了5轮保存。在实际的客户场景里,可以考虑更丰富的方式来规范回复的内容的有效性和客观性。

比如可以使用Langchain的对话模版来对大模型的角色进行预设,或者使用Amazon Kendra,Amazon Opensearch这样的知识库构建和检索引擎,来进一步限制大模型应答的内容范围。

语音输出部分

Amazon Polly可以将文本转化为逼真的语音。它支持多种语言并且包含各种逼真的声音模拟,也包含中文普通话语音的模拟。

可以构建支持语音并能用于各种位置的应用程序,并选择适合客户的声音。Amazon Polly也支持语音合成标记语言(SSML),它是一种基于XML的W3C标准标记语言,适用于语音合成应用程序,且支持使用通用SSML标签进行断句、重音和语调。自定义Amazon SSML标签提供了独特的选项,例如,能够以新闻播音员说话风格发出某些声音。这种灵活性能够帮助您创建逼真的语音,从而吸引并维持听众的注意力。

在本方案中,可以使用Polly的实时语音生成接口,使用了中文普通话发音的VoiceID:Zhiyu,同时对特定的字符的发音做了定制化,这也是Polly一个非常有用的功能(Lexion)。

2D数字人视频的生成部分

这里可以使用一个外部第三方的SaaS服务。该服务由D-ID.com公司提供,对应的API可以直接接收文本输入和一张人脸图片来生成对应的动态播报视频,也可以接受语音文件加图片作为输入。

当你输入文本的时候,该API接口可以选择制定AWS的Polly服务中的不同的Voice ID来自动为你合成语音。

在本方案中,想体现中文的语音输出的效果,但是D-ID的API接口中暂时无法直接为中文文本指定中文的Voice ID。所以选择了先用Polly的API生成语音,再把语音和图片传送给D-ID的接口生成视频。

总结

今年是AIGC爆发的一年,也是教育行业所在的客户看到行业拐点的一年。在这个关键的历史性节点上,亚马逊云科技愿意和客户一起面对这些新的机会和挑战,以客户的需求为导向,帮助客户抓住AI浪潮带来的红利。

目前除了本文展示的2D数字人的方案,亚马逊云科技也可以帮助客户提供基于3D数字人或者其他3D数字形象的直播,互动等方案。同时亚马逊云科技也会引入更多的技术合作伙伴如跃迁引擎来丰富整个数字人,数字形象直播、点播、互动等场景的解决方案,助力更多的教育行业客户加速AI技术的采用和落地。

原发标题:近实时智能应答 2D 数字人搭建

审核编辑 黄宇


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30072

    浏览量

    268343
  • 人工智能
    +关注

    关注

    1791

    文章

    46820

    浏览量

    237463
  • 亚马逊
    +关注

    关注

    8

    文章

    2624

    浏览量

    83171
  • 数字人
    +关注

    关注

    0

    文章

    119

    浏览量

    1986
收藏 人收藏

    评论

    相关推荐

    老子:移动实物数字智能时代来临!

    时代的来临。1.强大的压缩技术为什么老子技术深受行业人士期待?特别是设计、3D游戏建模行业,眸瑞科技研发——老子技术,两个自动化(
    发表于 04-17 10:10

    AI教育 ROOBO“童秘”平台及布丁迷你豆同期发布

    揭开了童秘儿童智能平台(以下简称“童秘”)的神秘面纱。在儿童教育机器业务量越来越大的同时,童秘从ROS.AI中孕育出来。该平台能够为儿童教育机器
    发表于 08-05 09:27

    筷捷SaaS平台:助力企业上数字经济

    特色产业园区项目。并且,筷捷的年用户量正保持30%以上的增速发展。  筷捷,助力企业上数字经济。  FEC筷捷产品介绍:  办公S
    发表于 08-28 13:54

    如何同时获取2d图像序列和相应的3d

    如何同时获取2d图像序列和相应的3d?以上来自于谷歌翻译以下为原文How to obtain the sequence of 2d image and corresponding
    发表于 11-13 11:25

    天使,科技智造:华秋第八届硬创赛与亚马逊科技达成战略合作

    、技术领先、服务丰富、应用广泛而享誉业界。亚马逊科技可以支持几乎上任意工作负载。亚马逊科技目前提供超过 200 项全功能的服务,涵盖计
    发表于 07-01 15:33

    基于VxWorks操作系统的WiWindML 2D显示方案

    基于VxWorks操作系统有多种2D 显示的解决方案,但由于种种原因,仅介绍基于VxWorks操作系统的WindML 2D显示解决方案,并着重讨论了WindML的体系结构,且介绍了
    发表于 12-16 14:26 10次下载

    基于VxWorks操作系统的WindML 2D显示方案

    基于VxWorks操作系统有多种2D 显示的解决方案,但由于种种原因,仅介绍基于VxWorks操作系统的WindML 2D显示解决方案,并着重讨论了WindML的体系结构,且介绍了
    发表于 12-05 16:35 14次下载

    知声31日召开系统发布会,AI 教育机器全面

    知声经过多年在 AI 教育机器市场上的深耕细作,顺应行业发展态势所打造的面向智能教育机器
    的头像 发表于 08-08 08:38 2377次阅读

    RoboCup 2D机器足球仿真的智能算法的应用研究说明

    在Robocup仿真比赛中,Agent的动作技能是仿真足球比赛的基础。本文详细分析了robocup 2D机器足球仿真中射门技能存在的问题,论述了智能算法在机器足球
    发表于 11-07 17:31 4次下载

    AI客服行业更好的发展

     智能客服行业作为人工智能技术较早实现商业化落地的领域,吸引了众多企业争相布局。从传统通讯厂商,到SaaS服务商、再到机器客服公司,各类
    的头像 发表于 11-08 11:19 3191次阅读

    机智生活电器智能化解决方案

    物联网副总裁邢雁受邀出席本次活动,并将进行《亚马逊科技生态机智AIoT
    的头像 发表于 08-02 10:45 1425次阅读

    教育桌面对教育行业格局的影响

    一定程度的影响,不可否认,技术已成功金融、电商、工业互联、医疗健康等行业,而我们教育数字
    的头像 发表于 10-16 15:40 914次阅读

    机智水族设备智能化解决方案,携手亚马逊助力企业驾“”出海

    科技智能硬件出海群英汇在深圳举办,专注不同行业挖掘更多智能硬件出海新思路新机遇,持续加速各行业海外业务的创新增长。 机智
    的头像 发表于 11-25 13:10 720次阅读

    亚马逊科技助力沐瞳应用生成式AI技术打造卓越游戏体验 业务决策

    北京2024年2月21日 /美通社/ -- 亚马逊科技宣布,上海沐瞳科技有限公司(以下简称"沐瞳")应用亚马逊科技Amazon Bedr
    的头像 发表于 02-22 09:25 398次阅读

    SOLIDWORKS教育版2024:2D工程图的新云端之旅

    随着数字化和计算技术的飞速发展,SOLIDWORKS工程设计领域的也起到了不少的作用,不断推陈出新,用户提供更有效、更便捷的工程设计解决方案
    的头像 发表于 02-29 15:50 543次阅读
    SOLIDWORKS<b class='flag-5'>教育</b>版2024:<b class='flag-5'>2D</b>工程图的新云端之旅