0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ChatGPT重磅升级!新语音和图像输入功能,让ChatGPT能看、能听、能说

Carol Li 来源:电子发烧友网 作者:李弯弯 2023-09-28 00:14 次阅读

电子发烧友网报道(文/李弯弯)近日消息,OpenAI在一篇博客中表示,ChatGPT 将推出新的语音和图像功能。用户不仅可以在文本框中输入文字提示,还可以通过语音或图像与ChatGPT交流。OpenAI称,新功能在未来两周内向付费用户推出,不久后会推广到其他用户。

ChatGPT 是OpenAI推出的一种人工智能技术驱动的自然语言处理工具,它能够基于在预训练阶段所见的模式和统计规律,来生成回答,还能根据聊天的上下文进行互动,能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务。自2022年11月30日发布以来,ChatGPT 已经进行了多次功能升级。

ChatGPT现在能看、能听、能说了

ChatGPT使用了Transformer神经网络架构,也是GPT-3.5架构,这是一种用于处理序列数据的模型,拥有语言理解和文本生成能力,尤其是它会通过连接大量的语料库来训练模型,这些语料库包含了真实世界中的对话,使得ChatGPT具备上知天文下知地理,还能根据聊天的上下文进行互动的能力,做到与真正人类几乎无异的聊天场景进行交流。

2022年11月30日,ChatGPT刚面世就迅速在社交媒体上走红,短短5天,注册用户数超过100万。2023年一月末,ChatGPT的月活用户突破1亿,成为史上增长最快的消费者应用。

2023年2月2日,OpenAI发布ChatGPT试点订阅计划——ChatGPT Plus。ChatGPT Plus以每月20美元的价格提供,订阅者可获得比免费版本更稳定、更快的服务,及尝试新功能和优化的优先权。同日,微软发布公告称,旗下所有产品将全线整合ChatGPT。

2023年3月15日,OpenAI正式推出GPT-4。GPT-4是多模态大模型,即支持图像和文本输入以及文本输出,拥有强大的识图能力。GPT-4的特点在于:第一,它的训练数量更大;第二,支持多元的输出输入形式;第三,在专业领域的学习能力更强。

2023年5月18日,OpenAI官网宣布推出iOS版ChatGPT应用,该应用可免费使用,并在不同设备间同步用户的历史记录。该应用还集成了OpenAI开源语音识别系统Whisper,支持语音输入。ChatGPT Plus付费订阅用户可以独家使用GPT-4功能。

2023年7月,OpenAI宣布推出定制指令功能,以便客户更好地控制ChatGPT的回应方式。此外,OpenAI还发布公告称,给ChatGPT加了一个名为Custom instructions的新功能。2023年7月25日,OpenAI宣布,安卓版ChatGPT正式上线。

2023年9月25日,OpenAI发布《ChatGPT 现在能看、能听、能说了》的公告,宣布ChatGPT 增加语音输入和图像输入两项新功能。这可以说是ChatGPT 发布以来极其重大的更新。

据介绍,语音输入功能类似于手机上的语音助手,用户只需要轻轻点击一个按钮,说出自己的问题,ChatGPT能将这些口述的问题转换成文本,将其输入至大语言模型中,生成答案,接着将答案转化成语音,播放给用户。

语音转文本的任务由OpenAI 的 Whisper 模型提供支持。同时,该公司正在引入一款全新的文本转语音的模型,据称可以通过几秒钟的语音样本生成与人类相似的音频

图像输入功能类似于Google Lens,用户可以拍摄自己感兴趣的事物,并上传到ChatGPT中,ChatGPT会尝试识别用户想要询问的内容,并给出相应的回答。用户还可以用应用中的绘图工具来帮助表达自己的问题,或者配合语音或文本输入来进行交流。

用户可以向ChatGPT展示一张或多张图片,提问相关的问题。比如,发送一张坏掉的烧烤炉图片,然后询问无法启动原因;拍摄一张冰箱中的食材,询问多种菜品制作方案。

OpenAI还放出了一段视频,是和ChatGPT商量着修自行车,不断问ChatGPT:这里是扳手吗?是调整这里吗?甚至还把说明书拍照发给ChatGPT求解释。

这正是ChatGPT独特的特性所带来的帮助,用户可以与机器人进行互动,逐步完善答案,而无需首先进行搜索并在得到错误答案后再次搜索。

ChatGPT新增语音和图像功能带来的风险

OpenAI在博客中表示,其目标是构建安全有益的通用人工智能(AGI)。新增的语音和图像功能可能会带来一些风险,但是OpenAI正在采取措施缓解这些风险。

新的语音技术能够在短短几秒钟的真实语音片段中生成逼真的合成语音,这一技术存在潜在风险,比如,恶意行为者可能会滥用这项技术,冒充公众人物或实施欺诈。为了避免这些问题的发生,OpenAI决定将这项技术应用于特定的场景中,会受到严格的限制。

新的图像功能也带来一定风险,在进行更广泛的部署之前,OpenAI测试了该模型在极端主义和科学领域等方面潜在的风险,并对一些关键细节进行了调整,来确保负责任地应用这项技术。比如,在处理人物图片时,OpenAI限制了ChatGPT 对人物进行分析和直接评价的能力,这意味着上传一个人的照片就能知道那是谁无法实现,这是为了隐私安全。

ChatGPT自发布以来,在受到广大用户追捧的同时,其伴随的风险也让各界人士表示担忧。一是它可能在被使用的过程中造成数据信息的丢失;二是它也可能会被一些不法分子用来实施欺诈行为。在过去这大半年时间里,不少机构也在反对ChatGPT的使用和进一步研究。

2023年2月3日,IT行业的领导们担心,ChatGPT已经被黑客们用于策划网络攻击时使用。黑莓(Black Berry)的一份报告调查了英国500名IT行业决策者对ChatGPT这项革命性技术的看法,发现超过四分之三(76%)的人认为,外国已经在针对其他国家的网络战争中使用ChatGPT。近一半的人认为,2023年,将会出现有人恶意使用ChatGPT成功进行网络攻击。

2023年4月,中国支付清算协会倡议支付行业从业人员谨慎使用ChatGPT。4月13日,西班牙国家数据保护局和法国国家信息自由委员会分别宣布对ChatGPT展开调查。

在各界人士对ChatGPT存在风险的质疑声中,OpenAI也一直在寻找解决办法,如何让其在增加新功能的同时而不会带来新的问题。从这次的功能升级来看,OpenAI试图通过有意限制新模型的功能,来达到更进一步提升功能和同时带来新问题的平衡。OpenAI表示,将不断改进和完善风险缓解措施,未来为大家提供更强大的系统。

总结

ChatGPT自出世以来就引起了广泛关注,过去近一年时间,OpenAI对其底层模型和界面也进行了多次升级。如今,ChatGPT更是进行了一次重磅升级,新增语音输入和图像输入功能,让ChatGPT实现了能看、能听、能说的能力。

与此同时,ChatGPT在使用中存在的风险一直以来也是各界担心的问题,此次增加的新功能更是可能带来新的风险。不过在过去这段时间,OpenAI也一直致力于寻找解决办法,就比如在这次功能升级中,OpenAI通过一些限制来在实现新功能的同时也避免可能带来新风险。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ChatGPT
    +关注

    关注

    29

    文章

    1558

    浏览量

    7585
收藏 人收藏

    评论

    相关推荐

    ChatGPT新增实时搜索与高级语音功能

    。OpenAI对搜索算法进行了深度优化,使得ChatGPT能够在用户提出问题后,迅速获取到分钟级别的最新信息,包括股票、新闻等。这一功能的加入,极大地满足了用户对即时数据的需求,使得ChatGPT在各类应用场景中更加得心应手。
    的头像 发表于 12-17 14:08 90次阅读

    大联大推出基于MediaTek Genio 130与ChatGPT的AI语音助理方案

    大联大控股,作为亚太地区市场领先的半导体元器件分销商,近日宣布了一项重要创新。其旗下子公司品佳,成功推出了基于联发科技(MediaTek)Genio 130芯片与ChatGPT功能的AI语音助理方案
    的头像 发表于 12-11 11:07 303次阅读

    OpenAI推出Windows桌面版ChatGPT应用

    Embiricos介绍,这款桌面版ChatGPT应用不仅继承了原有版本的强大功能,还新增了多项实用特性,旨在用户在不中断当前工作流程的情况下,轻松启动新的对话或继续之前的讨论。 该应用支持
    的头像 发表于 11-18 14:04 243次阅读

    OpenAI推出ChatGPT搜索功能

    近日,OpenAI再次迈出了重要的一步,为其广受好评的ChatGPT平台添加了一项全新的搜索功能。 据悉,这项被命名为“ChatGPT搜索”的新功能,将为用户带来前所未有的搜索体验。以
    的头像 发表于 11-04 10:34 326次阅读

    OpenAI在ChatGPT增添搜索功能

    近日,OpenAI宣布为其旗舰产品ChatGPT增添全新的搜索功能,此举标志着该公司对Alphabet旗下谷歌的直接挑战进一步升级。OpenAI周四正式揭晓了这一名为“ChatGPT
    的头像 发表于 11-01 17:01 358次阅读

    ChatGPT 高级语音模式扩展至欧盟多国

    ,随后在上个月扩展到了英国用户。现在,欧盟等多地区的 ChatGPT Plus 和 Team 用户也可以享受到这一便捷的功能ChatGPT 高级语音模式的一大亮点在于其快速的响应时
    的头像 发表于 10-23 11:08 400次阅读

    用launch pad烧录chatgpt_demo项目会有api key报错的原因?

    我用launch pad烧录chatgpt_demo项目问题会有api key报错;请问用launch pad要如何设置api key和调试?还是只能通过idf?
    发表于 06-27 07:59

    使用espbox lite进行chatgpt_demo的烧录报错是什么原因?

    我使用espbox lite进行chatgpt_demo的烧录 我的idf是v5.1release版本的,espbox是master版本的 在编译时似乎没有什么问题 在烧录时报错 请问这是什么原因
    发表于 06-11 08:45

    OpenAI 深夜抛出王炸 “ChatGPT- 4o”, “她” 来了

    功能和实际应用。 GPT-4 turbo****的增强功能 ChatGPT-4o带来了几个值得注意的升级,增强了性能和可用性: · 更快的响应时间和更高的准确性: 是客户服务和其他快
    发表于 05-27 15:43

    【Longan Pi 3H 开发板试用连载体验】给ChatGPT装上眼睛,还可以语音对话

    结果整合,整合后再输入ChatGPT或其他大语言模型。最后再将大语言模型的输出结果利用TTS转化为语音进行播放。实现Chatgpt多模态输入
    发表于 04-12 12:41

    在FPGA设计中是否可以应用ChatGPT生成想要的程序呢

    当下AI人工智能崛起,很多开发领域都可看到ChatGPT的身影,FPGA设计中,是否也可以用ChatGPT辅助设计呢?
    发表于 03-28 23:41

    ChatGPT推出全新“朗读”功能

    近日,OpenAI为其备受瞩目的聊天机器人ChatGPT推出了全新的“朗读”功能,该功能以五种不同的声音朗读回复,并支持多达37种语言,进一步丰富了用户的交互体验。这一功能的推出,旨在
    的头像 发表于 03-07 10:25 891次阅读

    OpenAI推出ChatGPT“朗读”功能

    OpenAI今日宣布,为其广受欢迎的ChatGPT平台新增了“朗读”功能,该功能允许用户将对话文本内容转化为语音,从而进行听读。无论是iOS还是安卓系统的用户,现在都可以轻松享受到这一
    的头像 发表于 03-06 18:17 1342次阅读

    【国产FPGA+OMAPL138开发板体验】(原创)6.FPGA连接ChatGPT 4

    (output_text) ); // 用于存储用户输入的文本 reg [255:0] input_text; // 用于存储ChatGPT4的响应 wire [255:0
    发表于 02-14 21:58

    微软推出Copilot安卓应用 类似ChatGPT功能

    微软在安卓系统上的Copilot应用程序与ChatGPT非常相似,可以访问聊天机器人功能,通过DALL-E 3生成图像,并可以为电子邮件和文档起草文本。它还包括免费访问OpenAI最新的GPT-4模型,如果你使用
    的头像 发表于 12-28 16:59 1080次阅读
    微软推出Copilot安卓应用 类似<b class='flag-5'>ChatGPT</b><b class='flag-5'>功能</b>