ChatGPT重磅升级！新语音和图像输入功能，让ChatGPT能看、能听、能说-电子发烧友网

电子发烧友网报道（文/李弯弯）近日消息，OpenAI在一篇博客中表示，ChatGPT 将推出新的语音和图像功能。用户不仅可以在文本框中输入文字提示，还可以通过语音或图像与ChatGPT交流。OpenAI称，新功能在未来两周内向付费用户推出，不久后会推广到其他用户。

ChatGPT 是OpenAI推出的一种人工智能技术驱动的自然语言处理工具，它能够基于在预训练阶段所见的模式和统计规律，来生成回答，还能根据聊天的上下文进行互动，能完成撰写邮件、视频脚本、文案、翻译、代码，写论文等任务。自2022年11月30日发布以来，ChatGPT 已经进行了多次功能升级。

ChatGPT现在能看、能听、能说了

ChatGPT使用了Transformer神经网络架构，也是GPT-3.5架构，这是一种用于处理序列数据的模型，拥有语言理解和文本生成能力，尤其是它会通过连接大量的语料库来训练模型，这些语料库包含了真实世界中的对话，使得ChatGPT具备上知天文下知地理，还能根据聊天的上下文进行互动的能力，做到与真正人类几乎无异的聊天场景进行交流。

2022年11月30日，ChatGPT刚面世就迅速在社交媒体上走红，短短5天，注册用户数超过100万。2023年一月末，ChatGPT的月活用户突破1亿，成为史上增长最快的消费者应用。

2023年2月2日，OpenAI发布ChatGPT试点订阅计划——ChatGPT Plus。ChatGPT Plus以每月20美元的价格提供，订阅者可获得比免费版本更稳定、更快的服务，及尝试新功能和优化的优先权。同日，微软发布公告称，旗下所有产品将全线整合ChatGPT。

2023年3月15日，OpenAI正式推出GPT-4。GPT-4是多模态大模型，即支持图像和文本输入以及文本输出，拥有强大的识图能力。GPT-4的特点在于：第一，它的训练数量更大；第二，支持多元的输出输入形式；第三，在专业领域的学习能力更强。

2023年5月18日，OpenAI官网宣布推出iOS版ChatGPT应用，该应用可免费使用，并在不同设备间同步用户的历史记录。该应用还集成了OpenAI开源语音识别系统Whisper，支持语音输入。ChatGPT Plus付费订阅用户可以独家使用GPT-4功能。

2023年7月，OpenAI宣布推出定制指令功能，以便客户更好地控制ChatGPT的回应方式。此外，OpenAI还发布公告称，给ChatGPT加了一个名为Custom instructions的新功能。2023年7月25日，OpenAI宣布，安卓版ChatGPT正式上线。

2023年9月25日，OpenAI发布《ChatGPT 现在能看、能听、能说了》的公告，宣布ChatGPT 增加语音输入和图像输入两项新功能。这可以说是ChatGPT 发布以来极其重大的更新。

据介绍，语音输入功能类似于手机上的语音助手，用户只需要轻轻点击一个按钮，说出自己的问题，ChatGPT能将这些口述的问题转换成文本，将其输入至大语言模型中，生成答案，接着将答案转化成语音，播放给用户。

语音转文本的任务由OpenAI 的 Whisper 模型提供支持。同时，该公司正在引入一款全新的文本转语音的模型，据称可以通过几秒钟的语音样本生成与人类相似的音频。

图像输入功能类似于Google Lens，用户可以拍摄自己感兴趣的事物，并上传到ChatGPT中，ChatGPT会尝试识别用户想要询问的内容，并给出相应的回答。用户还可以用应用中的绘图工具来帮助表达自己的问题，或者配合语音或文本输入来进行交流。

用户可以向ChatGPT展示一张或多张图片，提问相关的问题。比如，发送一张坏掉的烧烤炉图片，然后询问无法启动原因；拍摄一张冰箱中的食材，询问多种菜品制作方案。

OpenAI还放出了一段视频，是和ChatGPT商量着修自行车，不断问ChatGPT：这里是扳手吗？是调整这里吗？甚至还把说明书拍照发给ChatGPT求解释。

这正是ChatGPT独特的特性所带来的帮助，用户可以与机器人进行互动，逐步完善答案，而无需首先进行搜索并在得到错误答案后再次搜索。

ChatGPT新增语音和图像功能带来的风险

OpenAI在博客中表示，其目标是构建安全有益的通用人工智能（AGI）。新增的语音和图像功能可能会带来一些风险，但是OpenAI正在采取措施缓解这些风险。

新的语音技术能够在短短几秒钟的真实语音片段中生成逼真的合成语音，这一技术存在潜在风险，比如，恶意行为者可能会滥用这项技术，冒充公众人物或实施欺诈。为了避免这些问题的发生，OpenAI决定将这项技术应用于特定的场景中，会受到严格的限制。

新的图像功能也带来一定风险，在进行更广泛的部署之前，OpenAI测试了该模型在极端主义和科学领域等方面潜在的风险，并对一些关键细节进行了调整，来确保负责任地应用这项技术。比如，在处理人物图片时，OpenAI限制了ChatGPT 对人物进行分析和直接评价的能力，这意味着上传一个人的照片就能知道那是谁无法实现，这是为了隐私安全。

ChatGPT自发布以来，在受到广大用户追捧的同时，其伴随的风险也让各界人士表示担忧。一是它可能在被使用的过程中造成数据信息的丢失；二是它也可能会被一些不法分子用来实施欺诈行为。在过去这大半年时间里，不少机构也在反对ChatGPT的使用和进一步研究。

2023年2月3日，IT行业的领导们担心，ChatGPT已经被黑客们用于策划网络攻击时使用。黑莓（Black Berry）的一份报告调查了英国500名IT行业决策者对ChatGPT这项革命性技术的看法，发现超过四分之三（76%）的人认为，外国已经在针对其他国家的网络战争中使用ChatGPT。近一半的人认为，2023年，将会出现有人恶意使用ChatGPT成功进行网络攻击。

2023年4月，中国支付清算协会倡议支付行业从业人员谨慎使用ChatGPT。4月13日，西班牙国家数据保护局和法国国家信息自由委员会分别宣布对ChatGPT展开调查。

在各界人士对ChatGPT存在风险的质疑声中，OpenAI也一直在寻找解决办法，如何让其在增加新功能的同时而不会带来新的问题。从这次的功能升级来看，OpenAI试图通过有意限制新模型的功能，来达到更进一步提升功能和同时带来新问题的平衡。OpenAI表示，将不断改进和完善风险缓解措施，未来为大家提供更强大的系统。

总结

ChatGPT自出世以来就引起了广泛关注，过去近一年时间，OpenAI对其底层模型和界面也进行了多次升级。如今，ChatGPT更是进行了一次重磅升级，新增语音输入和图像输入功能，让ChatGPT实现了能看、能听、能说的能力。

与此同时，ChatGPT在使用中存在的风险一直以来也是各界担心的问题，此次增加的新功能更是可能带来新的风险。不过在过去这段时间，OpenAI也一直致力于寻找解决办法，就比如在这次功能升级中，OpenAI通过一些限制来在实现新功能的同时也避免可能带来新风险。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

ChatGPT

ChatGPT

+关注

关注
29

文章
1578

浏览量
8285

ChatGPT新增实时搜索与高级语音功能

。OpenAI对搜索算法进行了深度优化，使得ChatGPT能够在用户提出问题后，迅速获取到分钟级别的最新信息，包括股票、新闻等。这一功能的加入，极大地满足了用户对即时数据的需求，使得ChatGPT在各类应用场景中更加得心应手。

发表于 12-17 14:08 •354次阅读

大联大推出基于MediaTek Genio 130与ChatGPT的AI语音助理方案

大联大控股，作为亚太地区市场领先的半导体元器件分销商，近日宣布了一项重要创新。其旗下子公司品佳，成功推出了基于联发科技(MediaTek)Genio 130芯片与ChatGPT功能的AI语音助理方案

发表于 12-11 11:07 •546次阅读

OpenAI推出Windows桌面版ChatGPT应用

Embiricos介绍，这款桌面版ChatGPT应用不仅继承了原有版本的强大功能，还新增了多项实用特性，旨在让用户在不中断当前工作流程的情况下，轻松启动新的对话或继续之前的讨论。该应用支持

发表于 11-18 14:04 •408次阅读

OpenAI推出ChatGPT搜索功能

近日，OpenAI再次迈出了重要的一步，为其广受好评的ChatGPT平台添加了一项全新的搜索功能。据悉，这项被命名为“ChatGPT搜索”的新功能，将为用户带来前所未有的搜索体验。以

发表于 11-04 10:34 •460次阅读

OpenAI在ChatGPT增添搜索功能

近日，OpenAI宣布为其旗舰产品ChatGPT增添全新的搜索功能，此举标志着该公司对Alphabet旗下谷歌的直接挑战进一步升级。OpenAI周四正式揭晓了这一名为“ChatGPT搜

发表于 11-01 17:01 •500次阅读

OpenAI ChatGPT高级语音模式登陆Windows和Mac平台

10月31日最新消息，OpenAI今日正式宣布，其ChatGPT的高级语音模式（AVM）现已全面登陆Windows与Mac电脑平台。

发表于 10-31 16:35 •596次阅读

ChatGPT 高级语音模式扩展至欧盟多国

，随后在上个月扩展到了英国用户。现在，欧盟等多地区的 ChatGPT Plus 和 Team 用户也可以享受到这一便捷的功能。 ChatGPT 高级语音模式的一大亮点在于其快速的响应时

发表于 10-23 11:08 •546次阅读

OpenAI发布ChatGPT高级语音版,付费订阅并设对话时长限制

ChatGPT已迈入语音交互的新纪元，为付费用户解锁了高级语音功能，旨在让对话体验更加自然流畅。OpenAI在本周二宣布了这一消息，标志着其

发表于 09-27 15:34 •2607次阅读

用launch pad烧录chatgpt_demo项目会有api key报错的原因？

我用launch pad烧录chatgpt_demo项目问题会有api key报错；请问用launch pad要如何设置api key和调试？还是只能通过idf?

发表于 06-27 07:59

使用espbox lite进行chatgpt_demo的烧录报错是什么原因？

我使用espbox lite进行chatgpt_demo的烧录我的idf是v5.1release版本的，espbox是master版本的在编译时似乎没有什么问题在烧录时报错请问这是什么原因

发表于 06-11 08:45

OpenAI 深夜抛出王炸 “ChatGPT- 4o”， “她” 来了

功能和实际应用。 GPT-4 turbo****的增强功能 ChatGPT-4o带来了几个值得注意的升级，增强了性能和可用性： · 更快的响应时间和更高的准确性：是客户服务和其他快

发表于 05-27 15:43

OpenAI正在为ChatGPT开发全新的搜索功能

OpenAI近日传来令人振奋的消息，其正在为旗下明星产品ChatGPT研发一项全新的搜索功能。据悉，这项功能将极大地拓宽ChatGPT的应用范围，并为用户带来更为全面、准确的回答。

发表于 05-10 11:18 •621次阅读

OpenAI启动ChatGPT记忆功能，避免用户重复提问关键信息

用户可以自由调整需被ChatGPT记忆的内容，如发出明确指令或直接询问“你记得什么？”还可选择关闭此功能或通过设定或对话让ChatGPT遗忘相关内容。

发表于 04-30 14:37 •653次阅读

【Longan Pi 3H 开发板试用连载体验】给ChatGPT装上眼睛，还可以语音对话

结果整合，整合后再输入ChatGPT或其他大语言模型。最后再将大语言模型的输出结果利用TTS转化为语音进行播放。实现Chatgpt多模态输入

发表于 04-12 12:41

在FPGA设计中是否可以应用ChatGPT生成想要的程序呢

当下AI人工智能崛起，很多开发领域都可看到ChatGPT的身影，FPGA设计中，是否也可以用ChatGPT辅助设计呢？

发表于 03-28 23:41

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

ChatGPT重磅升级！新语音和图像输入功能，让ChatGPT能看、能听、能说

评论

ChatGPT新增实时搜索与高级语音功能

大联大推出基于MediaTek Genio 130与ChatGPT的AI语音助理方案

OpenAI推出Windows桌面版ChatGPT应用

OpenAI推出ChatGPT搜索功能

OpenAI在ChatGPT增添搜索功能

OpenAI ChatGPT高级语音模式登陆Windows和Mac平台

ChatGPT 高级语音模式扩展至欧盟多国

OpenAI发布ChatGPT高级语音版,付费订阅并设对话时长限制

用launch pad烧录chatgpt_demo项目会有api key报错的原因？

使用espbox lite进行chatgpt_demo的烧录报错是什么原因？

OpenAI 深夜抛出王炸 “ChatGPT- 4o”， “她” 来了

OpenAI正在为ChatGPT开发全新的搜索功能

OpenAI启动ChatGPT记忆功能，避免用户重复提问关键信息

【Longan Pi 3H 开发板试用连载体验】给ChatGPT装上眼睛，还可以语音对话

在FPGA设计中是否可以应用ChatGPT生成想要的程序呢