Seeing AI帮助盲人和弱视用户“看”世界-电子发烧友网

导盲犬可以很好地帮助盲人或视障人士出行，但是如果想辨别出前面路口的标识，或者想知道钱包里还有多少钱，导盲犬可就办不到了。

由微软AI研究小组开发的应用程序Seeing AI为这个问题给出了解决方案。该应用程序可为盲人和弱视用户描述这个世界，使他们可以使用自己的智能手机来识别一切：包括单个物体、颜色、钞票、文档等。

自去年问世以来，这一应用程序的下载量已突破15万次，执行任务500万次，其中一些任务的服务对象还是全球知名的盲人。

“Stevie Wonder（美国知名艺人）每天都会用，这确实很令人振奋。”微软高级数据科学家Anirudh Koul在3月于圣何塞举行的GPU技术大会上发表演讲时说道。

该应用程序的现场演示就已展现出了其强大的功能。和Koul一同上台的还有他的一位同事，当他在自己的智能手机上运行应用程序，并将手机朝向他的同事时，应用程序描述他看到的是“一位31岁、有着黑头发、戴着眼镜且看起来很开心的男士”。

如果这位同事在他的联系人列表中，则有更佳的使用效果，因为Seeing AI可以与用户的联系人进行整合，并能识别出朋友的名字。

Koul还分享了几个令人叹服的使用案例：一位盲人教师将运行该应用的手机面朝教室门口，这样孩子们就不会因她是盲人而趁机偷偷进出教室；另一位用户在飓风肆虐的地区穿行时，利用这款应用程序避开了倒落的电线和其他障碍物。

Seeing AI的开发始于2014年2月，开发人员曾试图创建一个能发现并识别周围物体的卷积神经网络。但是其延迟时间达10秒，这样的速度不能及时帮助人们快速作出决策。

第二年，微软赞助了一场为期一周的黑客马拉松，活动共吸引了13000人参与，并由此引发了第二次尝试：在用户的头上配备手机。

在使用智能眼镜进行试验后，Koul的团队开始着手于应用程序本身的开发工作。网络本地训练过程在NVIDIA GPU上进行，而较为繁重的工作则交给了基于NVIDIA Tesla P100 GPU运行的Azure云实例。通过逐帧分析确定每一部分训练的发生位置。

AI调优

应用程序需要辨别不同图像，而图像属性具有不确定性，所以开发人员针对此特性对模型进行了训练。例如，如果训练应用程序识别货币，则需要向训练网络内输入不清晰和无背景的货币图片，以及货币某一极小部分放大后的图片，再让其识别出图片的真实内容。

该团队向志愿者征集，最终得到了各种类型的图片，其中包括一张猫咪玩纸币的图片，以及纸币被封在冰块中的照片。通过这些变量对模型进行训练，最终就能够计算出识别图片所需的最小参数。

Koul的团队对网络进行了调整，使其倾向于得出否定性分类或不分类的结果，而不是猜测结果（这样可能将5元钞票识别成10元），因为猜测很显然会给盲人用户造成麻烦。

随着用户人数的增多，这款应用程序也将变得越好、越准确。AI将会成为盲人和视障用户的福音。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

智能手机

智能手机

+关注

关注
66

文章
18484

浏览量
180149
AI

AI

+关注

关注
87

文章
30805

浏览量
268942

原文标题：重见光明：深度学习帮助盲人“看”到世界

文章出处：【微信号：NVIDIA-Enterprise，微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

AI基础数据服务是AI产业的关键支撑

数据、算法和算力是构建AI系统的三大核心要素，三者的协同使现代AI技术实现了从理论到应用的飞跃。算法是处理信息、提取特征、进行预测的逻辑框架；算力支持算法处理庞人和复杂的数据集，使得研究人员能够探索

发表于 12-13 15:45 •203次阅读

<b class='flag-5'>AI</b>基础数据服务是<b class='flag-5'>AI</b>产业的关键支撑

开发者大会成功举办 vivo用科技搭建人与数字世界的无障碍桥梁

盲人协会主席李庆忠出席论坛，与资深用户、合作伙伴们分享vivo信息无障碍建设最新成果，共同展望信息无障碍美好未来。 vivo副总裁、vvQ AI全球研究院院长周围与中国残疾人联合会理事，中国盲

发表于 10-12 14:18 •142次阅读

使用Google Play获得安全可靠的AI体验

生成式 AI 的快速发展为开发者提供了机会，让开发者能为世界各地用户创造全新、引人入胜的沉浸式应用体验。在这个瞬息万变的时代，我们很高兴能继续帮助开发者创建创新、优质的应用，同时保持

发表于 09-09 15:53 •425次阅读

人工智能ai4s试读申请

目前人工智能在绘画对话等大模型领域应用广阔，ai4s也是方兴未艾。但是如何有效利用ai4s工具助力科研是个需要研究的课题，本书对ai4s基本原理和原则，方法进行描诉，有利于总结经验，拟按照要求准备相关体会材料。

发表于 09-09 15:36

FMEA：解锁AI用户体验新境界，直击用户心坎的智能钥匙

在复杂多变的AI系统中，FMEA不仅仅是传统制造业中预防缺陷的工具，它更是一把解锁AI用户体验新境界的钥匙。通过系统地识别、评估AI系统可能面临的失效模式及其对

发表于 09-05 11:02 •314次阅读

平衡创新与伦理：AI时代的隐私保护和算法公平

机制，还包括了数据的来源、处理方式以及使用目的的明确披露。这样不仅有助于监管机构进行审查，也让普通用户能够理解AI系统的决策依据，从而减少因“黑箱操作”带来的不信任和误解。例如，在AI辅助医疗诊断中

发表于 07-16 15:07

昆仑万维天工AI日活用户超过100万

昆仑万维集团近日宣布，旗下天工AI的每日活跃用户（DAU）已突破百万大关，标志着其在人工智能领域的强大影响力和用户基础。天工AI智能体平台汇聚了近百万个

发表于 05-28 09:16 •627次阅读

AI正通过智能家居帮助我们入眠

不少企业已经推出了个性化的睡眠方案，结合智能床垫和智能枕头，通过智能分析和个性化设置，AI能够根据用户的睡眠习惯和偏好，自动调整睡眠环境，从而提供更加舒适和健康的睡眠体验。要想实现这一技术，与产品中的重要软硬件是分不开的

发表于 04-12 00:08 •3264次阅读

AI芯片未来会控制这个世界吗？

AI芯片行业资讯

芯广场
发布于 :2024年03月27日 18:21:28

NanoEdge AI的技术原理、应用场景及优势

：在工业生产过程中，NanoEdge AI 可以帮助实现对生产线的实时监控和故障预测，提高生产效率和降低维护成本。 3.智能交通：通过将 NanoEdge AI 应用于交通信号灯、无人驾驶汽车等设备

发表于 03-12 08:09

谷歌发布全新AI基础世界模型Genie

谷歌近日宣布推出其最新研发的AI基础世界模型——Genie。这款模型拥有惊人的110亿参数，其独特之处在于，仅需一张图片，便能生成一个充满活力和交互性的虚拟世界。用户可以在这个

发表于 03-04 14:02 •751次阅读

世界荣耀，做AI时代的海

齐聚全球5大AI巨头，荣耀要做AI时代的海

发表于 02-28 18:23 •1150次阅读

谷歌发布AI基础世界模型Genie

谷歌近日宣布了其生成式AI的全新里程碑——全新AI基础世界模型Genie。这一创新技术允许用户通过单张图像提示，生成一个可玩的、交互式的虚拟环境，从而开启了一个全新的数字体验时代。

发表于 02-28 17:41 •822次阅读

Vitis AI用户指南

电子发烧友网站提供《Vitis AI用户指南.pdf》资料免费下载

发表于 01-03 10:51 •1次下载

搜索历史

Seeing AI帮助盲人和弱视用户“看”世界

评论

AI基础数据服务是AI产业的关键支撑

AI基础数据服务在AI产业升级中扮演哪些角色

开发者大会成功举办 vivo用科技搭建人与数字世界的无障碍桥梁

使用Google Play获得安全可靠的AI体验

人工智能ai4s试读申请

FMEA：解锁AI用户体验新境界，直击用户心坎的智能钥匙

平衡创新与伦理：AI时代的隐私保护和算法公平

昆仑万维天工AI日活用户超过100万

AI正通过智能家居帮助我们入眠

AI芯片未来会控制这个世界吗？

NanoEdge AI的技术原理、应用场景及优势

谷歌发布全新AI基础世界模型Genie

世界荣耀，做AI时代的海

谷歌发布AI基础世界模型Genie

Vitis AI用户指南