0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据标注是人类与AI合作最完美的途径之一

lhl545545 来源:自动驾驶说 作者:自动驾驶说 2020-06-18 14:14 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

众所周知,机器学习主要分为两类:监督学习(supervised learning)与无监督学习(unsupervised learning)。而监督学习离不开数据标注(data labeling),也就是依靠人工找到groundtruth。烧钱速度有多快?近年来,我们注意到,数据标注创业公司层出不穷。只要在图片中标注一辆汽车,只需一秒钟,就能轻轻松松一美元进账。标注一段几十秒视频中的汽车,就能几百美元进账。数据标注的成本与需求都在节节攀升。据市场研究预测,到2023年,数据标注市场将达到10亿美元的规模。这些数据标注公司一般会开发出基本的物体识别算法,然后在人工成本较低的地区招人,培训他们,让他们找到机器识别中的错误,改正之后提交。比如,一些总部在硅谷的公司会在比较偏远的州建立分部,进行数据标注。也有很多公司将业务外包给数据标注公司,这些公司的员工一般在非洲国家、印度或者其他人工成本较低的国家。对数据需求量大的公司,每个月支付给外包公司上百万美元,才能满足开发需求。数据标注不仅消耗资金,也是训练模型中最耗时的环节。从数据采集到最终标识,很可能要等待一个月的时间。严重影响了开发进度。因此,很多无人驾驶公司开始研究数据标识,希望不再依赖人力与第三方公司。

印度数据标注公司iMerit数据标注无处不在训练无人驾驶的模型就需要理解各种障碍物的含义,就离不开数据标识。无人驾驶的数据标识主要可以用两个维度来看。第一个维度是2D和3D的分别。2D一般指通过摄像头捕捉到的数据,3D指激光雷达捕捉到的数据。第二个维度是语义分割(semantic segmentation)与画框(bounding box)的分别。

3D语义分割的例子鱼和熊掌不可兼得数据标注的难点主要来源于两个方面:速度与质量。速度慢了就满足不了模型训练的需求,而太快就会影响质量,质量低了就会影响模型的准确性。在资源有限的情况下,速度与质量往往鱼和熊掌不可兼得。我们可以通过两种手段来解决这一矛盾:合理的流程和更自动化的机器学习技术。首先来看流程。数据标识速度慢,或是质量低,其实很多时候不是技术的问题,而是流程的问题。数据从采集到产出,首先要被“筛选”,分发到数据标识人员的手上,然后被标识,标识的结果再被传回来,最后需要抽检,保证质量。这些步骤中很多地方需要改进。比如,哪类数据应该被筛选?质量不合格的标识该怎么办?是否要退回重做?重做又需要时间,不重做就意味着需要更多的数据。对于资金不够充足的公司,改进流程往往是最合适的手段。从技术方面来看,近年来,AutoML(Automated Machine Learning)的概念越来越火,即端到端的全自动机器学习技术,可以自主调参,自主评估模型,从而缩短模型训练的周期。但是,AutoML不是万能的。至少在未来几年里,我们都无法摆脱对人工数据标识的依赖。我们需要找到一种人机共生的方式,将人类对机器的帮助最大化。

欧洲数据标识市场中,人工标识的占比始终占大多数人机共生(Human-in-the-Loop)2020-2030这十年,将是人类探索与AI合作机会的十年。数据标注就是人类与AI合作最完美的途径之一。利用机器学习技术进行视觉探测,虽然成本低、速度快,但是往往有一定的错误率。这时,就需要人类介入,告诉机器错在了哪里。机器会记住这些人类提供的回馈信息,进一步训练自己的模型,避免下次在类似场景中犯同样的错误,从而形成了一个循环。比如,AI探测结果是,某个交通信号灯的颜色是红色,而人类检查后发现应该是绿色,就通过某个前端工具点击“错误”。开发团队要尽快找到模型最需要的反馈信息,为人类标注员提供一个工具,将人类的反馈快速分享给机器。
责任编辑:pj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7348

    浏览量

    95016
  • AI
    AI
    +关注

    关注

    91

    文章

    41101

    浏览量

    302579
  • 无人驾驶
    +关注

    关注

    100

    文章

    4309

    浏览量

    127091
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    美的与吉宝携手推出AI智能模块化制冷解决方案,覆盖亚洲市场

    新加坡2026年4月14日 /美通社/ -- 美的集团旗下的美的楼宇科技与新加坡吉宝有限公司基础设施部正式签署战略合作协议,双方将共同开发面向亚洲市场的AI驱动、节能高效的模块化制冷解
    的头像 发表于 04-15 16:39 113次阅读
    <b class='flag-5'>美的</b>与吉宝携手推出<b class='flag-5'>AI</b>智能模块化制冷解决方案,覆盖亚洲市场

    论马斯克的预言:AI使人类边缘化

    当地时间3月11日,在“Abundance Summit”科技峰会上,马斯克谈及AI进展时表示,AI已经进入自我改进阶段,在超高量级AI面前,人类终将走向边缘化。以下是对这
    发表于 03-14 05:27

    自动驾驶数据标注是所有信息都要标注吗?

    [首发于智驾最前沿微信公众号]数据标注对于自动驾驶来说,就像是老师教小朋友知识,数据标注可以让车辆学习辨别道路交通信息的能力。摄像头、雷达、激光雷达(LiDAR)拍下来的只是
    的头像 发表于 12-04 09:05 1150次阅读
    自动驾驶<b class='flag-5'>数据</b><b class='flag-5'>标注</b>是所有信息都要<b class='flag-5'>标注</b>吗?

    算法工程师不愿做标注工作,怎么办?

    对于算法而言,图像标注项关键性工作,越是大量的新数据标注,对于算法的性能提升越有帮助。但是图像标注
    的头像 发表于 12-02 17:56 693次阅读
    算法工程师不愿做<b class='flag-5'>标注</b>工作,怎么办?

    库拉岗日雪山:读懂美的AI版图

    “科技月”三十年,美的AI筑起库拉岗日雪山
    的头像 发表于 11-03 19:52 9714次阅读
    库拉岗日雪山:读懂<b class='flag-5'>美的</b><b class='flag-5'>AI</b>版图

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    AI被赋予了人的智能,科学家们希望在没有人类的引导下,AI自主的提出科学假设,诺贝尔奖级别的假设哦。 AI驱动科学被认为是科学发现的第五个范式了,与实验科学、理论科学、计算科学、
    发表于 09-17 11:45

    AI Cube如何导入数据集?

    我从在线平台标注完并且下载了数据集,也按照ai cube的要求修改了文件夹名称,但是导入提示 不知道是什么原因,我该怎么办? 以下是我修改后的文件夹目录
    发表于 08-11 08:12

    自动驾驶数据标注主要是标注什么?

    [首发于智驾最前沿微信公众号]在自动驾驶系统的研发过程中,数据标注是实现高性能感知模型的基础环节,其核心目标是将车辆从环境中采集到的原始感知数据(主要包括图像、点云、视频序列等)转化为具有语义信息
    的头像 发表于 07-30 11:54 1615次阅读
    自动驾驶<b class='flag-5'>数据</b><b class='flag-5'>标注</b>主要是<b class='flag-5'>标注</b>什么?

    什么是自动驾驶数据标注?如何好做数据标注

    [首发于智驾最前沿微信公众号]在自动驾驶系统的开发过程中,数据标注项至关重要的工作。它不仅决定了模型训练的质量,也直接影响了车辆感知、决策与控制的性能表现。随着传感器种类和数据量的
    的头像 发表于 07-09 09:19 1633次阅读
    什么是自动驾驶<b class='flag-5'>数据</b><b class='flag-5'>标注</b>?如何好做<b class='flag-5'>数据</b><b class='flag-5'>标注</b>?

    任正非说 AI已经确定是第四次工业革命 那么如何从容地加入进来呢?

    GitHub等平台上寻找感兴趣的AI开源项目。例如,可以参与些小型的深度学习框架改进项目,或者数据标注工具的开发项目。通过参与这些项目,可以学习到实际的代码开发规范,与其他开发者交流
    发表于 07-08 17:44

    数据标注与大模型的双向赋能:效率与性能的跃升

    其自动化能力,反过来推动数据标注效率实现数倍增长,开启人工智能发展的全新篇章。数据标注大模型性能的基石大模型的性能高度依赖于训练
    的头像 发表于 06-04 17:15 2215次阅读
    <b class='flag-5'>数据</b><b class='flag-5'>标注</b>与大模型的双向赋能:效率与性能的跃升

    AI时代 图像标注不要没苦硬吃

    识别算法的性能提升依靠大量的图像标注,传统模式下,需要人工对同类型数据集进行步步手动拉框,这个过程的痛苦只有做过的人才知道。越多素材的数据集对于算法的提升越有帮助,常规情况下,
    的头像 发表于 05-20 17:54 638次阅读
    <b class='flag-5'>AI</b>时代   图像<b class='flag-5'>标注</b>不要没苦硬吃

    东软集团入选国家数据数据标注优秀案例

    近日,东软飞标医学影像标注平台在国家数据局发布数据标注优秀案例集名单中排名第(案例名称“多模态医学影像智能
    的头像 发表于 05-09 14:37 1413次阅读

    海信集团与美的集团签订战略合作协议

    近日,海信集团与美的集团签订战略合作协议,双方将围绕AI应用、全球先进制造、智慧物流等多领域开展全面战略合作,以资源共享、互惠互利与协同创新为基础,开启
    的头像 发表于 05-08 15:59 1076次阅读

    标贝科技“4D-BEV上亿点云标注系统”入选国家数据局首批数据标注优秀案例

    4月29日,作为第八届数字中国建设峰会的重要组成部分,由国家数据局主办的高质量数据集和数据标注主题交流活动在福州市数字中国会展中心举行。会议交流活动聚焦“推动高质量
    的头像 发表于 04-30 14:38 839次阅读
    标贝科技“4D-BEV上亿点云<b class='flag-5'>标注</b>系统”入选国家<b class='flag-5'>数据</b>局首批<b class='flag-5'>数据</b><b class='flag-5'>标注</b>优秀案例