电子发烧友网报道(文/李弯弯)最近爆火的ChatGPT有多强大,想必大家都已经知晓,它几乎可以生成任何形式的文本,从莎士比亚的十四行诗,到用5岁孩子都能理解的语言描述,以及复杂数学问题,也因此月活跃用户在短短上线两个月就达到1亿。
而强大的ChatGPT背后,离不开一项重要的工作,那就是数据标注。据美媒报道,为了训练ChatGPT,OpenAI的合作伙伴Sama雇佣了肯尼亚、乌干达和印度的外包员工,对庞大的数据库手动进行数据标注。
什么是数据标注
事实上,人工智能是一种可以根据人类需求做出合理行为的计算机程序,要想实现人工智能,就需要把人类的理解能力和判断能力教给计算机,让计算机拥有类似人类的识别能力。在这一过程中,需要计算机模仿人类进行经验学习。
而数据标注就是把需要计算机进行机器学习的的图片、视频等初级数据打上标签,让计算机不断的识别这些初级数据的特征,最终可以让计算机能够自主的识别。
这里涉及到几个概念:1、数据标注,简单来说,就是对文本、图像、音频、视频等数据进行高质量、高精度的处理打标签,来满足机器训练学习的需求。2、标签,就是对需要机器学习的数据进行标识特征、类别和属性等,用于建立数据和机器训练学习的可读数据编码间的联系。3、数据标注员,就是负责对文本、图像、音频、视频等数据进行高质量、高精度的处理打标签的工作人员。
计算机特征数据主要分为图像数据、语音数据、文本数据等。在自然语言处理的需求中,文本数据标注是关键环节,数据标注员需要通过对语句分词的标注、语义判断的标注、情感标注、多音字标注等,为人工智能机器学习提供高准确率的文本语料。
数据标注的流程,首先是从数据采集开始,由于新采集的数据是非结构化的,有些数据不完整,还有不一致、有杂音噪声的数据,需要通过数据清洗,对采集的数据进行筛选、去重、查缺补漏、平滑噪音等操作,将数据清理成适合标注的格式。
接着,数据经过清洗后,就可以进入数据标注的核心环节。在现实的标注工作中,数据管理员会将数据根据不同的需求,将待标注的数据分为不同的数据包任务,每一个数据任务都会有不同的规范和标注形式要求,然后将标注任务分配给多个标注员进行标注工作。
最后,为了提高数据输出的正确率,标注员完成标注工作后,需要质检师对数据进行检验,最终通过质检环节的数据才是可用于训练学习的数据。
庞大的数据标注工作,和低水平的报酬
从ChatGPT来看,虽然对于ChatGPT最后的强大能力来说,数据标注是重要的一环,然而这却是一项工作量及其庞大,报酬却并不高的工作。
虽然ChatGPT的前身GPT-3已经展示出非常强大的语句串联的能力。然而,当时的GPT-3却存在很多弊端,例如内容容易出现暴力、性别歧视等言论。之所以会出现这样的不足之处,是因为AI工具从互联网抓取了数千亿个单词来训练。由于互联网的词汇有不少带有偏见及负面的词汇,因此单纯凭借学习能力无法来清除这些训练数据。
为了获得这些有害内容的标签,OpenAI从2021年11月开始便向一家外包公司发送了数万条文本片段。这家公司便是Sama,Sama总部位于美国旧金山,该公司雇佣了肯尼亚、乌干达和印度的外包员工。大约30多名工作人员被分成三个小组,每个小组都专注于一个主题。据该公司的三名员工表示,他们每9个小时要阅读和标注150~200段文字,这些段落的范围从100个单词到1000多个单词不等。
薪酬方面,Sama为OpenAI雇佣的数据标签员工支付的时薪在1.32美元~2美元之间(约8.99元~13.62元),具体取决于资历和表现。据Sama员工透露,“代理商”是三个小组中最初级的数据标签人员,他们的基本工资为每月2.1万肯尼亚先令(约170美元或者约1158元)。此外,他们每月还能获得约70美元的奖金,如果达到准确性和速度等关键绩效指标,他们还可以获得佣金。
按此计算,一名每天工作9小时的员工预计税后时薪至少能拿1.32美元,如果超额完成所有目标,则最高可达到1.44美元。质量分析师是资历更深的数据标签员工,他们的工作是检查“代理商”的工作,如果他们达到了所有绩效目标,时薪可以拿到2美元。
OpenAI发言人曾在一份声明中证实,Sama在肯尼亚的员工为该公司正在开发的监测有害内容的工具作出了贡献,该工具最终被内置到ChatGPT中。
小结
随着ChatGPT的爆火,人工智能走进了更多人的视野。然而从目前的情况来看,人们印象中的人工智能仍然是很高端的事物,只有科技、互联网巨头企业及专业人士才能涉足的领域。然而人工智能产业链涉及面广泛,其中就包括数据标注。可以看到,人工智能的存在和实现,不仅仅是解放人们的双手,同时从这个层面来看,它对劳动力的需求也是庞大的。
而强大的ChatGPT背后,离不开一项重要的工作,那就是数据标注。据美媒报道,为了训练ChatGPT,OpenAI的合作伙伴Sama雇佣了肯尼亚、乌干达和印度的外包员工,对庞大的数据库手动进行数据标注。
什么是数据标注
事实上,人工智能是一种可以根据人类需求做出合理行为的计算机程序,要想实现人工智能,就需要把人类的理解能力和判断能力教给计算机,让计算机拥有类似人类的识别能力。在这一过程中,需要计算机模仿人类进行经验学习。
而数据标注就是把需要计算机进行机器学习的的图片、视频等初级数据打上标签,让计算机不断的识别这些初级数据的特征,最终可以让计算机能够自主的识别。
这里涉及到几个概念:1、数据标注,简单来说,就是对文本、图像、音频、视频等数据进行高质量、高精度的处理打标签,来满足机器训练学习的需求。2、标签,就是对需要机器学习的数据进行标识特征、类别和属性等,用于建立数据和机器训练学习的可读数据编码间的联系。3、数据标注员,就是负责对文本、图像、音频、视频等数据进行高质量、高精度的处理打标签的工作人员。
计算机特征数据主要分为图像数据、语音数据、文本数据等。在自然语言处理的需求中,文本数据标注是关键环节,数据标注员需要通过对语句分词的标注、语义判断的标注、情感标注、多音字标注等,为人工智能机器学习提供高准确率的文本语料。
数据标注的流程,首先是从数据采集开始,由于新采集的数据是非结构化的,有些数据不完整,还有不一致、有杂音噪声的数据,需要通过数据清洗,对采集的数据进行筛选、去重、查缺补漏、平滑噪音等操作,将数据清理成适合标注的格式。
接着,数据经过清洗后,就可以进入数据标注的核心环节。在现实的标注工作中,数据管理员会将数据根据不同的需求,将待标注的数据分为不同的数据包任务,每一个数据任务都会有不同的规范和标注形式要求,然后将标注任务分配给多个标注员进行标注工作。
最后,为了提高数据输出的正确率,标注员完成标注工作后,需要质检师对数据进行检验,最终通过质检环节的数据才是可用于训练学习的数据。
庞大的数据标注工作,和低水平的报酬
从ChatGPT来看,虽然对于ChatGPT最后的强大能力来说,数据标注是重要的一环,然而这却是一项工作量及其庞大,报酬却并不高的工作。
虽然ChatGPT的前身GPT-3已经展示出非常强大的语句串联的能力。然而,当时的GPT-3却存在很多弊端,例如内容容易出现暴力、性别歧视等言论。之所以会出现这样的不足之处,是因为AI工具从互联网抓取了数千亿个单词来训练。由于互联网的词汇有不少带有偏见及负面的词汇,因此单纯凭借学习能力无法来清除这些训练数据。
为了获得这些有害内容的标签,OpenAI从2021年11月开始便向一家外包公司发送了数万条文本片段。这家公司便是Sama,Sama总部位于美国旧金山,该公司雇佣了肯尼亚、乌干达和印度的外包员工。大约30多名工作人员被分成三个小组,每个小组都专注于一个主题。据该公司的三名员工表示,他们每9个小时要阅读和标注150~200段文字,这些段落的范围从100个单词到1000多个单词不等。
薪酬方面,Sama为OpenAI雇佣的数据标签员工支付的时薪在1.32美元~2美元之间(约8.99元~13.62元),具体取决于资历和表现。据Sama员工透露,“代理商”是三个小组中最初级的数据标签人员,他们的基本工资为每月2.1万肯尼亚先令(约170美元或者约1158元)。此外,他们每月还能获得约70美元的奖金,如果达到准确性和速度等关键绩效指标,他们还可以获得佣金。
按此计算,一名每天工作9小时的员工预计税后时薪至少能拿1.32美元,如果超额完成所有目标,则最高可达到1.44美元。质量分析师是资历更深的数据标签员工,他们的工作是检查“代理商”的工作,如果他们达到了所有绩效目标,时薪可以拿到2美元。
OpenAI发言人曾在一份声明中证实,Sama在肯尼亚的员工为该公司正在开发的监测有害内容的工具作出了贡献,该工具最终被内置到ChatGPT中。
小结
随着ChatGPT的爆火,人工智能走进了更多人的视野。然而从目前的情况来看,人们印象中的人工智能仍然是很高端的事物,只有科技、互联网巨头企业及专业人士才能涉足的领域。然而人工智能产业链涉及面广泛,其中就包括数据标注。可以看到,人工智能的存在和实现,不仅仅是解放人们的双手,同时从这个层面来看,它对劳动力的需求也是庞大的。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
ChatGPT
+关注
关注
29文章
1542浏览量
7331
发布评论请先 登录
相关推荐
怎样搭建基于 ChatGPT 的聊天系统
搭建一个基于ChatGPT的聊天系统是一个涉及多个步骤的过程,包括理解ChatGPT的API、设计用户界面、处理数据和集成ChatGPT模型。以下是一个简化的指南,用于创建一个基本的聊
ChatGPT背后的AI背景、技术门道和商业应用
作者:京东科技 李俊兵 各位看官好,我是球神(江湖代号)。 自去年11月30日ChatGPT问世以来,迅速爆火出圈。 起初我依然以为这是和当年Transformer, Bert一样的“热点”模型
基于FPA的软件工作量综合评估研究与实践
在软件工程监理项目中如何对软件开发系统进行工作量评估,如何在实施过程中对承建单位已完成的工作量进行审核是实施信息化项目的难题。本文在分析专家经验评估法、FPA功能点分析法等方法的基础上,给出了一种
发表于 10-15 10:45
•0次下载
降压转换器电容器集成可减少满足CISPR 25 5类标准所需的工作量
电子发烧友网站提供《降压转换器电容器集成可减少满足CISPR 25 5类标准所需的工作量.pdf》资料免费下载
发表于 08-27 10:41
•0次下载
用launch pad烧录chatgpt_demo项目会有api key报错的原因?
我用launch pad烧录chatgpt_demo项目问题会有api key报错;请问用launch pad要如何设置api key和调试?还是只能通过idf?
发表于 06-27 07:59
使用espbox lite进行chatgpt_demo的烧录报错是什么原因?
我使用espbox lite进行chatgpt_demo的烧录
我的idf是v5.1release版本的,espbox是master版本的
在编译时似乎没有什么问题
在烧录时报错
请问这是什么原因
发表于 06-11 08:45
OpenAI 深夜抛出王炸 “ChatGPT- 4o”, “她” 来了
无缝切换的场景为特色,高精度处理细微的查询。
· 实时数据分析和报告 :在特别引起业务分析师共鸣的演示中,ChatGPT-4o处理了大型数据集,以提取可操作的见解,具备显著加快决策的潜力。
新功能摘要
发表于 05-27 15:43
在FPGA设计中是否可以应用ChatGPT生成想要的程序呢
当下AI人工智能崛起,很多开发领域都可看到ChatGPT的身影,FPGA设计中,是否也可以用ChatGPT辅助设计呢?
发表于 03-28 23:41
【国产FPGA+OMAPL138开发板体验】(原创)6.FPGA连接ChatGPT 4
OMAP-L138(定点/浮点DSP C674x+ARM9)+ FPGA处理器的开发板。
编写一个用于FPGA访问ChatGPT 4的程序代码是一个相当复杂的任务,涉及到硬件设计、网络通信、数据处理等多个
发表于 02-14 21:58
led发光模块的地线可以标注为什么
LED发光模块是一种常见的电子元件,用于将电能转化为光能。地线是模块中一个重要的接线点,起到连接模块与地面的作用,以确保电路的正常工作。本文将详细介绍LED发光模块的地线标注的原因和意义,以及
芯科技,解密ChatGPT畅聊之算力芯片
的GPU服务器,尤其是英伟达的A100 GPU,提供了强大而精确的计算能力。ChatGPT的功能远超日常对话,它能够学习、理解并生成人类般的文本,是人工智能领域的一个重要突破。但其真正力量的源泉,是背后那些不断工作的算力芯片,它
图像标注如何提升效率?
图像标注是通过一定方式对图像进行标记分类,是对数据集的图像进行标记以训练机器学习模型的过程。当图像数量可控时,用人工标注就可以很快完成任务,但当有海量的图像信息待标注时,长时间的重复动
ChatGPT原理 ChatGPT模型训练 chatgpt注册流程相关简介
ChatGPT注册没有外国手机号验证怎么办? ChatGPT作为近期火爆网络的AI项目,受到了前所未有的关注。我们可以与AI机器人实时聊天,获得问题的答案。但受ChatGPT服务器及相关政策
ChatGPT如何影响“下一代战争”
一是决策支持参谋。ChatGPT受人工智能驱动,能够不知疲倦地、近乎无限地输出产品和完成复杂工作,隐藏在强大人机交互过程背后的大数据采集和分析,其广度和深度为军事决策者所青睐,可以直接
不到1分钟开发一个GPT应用!各路大神疯狂整活,网友:ChatGPT就是新iPhone
的能力仍然是不可替代的。
此外,ChatGPT等语言模型的应用也需要大量的数据和算力支持,以及专业的技术人员进行开发和维护。因此,虽然ChatGPT等语言模型在某些方面具有一定的优势,但它们并不能完全取代
发表于 11-19 12:06
评论