人工智能数据标注员(一群残障数据标记师的苦与乐)

人工智能数据标注员(一群残障数据标记师的苦与乐)(1)

郭鹏的电脑上是一张街景图,和普通的街景图不同的是,所有的行人、短桩、树木都是以红黄蓝三种颜色组成的。这是一张由激光雷达采集的3D图像。郭鹏选好对应颜色的参照物,用鼠标把偏移最大的参照物进行标注。一张完成后,打开下一张。这是他今天接到的新任务。临近下午,他把所有标注好的图片交给项目经理,等待检验是否合格。

这是郭鹏作为数据标注师,一天需要做的工作。他接触数据标记已经有半年了。和普通数据标注师不同,郭鹏是个残障人士。数据标注是他接触互联网的第一份工作。小时候的一场高烧损坏了他的语言系统,说出来的话像隔了一层毛玻璃,需要很用力才能听懂。左手偶尔会发抖,无法进行精细的技术工作,因此像残疾人多考虑的普工,他也没办法做到。“(数据标记)倒不怕说不清话了,只要脑子灵活,就可以做。”

文│龙扬(香港中文大学)

指导老师|方可成

人工智能数据标注员(一群残障数据标记师的苦与乐)(2)

根据《新中国残疾人权益保障70周年》的报告显示,中国各类残疾人总数达到8500万人,占中国总人口的6.21%。也就是说,每16个人中,就有一个残疾人。而能找到工作的残疾人仅有860万人。

“残疾人打工很难,能干久的很少。”郭鹏于2011年从高中毕业。因为家里的经济压力,他带着一千元离开江西上饶市的砖瓦房,去到深圳和上海,希望能在大城市找到一份合适的工作,跟出门打工的农村子弟一样,每月都能给家里寄钱。“没有公司要我,老板一看到我手抖,话都说不清,根本不会考虑我。”然而,每一次出门闯荡,都以花完了带出来的钱而告终,郭鹏不得已回到家里。“爸妈没说什么,只说让我在家呆着。我也看得出,他们是希望我能自己养活自己的。”

2013年,郭鹏父母从市里的批发超市里淘到一台二手电脑,这是郭鹏第一次通过互联网找工作。他在这台电脑上搜索“残疾人”、“就业”的关键词,查到中国残疾人就业服务中心在北京。为了能尽快找到工作,郭鹏买站票去了一趟北京,向就业服务中心递交了简历,然而几年来并没有回电。愿意接受残疾人的岗位不多,在各大招聘网站上的信息也很少,通常是三、四个月里面才有一个空缺。郭鹏前后做过电话销售,公司保安等,但都不超过半年。“(电话销售)能接通得很少,一般人家是听两句就挂了。”因为没有绩效,郭鹏一个月不到就被老板辞退。郭鹏坦言,跟人交流的时候,就必须一直面对自己的残疾,非常受打击。

“在贴吧上看到有残友招募全职工,我就试着加入了。”郭鹏从去年年底开始接触数据标注,跟着三四个同样有肢体残疾的朋友,加入一家科技服务公司。有底薪,每月根据做的项目单数提成。虽然每个月只有3000左右的工资,相比于半年以前的失业在家,郭鹏很满意数据标记师这个职位。“我是肢体残疾二级,普工也做不了。一台电脑就能赚钱是之前想都不敢想的。”

人工智能数据标注员(一群残障数据标记师的苦与乐)(3)

图│数据标注师模拟工作现场

郭鹏认为,相比于电话销售,他觉得不需要与人接触的工作更适合自己,不用担心别人会对自己的残疾戴有色眼镜。“隔着一台电脑,谁知道你是不是残疾人呢,只要能点鼠标,都是一样的。”

人工智能数据标注员(一群残障数据标记师的苦与乐)(4)

“很多人以为数据标注就是框框图,没有什么技术含量。”郭鹏解释,数据标注的种类有很多。大众所认识的“在图上标框”只是其中的一种,属于2D图片标注的范畴。一开始,郭鹏对数据标记的认识也和大众一样,重复性的劳动和长时间的用眼,构成了这个职业令人望而生畏的名声。

郭鹏的身体残疾使得他与很多职业无缘。长期的失业在家让他愈发暴躁,有一天,母亲在饭桌上提了一嘴亲戚的小孩又换工作了,郭鹏还未等母亲说完,就将饭碗打翻在地,一言不发地走回房间。郭鹏清楚,家庭的压抑氛围是因为自己的失业,不能为家庭承担经济压力,而这一点像悬梁的石磨,不知道什么时候就会落下来压垮这个家。因此,郭鹏在网上看到面向残疾人“数据标记师”的招聘,在简单的了解后,第一反应就是去。

公司的招聘过程并不复杂,简单的面试和培训之后,郭鹏就正式上手,成为一名数据标记师。每天会标注上百张图片,不需要和别人交流,能让他减少很多心理压力。在接触这份行业半年后,他对自己的工作有了新的认识。郭鹏最近正在做的项目是自动驾驶的3D图片识别,区别于2D图片的标注,3D图片标注更接近无人驾驶时代的需要。他承认自己的工作是重复性的,但不认为数据标注是没有意义的。“机器是需要学习的,我就像它的老师一样,一遍一遍的教它,它才能学会。”

人工智能数据标注员(一群残障数据标记师的苦与乐)(5)

图│数据标注工作现场

人工智能的浪潮催生了这个行业,需要标注的领域越来越多,比如翻译软件的语音识别,过安检的人脸识别,国家天眼系统等。2021年,人社部发布了《人工智能训练师》国家职业技能标准。其中包含了对数据标注师的技能要求,职业鉴定趋向规模化和标准化。残疾人的职业培训是残疾人非常重要的找工作渠道,而被视作热门职业的数据标注也需要有一定的职业培训,才能快速上手。未来被人工智能替代的劳动力,都将面临能力升级的考验。

“数据标注的种类有很多。比如有些医学图片,需要了解基本的医学知识才能上手标注。”中国信通院报告指出,目前的AI研究发展需要大量优质数据来支撑,未来10年之内都要依赖于数据标注。人工智能的学习仍有很长的过程,作为“人工智能”背后的“人工”,郭鹏认为,只要提升自己的知识,就不会被替代。“老师也要不断学习,不然学生(机器)学会了,那老师自然就失业了”。

郭鹏的家离公司不远,下班了之后可以直接步行回家。他会在路上帮母亲买些葱蒜,或者让隔壁家的阿姨帮忙介绍相亲对象。母亲已经准备好饭菜等着他,父亲坐在一旁抽烟。在饭桌上,郭鹏发现,自己从一个一直听父母讲话的孩子,渐渐变得有话可讲,成为有话语权的大人了。

人工智能数据标注员(一群残障数据标记师的苦与乐)(6)

今年年初,国务院发布“东数西算”政策,将人工智能背后的数据标注推向大众的视野,越来越多的人加入数据标记行业。因为人工智能的标注内容繁多,一个项目往往需要很多的标记师来同时进行。为了能够更好地管理零散的员工,众包平台于是应运而生。众包平台接收甲方的标注业务,然后委派给平台下的数据标记师们,是人工智能和数据标记师的“中介方”。

郭鹏曾想加入类似于静工会这样的大平台,但无奈于没有途径。笔者在各大平台搜索关键词,加入开放群组,但群内的信息全部来源于自动回复助手,成员只能被动接收派发的零散任务,不能主动询问相关事宜。多名群组成员表示,不知道从哪里接单入门。

除了大公司的数据标注服务平台,也有许多小型众包平台在开放招聘数据标记师。而往往大小公司的矛盾共存。小型数据标注公司由于缺少设备和技术支持,逐渐向大公司靠拢;大平台迫于高昂的人力成本,需要向小型公司外包业务。

人工智能数据标注员(一群残障数据标记师的苦与乐)(7)

图│网络平台上的数据招工群组

陈宇飞所在的这家公司就是一家以“残疾人就业”为宣传的小型众包公司。虽然出生就是聋哑人,但是他的父母没有放弃,仍然供养他学习。从小到大,陈宇飞一直在健全人的学校学习,并没有接触过太多残疾人的组织。在他的心里,自己和健全人并没有区别。老师上课他听不懂,他会课后向同学借笔记抄写;有别的班级同学来嘲笑他听不见,同桌会用课本把他们赶跑;在课上,他会和自己的好朋友们传递纸条,讨论放学之后去哪里玩。寻找数据标注的工作,是陈宇飞19年以来,第一次从残疾人的视角去寻找群体。

周围的同学们在招聘网站上陆续找到工作,而陈宇飞的简历却石沉大海,他不得不将目光投向标有“仅限残疾人”的岗位。一直以来跟健全人相处,陈宇飞只有在找工作的时候,才意识到自己的残疾是多么不便。当一家贵州的众包公司向陈宇飞发起邀请的时候,陈宇飞没有犹豫太久就答应了。公司承诺他每月4500的底薪,以及根据项目数量的加成,这比很多同龄人的工资都要高。

然而,高薪的前提是要交一万五千的“加盟费”。公司给出的理由是,公司接受的零基础的散工,前期需要投入时间培训新人和专人指导,需要加盟费来回本。一旦做成熟练工种之后,就可以退还加盟费。

“都是骗子。”谈到众包公司,陈宇飞年轻的脸上充满了愤怒,“半年了,每个月只有主动去问,才会给一点项目。到头来又说因为没有做够项目,不肯退我的加盟费。”

陈宇飞并不是唯一一个被骗的残疾人,他在网上找到了类似的受骗者组织,其中最高被骗的加盟费达到29800元。“打电话也没用,问题就是拖。”陈宇飞表示,父母都是普通工人,高昂的加盟费是自己向朋友借款凑出来的。“本来以为找到互联网工作了,多洋气。结果钱没挣到,现在都不敢面对朋友了。”

从整个数据标注赛道来看,这个之前被低估的行业,正在向社会展现它的可能性。而如何在快速发展的现状中,开拓出一条合适且安全的上升通道,这是数据标记行业目前仍然需要思考的问题。

人工智能数据标注员(一群残障数据标记师的苦与乐)(8)

“如果可以的话,我想我会更早离开。”

27岁的欣子在上个月刚刚从数据标记公司辞职。她最初在网上查到一家小型众包公司的招聘信息,虽然没有任何的相关知识,但她仍然应聘成功,做起了数据标记。这是一家专门针对残疾人的众包公司,以5000元的月薪和提供技术培训为招聘亮点,吸引了很多符合条件的残疾人前往。“也不能说是骗人,毕竟那里真的有那么多残疾人。但是薪水绝对没有那么高,底薪是两千元,会根据标记的数量和完成度来加钱。只能勉强解决温饱问题,但是再多的钱就没有了。”

一开始,欣子的丈夫也很支持她的工作。身为聋哑人的丈夫,他亲眼见过妻子在找工作上的坎坷,因此他在了解到数据标记公司的时候,他鼓励妻子坚持做下来。欣子丈夫期待着欣子能够和健全人一样,体会工作和生活,通过劳动获得报酬。

想要挣到更多的钱,就要多做,而这往往导致的就是大量的加班和工作。“公司说的很好听,有双休,朝九晚六。但实际上为了完成任务,每天都要加班。完不成任务量就没钱。”公司旁边有员工宿舍,欣子为了节省时间,多标记几张图片,搬到了宿舍居住,只能在每个周末回家,看看丈夫和女儿。自从女儿出生,欣子第一次离开这么久。刚上小学的女儿偶尔会在视频通话里问妈妈什么时候回来,欣子也只是告诉她,快了,快了。

随着欣子在数据标记的练习越来越多,她也逐渐熟悉这一套流程。欣子刚入行的时候,做的是简单的2D标记,在图片上拉框来标注目标物体,每张照片要花费两到三秒,一天下来最多也只能标注两三百张图片。“后来熟练了之后,一天能标注2000张,基本上最熟练的数据标注员一天差不多就是这个量。”

从一开始的生疏到后来的熟练,欣子曾经有过一直做下去的想法,但这个想法没有维持很久。数据标注主要是靠人力堆积起来的费用,人工费用较高,许多数据标注大公司迫于人力成本,不得不将任务外包给小型公司,这也是欣子所在的残疾人公司的主要任务来源。然而这不代表人力标注的前景一帆风顺。

“数据标注员的上升空间很小,尤其对于残疾人来说。很多大公司正在投入人力进行半自动化或者自动化标注算法的研究,单单依靠人力的需求在降低。数据标注是个门槛很低的工作,只要你有电脑,手指能动,做上一段时间也可以成为熟练工。”重复性的劳动让欣子忙得回不了家,她也会问自己:这份工作是我想要的吗?已经在这个行业工作了一年的时间,她却眼见着周围同事一个个离开。有的是承受不住高强度的工作量,有的是找到了别的职位,真正能够做下来的人,只有欣子一个。

在和女儿的又一次视频通话后,欣子决定辞职。当她真正放松下来抱着女儿的时候,她才知道比起繁忙的工作,自己更重视家人的陪伴。欣子仍然在各大招聘网站上投递简历,试图寻找事业和家庭的平衡。

人工智能数据标注员(一群残障数据标记师的苦与乐)(9)

人工智能数据标注员(一群残障数据标记师的苦与乐)(10)

人工智能数据标注员(一群残障数据标记师的苦与乐)(11)

人工智能数据标注员(一群残障数据标记师的苦与乐)(12)

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页