数据标注员 隐身于人工智能背后的工兵

图像标注员在屏幕上标出汽车位置。

当人们向智能设备发出一条语音指令、拍张照片供设备识别时,一般不会想到,这背后有大量人枯燥而繁琐的工作。做这类工作的人被称为“数据标注员”。

疫情防控期间,哈尔滨有这样一群人,他们选择了不用到单位打卡,工作时间自由的工作。他们通过平台或群领受任务,然后将任务完成并领取报酬,工作程序和工作效果都是“看不见”的,就像是存在于AI和数字经济背后的“幽灵工作”。可是,当前数据标注行业对人力需求极大,这一新兴行业正蕴藏着巨大的就业和创业机会。

语音标注员:将“牛德华”变成“刘德华”

语音标注员每天要听海量的录音。

蒋齐是一名语音标注员,这是一个随着智能语音交互设备的普及而新出现的职业。他的主要工作就是将智能语音交互设备无法识别的字、词、句子进行标注,然后“翻译”过来,再发送回去以便智能设备进行学习。

这个看起来高大上的工作,蒋齐说其实很简单,“比如一个有口音的人对智能音箱或交互设备说‘播放一首牛德华的歌’,智能设备需要分析出用户真正的意思是想要听一首刘德华的歌。”蒋齐的工作就是将设备收集到的语音“牛德华”标注成刘德华,再发回给智能设备研发单位,供智能设备进行学习,使智能设备下次听到“牛德华”时,能准确地转化为“刘德华”。

蒋齐每天在群里领取包含各种词、句的数据包,然后进行标注。他每次在群里领取一个包含150条语音的数据包,完成对数据包内语音的标注后再领取下一个数据包。

为了能够完成更多的任务,蒋齐平时很少参加娱乐活动。“我最后一次和别人在外面吃饭还是去年秋天几个同乡约我在楼下的火锅店吃火锅。我平时的时间基本上都用来领数据包做任务。”

蒋齐表示,语音数据标注是一项完全没有技术含量的累活,每标注1个小时的有效时长语音,能得到100元的报酬,一个月可以赚到3000元到3500元。

在BOSS直聘网站上,记者以“数据标注员”为关键词,搜索到近200条相关职位的招聘信息。这些职位大多为兼职岗位,不用到公司上班。一些岗位也不要求应聘者的学历,只要求应聘者能够熟练使用office等办公软件。报酬按有效标注时长给付,多为每小时100元至110元。

记者发现,招聘企业对应聘者只要求能够“对标注结果进行质量评估,并反馈标注结果”“智能语音、图片等相关数据的语义理解及标注”“对已标注数据的清洗、保证标注数据的正确率”。

记者在线向一家招聘企业询问,“什么是数据清洗?”得到的答复是:使用软件对数据进行操作,不是很难。

蒋齐告诉记者,这些招聘单位大多是分包商或数据工厂,他们从AI研发单位拿到数据标注部分的业务,然后,再将这些业务拆解成若干数据包,交给应聘者来完成。除此之外,有些个人可以直接从设备商那里得到这部分业务,然后自己组建团队,建立微信群,由群内的成员来完成。“我现在就是通过微信群领取任务。”

图像标注员:教人工智能认识新世界

工作中的刘佳彤。

今年31岁的刘佳彤,也是一名数据标注员,但她标注的内容不是语音而是图片,偶尔也会标注一些视频影像。她与蒋齐不同的是,她不是通过群来领取任务,而是通过众包平台,“众包平台是开放式的,只要注册并通过在线学习和考核,谁都可以在平台上领取任务。”虽然,刘佳彤和蒋齐标注的数据内容和领取任务的方式不同,但他们都是为那个从未见过的AI在打工。

“图片标注是根据任务要求,在图片上找到需要标注的物品、部位进行框选或标注记号点。比如,一张人脸图片,有的任务只要求将人脸部进行框选,让AI知道被标注的部分是一张人脸。有的任务却要求在人脸图片上标注几十甚至上百个记号点,以此让AI了解哪里是人的眉毛,哪里是眉梢,哪里是眼睛,哪里是内眼角,哪里是外眼角……”刘佳彤说。

虽然刘佳彤从事数据标注的时间还不到一年,但现在她已经是一名成熟的数据标注员,每天都能标注2000到3000张图片。

“在这一行里,每天能标注3000张图片就已经算是高手了。刚入行的人一天也就只能标注一两百张图片。”刘佳彤略带骄傲地说,“每张图片根据任务要求的不同,获取的报酬也不同。只是简单框选人脸这样的任务,标注一张图片需要两三秒钟。如果是标注几十个甚至上百个记号点这样的任务,需要的时间稍微长一些,但报酬也会相应提高,平均每张图片在0.3元至0.4元之间。”

为了获取更高的报酬,数据标注员大多以“工会”“团队”和“群”的形式存在,在一个组织框架内共同完成一项任务。刘佳彤没有加入任何团队或群,因此,她称自己是“独狼”式的数据标注员。

为了完成每天的任务目标,刘佳彤给自己制定了严格的作息时间。每天早上8点钟起床,9点准时坐到电脑前,登录平台领取任务开始工作。每天工作9个小时,吃过午饭后没时间休息。“有时遇到交付时间短的任务,工作时间就要加长,甚至通宵。”刘佳彤说,“如果不严格遵守作息时间,就很难完成任务。”

这项工作可以让刘佳彤平均每个月得到3000元左右的收入。“平台按照数据标注员的标注业绩,每15天通过支付宝或微信给数据标注员结一次账。”

刘佳彤和蒋齐都认为,数据标注是一个没有任何技术含量的工作。“每天要做的只是打开人家的网页,用人家的软件,在上面把人家的数据,按人家的格式给人家处理好,交给人家,作为数据标注员,我接触不到人工智能的任何东西。”

人工智能训练师正式成为新职业

语音和图像标注员……这些躲在AI背后的工人,在国外被称为“幽灵工人”。在任何一个运行的AI项目中,都看不到他们的名字,他们只是AI项目中保障AI运行的“齿轮”。可如今有人却发现,一些“幽灵工作”正在成长为新的创业机会。

随着数字经济的发展,“幽灵工作”越来越多地出现在人们的视野中。不用到公司打卡,工作时间自由,这样的工作越来越受欢迎。然而,“幽灵工作”中的很多缺点也暴露出来,比如,从事“幽灵工作”的人收入不高,没有被认可的专业头衔,没有晋升阶梯,工作随时会被取代,生活缺少稳定与安全感。然而,这种状况正在逐渐被改变。去年2月份,“人工智能训练师”正式成为新职业并纳入国家职业分类目录,其中数据标注员为主要工种之一。这标志着被国外称为“幽灵工作”的数据标注员在中国已经得到了国家层面的认可。

去年7月3日,中国信息通信研究院发布的《中国数字经济发展白皮书(2020年)》(以下简称《白皮书》)中指出,当前数据标注行业需求极大、入场门槛低,整个市场大大小小共上千家企业和作坊,却依然无法满足产业需求。作为新技术需求发展的新业务形态,数据标注岗位对原有就业没有替代效应,而入职门槛相对较低、需求数量众多。

从这份《白皮书》中不难看出,数据清洗、数据标注这些新兴行业中蕴藏着巨大就业和创业机会。“其实,黑龙江并不是数据清洗和数据标注行业的主要集中地。目前这些行业主要集中在山西、河南、河北、内蒙古等地。在当地尤其是一些县城里,数据公司、数据工厂星罗棋布。我认识的绝大部分数据标注员,都在那边的团队里工作。”刘佳彤说,“黑龙江人力资源丰富,人力成本不高,正好符合数据工厂的创业要求。所以我准备在哈市找一个科技企业孵化器,创办一家数据工厂,将数据标注行业中的多个环节整体引入到哈尔滨。”