人工智能背后的“人工”:数据标注时薪缩水一半,欠薪高发

“我感到兼职标注会越来越轻易被替代掉落。”来自广东河源的27岁宝妈西梅(化名)对本身数据标注兼职有一种淡淡的消极。从2018年兼职数据标注,西梅的收入已经大年夜不如前。

生活在贵州百鸟河小镇上的杜珉旭,是数据办事商梦动科技公司的项目组组长,除了天天协同组员完成数据标注项目,他还会抽出时光自学python说话。

西梅和杜珉旭都是AI数据标注员,这是一个需求宏大年夜却又曾备受争议的职业。

标注行业给算法供给大年夜量的练习数据。据IDC统计,全球每年临盆的数据量将从2016年的16.1ZB猛增至2025年的163ZB,个中80%~90%长短构造化数据,这些数据经由清洗与标注变成了构造化数据,才能被人工智能所懂得。2020年2月,“人工智能练习师”已正式成为新职业并纳入国度职业分类目次。

业内往往说,“有若干智能,背后就有若干人工”。门槛较低,又须要大年夜量反复的工作,这一行业生来就属于劳动密集型家当。为了降低人工成本,它多半存在于一些偏远的地区,因而往往与家当扶贫接洽起来。而反复逝世板的劳动,加之过低的工资,又被人称“AI富士康”。

机械智能成长到必定阶段后,人工是否会见临镌汰,假如镌汰那相干的劳动力又何处安顿?自数据标注行业出生,担心与争议就没停过。如今,跟着数据标注行业迭代进级,这些不合工作情势的数据标注员,都面对着才能进级的考验。

入行门槛低

前数据标注发卖人员黄明(化名)对第一财经记者表示,作为劳动密集型家当,标注基地的员工实际上与在工厂上班的人毫无差别。在他看来,一世界来坐在电脑前标注,既繁琐反复,又给人体尤其是眼睛造成较大年夜毁伤,工资还不高。

对于仍然从事数据标注的受访者来说,他们看法和黄明不尽雷同。尽管这份工作在很多人眼里看似逝世板乏味,他们照样能找到和本身生活、爱好的结合点。

两年前,西梅因为怀孕而不便利正常上班。她不肯跟随丈夫从事养殖业,辞去淘宝客服的工作后,在收集搜刮“兼职”时发清楚明了一家名为“爱标客”的网站,也就从那时起,西梅开端接触了数据标注行业。

爱标客是科大年夜讯飞旗下、连接标客和义务治理用户的办事型众包平台,为了知足其资本部或其他合作方数据标注、收集等简单工作而对外发放兼职。

2018年刚入行时,爱标客一些简单的打框和转写校准项目,时薪在25到40元之间,一个月下来,西梅收入比早前全职做淘宝客服还高。“我比较爱好打框,这个过程可以边听音乐边操作,方言转写校准其实是太考验人的耐性,我对声音不敏感。”西梅对第一财经记者表示。

第一财经记者登录“爱标客”网站,发清楚明了方言转写校准、数学解答题检查、冷僻字筛选等义务,须要先申请参加团队才能领取。个中,示例视频显示,转写校准主如果调剂语音频谱和语气空格,用于校准机械转写的精确度。

西梅称,后来跟着做兼职标注的人越来越多,甲方赓续地压价,爱标客今朝大年夜部分项目时薪最多只有10到15元,有时刻可能连10元都不到。

因为时薪降低,她开端参加各类QQ群,寻找其他外包工作,今朝时薪大年夜约为20元,一个月下来能挣2000元到3000元不等。“养家糊口是弗成能的,然则起码能做点工作赚些钱。”西梅表示。

比拟西梅兼职的标注工作,杜珉旭作为梦动科技公司的项目组的组长,一个月3000到4000不等的月薪,似乎高不了太多。但作为企业的数据标注正式员工,杜珉旭的精力状况显得更自负满满。

早在贵州平易近族大年夜学读汗青学专业、邻近卒业时,杜珉旭就已经在梦动科技练习。他卒业后选择在梦动科技成为数据标注员,一方面是因为对人工智能的好奇,另一方面则因为应聘的是项目组组长,可以积聚治理经验。

在梦动科技,杜珉旭的重要工作是项目测试,与客户沟通,同时给组里标注员培训,解决项目上的一些问题。日常平凡工作强度不算高,双休以及有时加班,公司不仅供给免费住宿,治理层住宿还供给空调、冰箱、洗衣机,让他在生活方面有所保障。

杜珉旭对第一财经表示,在梦动科技从事这项工作的同事,精力状况各有不合。约30%的练习同事对人工智能项目、大年夜数据行业等都颇感兴趣。但作为劳动密集型行业,反复性标注或录制的过程较为逝世板,也使得有些同事未能适应职业而分开,岗亭流动率约为10%。

杜珉旭称,这部分人在做数据标注中,往往对行业懂得比较浅近,有些仅是为了挣钱,对行业动态则较少存眷。

黄明后来跳槽到了一家做激光雷达的创业公司做发卖。在他看来,数据标注行业好处之一,是能对接到很多高端企业,以最低门槛接触到人工智能范畴。

他们的共鸣是,对于带孩子的宝妈、农村待业人士,甚至一些残障人士,数据标注员不掉为一份可以接收的工作。

众包模式下质量与权益问题俱增

中国的数据标注行业最早可追溯到2005年,有名计算机视觉专家、人工智能专家朱纯松从美国回到了故乡湖北鄂州,创办了莲花山研究院,筹建据称是当时世界上最早的大年夜数据标注团队。

2015年,跟着人工智能巨擘的崛起,数据标注和采集需求激增,市场真正意义上开端形成。很多半据办事公司作为乙方进入到日益扩大年夜的市场,为百度、阿里等大年夜型互联网公司,以及AI独角兽企业等办事。

截至今朝,数据标注家当已经遍布全国,以第三方数据办事商、巨擘安排基地和众包模式出现,例如百度山西的AI数据标注基地、贵州百鸟河的梦动科技、河北和安徽的数据堂基地,以及河南的千机数据、睿金科技,河北涞源县东团堡村等。

梦动科技数据办事事业部总监曾芸对第一财经记者介绍,梦动属于自力的数据办事商,联动贵州盛华职业学院,对学生以产教融合的方法进行数据标注的教授教化和培养,从大年夜量的练习生开端,逐渐提拔出可以或许适应数据标注员工作的正式员工与治理人员。

而如同西梅的“兼职工作”,数据标注最开端的蛮荒成长,由“众包”模式而鼓起。这些众包平台上一端对接项目需求公司,另一端对接大年夜量有空余时光的自愿者(兼职人员)。这种众包构造的长处是可以组织社会上的大年夜量兼职人员进行标注,节俭公司的运营成本。

众包存在的弊病也较为明显,分散的兼职人员,专业背景和工作才能参差不齐,沟通成本昂扬,数据保密也相对艰苦。一旦需求公司要调剂原有标注需求,兼职人员流动性大年夜,无法灵活办事需求公司。

西梅告诉第一财经,本年3月份疫情岑岭时,她曾约到一家外包公司,据称当时一天大年夜约数据产值能达200元,算下来一个月五六千阁下工资。但真正开端测试时对方就在一向地催产量,后情因为数据验收不合格打回来返工,一个半月的时光返工了两次,最后西梅仅拿到了400多元。

据懂得,众包模式的资本对接往往经由过程一些微信群或QQ群。记者在QQ上搜刮“数据标注”,发清楚明了兼职群、项目资本对接群,经验交换分享群等大年夜大年夜小小的数据标注群。顺手参加了几个群跋文者发明,群内都比较活泼:群友们经常宣布项目,寻找兼职,并且每隔一段时光都邑有新成员参加。同时,记者时不时地在群里看到一些标注员被项目甲方拖欠标注工资的投诉。

众包模式也是大年夜量数据标注员工资广泛较低的原因之一。黄明对第一财经表示,经由多层中介后,每个中介都在赚差价,因而导致的甲方成本较高,实际上真正标注的人挣的钱就比较少。

一些做得好的数据标注员则更偏向于筹划组建团队,寻找资本单干。而这些情况越多,一方面使得数据标注行业成长快速,另一方面则造成了行业众包中介层叠越来越严重。

对于数据标注员而言,行业的转型进级也意味着自身才能的转型进级。中国信通院申报指出,现阶段AI应用研发,数据标注是根本,10年之内都要依附于标注数据。

至于机械什么时刻可以或许代替身工数据标注,至今仍没有人能说出明白谜底。但第一财经记者看到,在数据标注各种各样的QQ群里,依然天天赓续出现新的项目需乞降小我兼职的信息,依然赓续有存眷数据标注行业的大年夜量评论辩论。

第一财经告白合作, 请点击这里

此内容为第一财经原创,著作权归第一财经所有。未经第一财经籍面授权,不得以任何方法加以应用,包含转载、摘编、复制或建立镜像。第一财经保存穷究侵权者司法义务的权力。 如需获得授权请接洽第一财经版权部:021-22002972或021-22002335;banquan@yicai.com。

文章作者

    易柏伶