DC推出新版块【DC幕后】
探索数据与人工智能领域新闻背后的人和事
2021年3月23日,百度在港股二次上市,曾经的三巨头之首重返前线,决心通过人工智能实现弯道超车,再现辉煌。
为了彰显All in AI的决心与完整的AI产业链,百度请来两位人工智能业务底层员工参与上市敲钟仪式,百度山西数据标注基地标注师郭梅便是其中之一。
数据标注师作为人工智能兴起后的新工种,去年被人社部正式认定为16个新兴职业之一。官方背书,港股敲钟,网络世界的赞誉与展望,为数据标注披上一层金色的外衣,从概念发展为新职业,短短四年时间从业人数超过20万,甚至有统计称从业人员突破百万,新的就业热点是通往人工智能领域的阳关道还是独木桥?金色外衣下有怎样的焦虑与希望?这是我们尝试寻找的答案。
AI的进化依赖于训练,就像学生刷题,源源不断的输入带给AI举一反三的能力,用来训练的数据集就像学生时代的习题集,一定附带着参考答案,数据标注师就是这套参考答案的提供者。
从1+1到微积分,答案提供者的水平与题目难度成正比。最简单的数据标注包括图像标注、简单文本标注、普通话语音标注等。
人物图像标注的工作就是框选或勾勒物体的轮廓
这种简单的标注任务不要求标注者具备独特的知识或技能,有从业者戏称“有手就行”,招聘网站中对数据标注员的岗位要求通常集中于年龄、专注力、合作意识上,对技能甚至学历往往不做限制。
图片来源于某招聘网站
复杂的数据标注则要求标注者具备相关行业的专业知识,比如医学影像标注,要求标注者懂得识别病灶;外语或少数民族语言标注要求标注者的语言能力。更高的从业门槛意味着更高的薪资,招聘网站上展示出的月工资标准一般在8000到10000元之间。
图片来源于某招聘网站
数据标注从属于数据基础服务的大分类,是人工智能领域最基础的一环,然而从数据标注到人工智能,隔着一条许多人永远无法渡过的大河。
艾瑞数据统计显示,2025年数据基础服务的市场规模预计达到42.8亿元,反观人工智能核心产业,2025年产业规模有望突破4000亿元。人工智能就像一口大锅,无数资本投入其中,滚滚沸腾,调查显示,2012到2019年间,人工智能领域融资共计4740亿元人民币,整个产业弥漫着人民币的味道。
涌入市场的资本逐级分配,从顶层设计者到中层管理者,从年入百万的算法工程师到月薪三千的数据标注员,红透半边天的产业内同样有徘徊于温饱线的一群人。苹果手机如日中天时,富士康流水线的员工正日夜赶工完成指标,如今数据标注员作为人工智能背后的“AI民工”,同样难以享受产业扩张带来的红利。
过低的职业门槛成为了数据标注员的死穴,让这份工作更像一碗青春饭。“40岁的标注员谁会要呢?”一位前从业者说到。数据标注的晋升途径狭窄,从标注员到质检员,从项目组长到项目经理,升职路径单一,转行困难,缺乏下行空间,标注员成为项目经理的可能性不到百分之一,而且要求天赋与不间断的学习,毕竟流水线从不能带给工人业务知识和管理能力。低门槛必然伴随低薪资,超强的可替代性让一般的数据标注员完全丧失议价能力,即使招聘网站标明的薪资在4K到8K之间,然而社交平台上,从业者表示实际收入远远低于招聘信息上的薪资水平。兼职过渡尚可,对于全职标注员而言,是学习技术深入人工智能的高级领域还是转投其他行业,前路迷雾重重。
随着产业规模的扩大,更多数据标注企业应运而生,入行较早的标注员尚有机会快速实现晋升,还未入行的未来标注员也许只能成为流水线上没有前途的机器。然而,独木桥式的晋升路径并非数据标注员面对的唯一困扰。
无论在社交平台还是搜索引擎,关于数据标注的资讯与广告大多来自于百度、阿里这样的互联网大厂与龙猫数据、AI优评等头部数据服务公司。中小型数据标注企业缺乏广告投放的资本与能力,而对百度、腾讯们而言,自有的信息传播渠道就足以使数据标注行业发扬光大。
AI企业作为需求方,对数据标注最重要的需求是准确,精准的数据是AI落地的基础保证,隔着三四层中间商,作坊式数据标注企业的效率与准确性都缺乏保证,为了解决这些问题,小企业采用了最简单粗暴的方式压榨员工。一些从业人员表示,企业要求他们每天“拉两千个框”,干完才能下班,中间还存在要求变动,导致项目推翻重做。
相比于小企业,头部企业一方面拥有更为专业的项目管理者与检测人员,同时避开了中间商导致的信息错误;另一方面拥有先进的流水线系统与科学标准的加工流程,无疑是提高效率与质量的杀手锏。先进科学的管理体系并不意味大企业就是数据标注员的金饭碗,本就低入尘埃的议价能力在大企业的金字招牌下被完全埋葬,相比于小企业,员工不过是从“野生AI民工”变成“家养AI民工” 。
借助平台与人才优势,众包模式成为大企业垄断市场的另一法宝。经过简单快速的培训,普通人可以随时随地在电脑、手机上完成数据标注任务,作为一份SOHO式的兼职,虽然众包模式存在标注准确性的困扰与数据泄露的风险,但通过网络连接的万千业余标注员数量庞大,成为数据标注行业不可小觑的力量。
龙猫数据众包平台首页
龙头企业的挤压、互联网大厂的降维打击、众包模式的不断优化,让中小型数据标注企业面临巨大的危机。当头部企业进一步占领市场后,各地小企业将会陷入价格战的混乱之中,员工生存环境将进一步恶化。
根据相关统计,目前数据标注企业主要集中于河南、山西等中西部省份,用工、场地成本低廉、距离发达地区较近是主要原因。百度已经在山西建立数据标注基地,各大企业也陆续在相对落后省份建立了自己的数据标注中心,管理维持分散混乱的本地企业与引进大型集团,地方政府的抉择也许并不艰难。
垄断不止是数据标注企业面临的唯一问题,教会徒弟饿死师傅同样是数据标注的梦魇。AI取代人类成为地球的主人也许只是科幻电影的桥段,但AI智能标注取代人工,已经提上了日程。目前AI预标注已经成为许多标注企业的标准流程,作为人工标注的辅助措施,如果AI智能标注彻底实现,对于大厂来说,无非是舍弃一条本就拖沓的业务线,对于头部企业而言,是发展方向也是飞黄腾达的机会,而对于中小企业而言则是覆灭。
大厂、头部企业、中小企业都是数据标注行业的组成部分,大资本入尝政府监管加强,野蛮疯长的时代逐渐过去,标准化、高效化是大势所趋。无论行业如何发展,底层标注员的境遇都未必改观。即使苹果公司跃居世界五百强之首,富士康流水线上厂弟厂妹最终的归宿依然是乡镇。对于数据标注员而言,自我提升远比深耕数据标注技术重要,如何在30岁之后脱离“流水线”,是数据标注员不得不思考的问题。
人工智能天然与城市绑定,城市为人工智能提供了资本支持、人才支持以及市场空间。当人工智能来到温饱线下的小县城,意外地为妇女带来了希望。
2019年,支付宝、蚂蚁金服联合中国妇女发展基金会发起的AI豆计划落户陕西省清涧县,一个国家级贫困县。AI豆计划旨在通过AI+扶贫的模式为贫困人群,尤其是中西部贫困地区的女性、困境群体提供技能教育与就业扶持。
图片来源:清涧县人民政府网站
贫困地区受制于经济、地理等条件,教育水平与就业空间极其有限,传统观念的桎梏更让这一地区的女性长期禁锢在贫困之中。在清涧县政府网站公告中,数据标注被形象地形容为人工智能的妈妈,让数据标注的工作更加贴近扶贫对象留守妈妈、单亲妈妈、返乡妈妈的身份。同时,让这些女性从母亲、妻子的家庭身份中走出来,成为具有一技之长的社会人。数据标注对于高学历人群而言毫无技术含量,但对于这些低学历甚至失学女性而言,学会使用电脑已经是成人再教育的巨大进步。1200元的底薪也许只是城里人一件衣服的价格,对于贫困人群而言则是一笔可观的收入。
另一方面,AI扶贫对于小镇的意义远非提供就业这么简单。在百度标注员郭梅的女儿眼里,妈妈的工作是非常厉害的,能教电脑认识图片,让它认识世界,让没有驾驶员的汽车开起来。信息闭塞是贫困地区教育程度低下的重要原因之一,读书改变命运在广大的农村地区只是一个漂浮在空中的概念。人工智能能让这些女性真正看到科学知识的强大功能与就业前景,作为乡镇儿童教育的第一环,母亲的视野往往决定了孩子的视野,让父母意识到教育的重要性,才能真正解决贫困地区的失学问题。除此之外,让农村母亲认识到女性也可以凭借一技之长自力更生,女性的命运不仅仅局限于嫁做人妇,养育子女,对于缓解贫困地区针对女童的性别歧视问题可能产生重要帮助。AI扶贫带来的不只是脱贫致富,还有走出乡镇的希望。
目前AI豆计划已经落户贵州万山、陕西清涧、遵义等地,清涧县于AI豆落户的第二年成功摘帽,人工智能扶贫初见成效。走进乡镇,是互联网大企业履行社会责任的有效举措,也能让人工智能的流水线拥有更加深刻的人文意义。
人类的“智能”绝不仅是制造工具与使用工具,还是恻隐之心,兼济天下。
十四五规划中,人工智能与量子信息、集成电路成为优先发展的“三驾马车”,数据基础服务作为人工智能产业链的第一环,发展前景广大,虽然中小型数据标注企业和底层标注员困境重重,行业的发展却蓬勃向上。
每一个新兴产业都会经历野蛮生长的时代,规范化总是历史的必然。科技发展消灭一部分工作的同时创造了另一部分工作,如何避免成为科技进步中的垫脚石,是每一个人工智能从业者都要面对的问题,对于数据标注员而言,这个问题迫在眉睫。
当人工智能从写字楼走向小县城,科技产业实现了更高层面的社会贡献,完成了商业利益与人文关怀的高度融合。
当AI不再只是企业的商业项目与技术发展的工具,才能真正成为人文意义上的“智能”。