记者/李一鸣
编辑/杨宝璐
河南商丘生产粮食,还有数据。粮食给人吃,管饱;人加工数据给机器吃,叫“机器学习”。薛再强就是在商丘给自动驾驶做数据的,用他的话说,汽车里有个“傻电脑”,他的工作就是训练“傻电脑”学开车。
就像小麦要打谷筛磨做成面粉才能吃,训练“傻电脑”学开车,就得把影像文字变成可以用代码理解的语言,也就是“数据标注”。让“傻电脑”变成一个会自动驾驶的AI需要把多少图像变成数据?目前业内最广泛的共识是千亿公里。也就是说,至少需要将一千亿公里的路况数据化,才能“培养”出一个可以安全驾驶的AI。拿每公里标注十辆车计算,如果让一个人每秒钟标出一辆车,那么他至少需要三万一千多年;商丘七百多万常住人口,所有人昼夜不休一起干,才能完成这项工作。
就像从零搭建一座结构精密的建筑,每个AI的成长都会经历人工训练的过程。导航语音的生成,智能音箱的应答,人脸支付,动作捕捉……现在,你去问ChatGpt,它也会“亲口”承认,“在我的训练过程中,开发者们还使用了一些人工标注的数据集,以帮助我识别语言中的关键概念和语法规则。这些数据集通常由人类专家进行标注,包括注释句子结构、命名实体识别和情感分析等等。这些标注数据可以帮助我更好地理解自然语言,并使我更准确地执行我的任务。”
据估计,在中国,有约千万名“人类专家”正在给数据“打谷子”。商丘市城西的北航星数字产业园就是这样一座谷场,打开招聘网站,你能找到二十多家公司在商丘招聘数据标注员。AI就从这里开始,睁开眼认识世界。
李亚洲的工作就是“拉框”教AI认识物体
教机器学习
“人工智能的发展离不开数据标注,没有数据标注,就没有人工智能。没有数据标注,就没有无人驾驶、刷脸支付、阿尔法狗、智能音箱。”薛再强的公司招聘广告上这样写着。
但在公司里,坐到电脑前,人们不会把手头的工作和人工智能的美好未来联系到一起。大家说得最多的是“产值”。产值从屏幕里来,电脑前的男人叫李亚洲,屏幕里是他的工作面板,显示出某片街道。但跟镜头和人眼中的景象不同,李亚洲屏幕里的城市被雷达扫描为一个个点,点点密密疏疏堆成不同颜色的云,沉在黑色的布景上,凝结出一些车辆和行道树的模糊形状。
这是机器眼中街市的相貌。李亚洲要做的,是告诉机器,如何认识它所“见”的物质用机器使用的语言。他给一片片云打上标签:自行车、小轿车、客车、货车……至于这是哪里的街道,谁在开车,那不是雷达的扫面范围。
滑动滚轮,拉扯界面,点拖鼠标,他几秒钟就能拉出一个立方体框架,贴住云边。然后,图像上的标签会变成一段坐标数据,传输到服务器上。在下一个数字空间里,一行行代码被输入计算机处理器,AI将要变得和李亚洲一样,认识这一团团点云的含义。薛再强对接过一位科技企业自动驾驶部门项目经理,那人告诉他,就当汽车上有个傻电脑,它啥也不懂,你要把图上大车小车分个类,输入电脑,它才能在汽车移动的时候自动规避它们。
这就是机器学习的过程,从零搭建一座结构精密的建筑。其最基础的工作,就是用鼠标拉出一个个方框,砌出一块块方方正正的砖李亚洲,就是塔下万千砌砖的工人之一。当然,每块砖都没有它的署名。
李亚洲很少说话,开口是浓重的商丘本地口音。他每天上午八九点到办公室,饭盒往桌上一摆,埋头在电脑前一坐至少八小时。这时的他,处在整个人工智能生产系统的最末一环,一辆辆行驶在道路上的数据采集车通过雷达与摄像头将物质世界压成图像,千万个屏幕前的李亚洲操纵鼠标,将图像转写为数据串,汩汩流入算法中枢。这就是从数据采集、数据标注到数据分析的全过程。
一般情况下,要成为一个熟练工,最少要磨合三个月以上。薛再强说,在业内,大家都把工作称为“做题”,一位数据标注员成熟的标志就是题做得又快又好。
李亚洲是公司里走得最晚的人。来公司快一年,他已经掌握车辆标注的规律:高度高的,即便点少也是货车;辅路上长条状的,肯定是两轮。他左手键盘右手鼠标,几秒钟就拉一个框。打标签叫“刷题”,他需要从一个在线标注平台上领取“题包”,再完成标注,目前的项目拉一个框一毛多,他一天能拉千八百个。面前的电脑就是一只打谷机,正在接入一片无边际的数据麦场,重复相同的动作。
这个平台有自动识别功能。李亚洲点击一团点云,系统会自动贴上一个框架。只不过这个框往往贴合得并不完美,有时是一架货车只框住了个车头,有时是框线陷进地面。李亚洲总得往前伸伸脑袋眯眯眼,拉动框线完美地裹住要标注的物体。
他不会埋怨系统的这点“不智能”:“它要能自动识别着,那不就用不着咱了嘛!”
“打螺丝”
踏实、能干、好管理。干这行一年多,从标注员做到项目负责人,薛再强发现,最适合干这行的,就是李亚洲这种人。薛再强管他们叫“闷子”“能出产值的,都是闷子。”
薛再强今年32岁,在数据标注员群体中算年龄大的。他是在2021年7月入行的,在此之前,他在流水线上加工过德克士手枪腿炸鸡,一只只肉鸡吊链条上在眼前巡过,他要眼手不停,一手握刀一手割腿。去过黑砖窑,也干过销售。
后来销售做得不顺,刚好有个朋友说标注行业不错,现在不少人在做。薛再强一听,“数据标注员”“后端”“IT”“技术人员”,感觉挺“高大上”,就去应聘了。
一进公司,摆在他面前的就一台电脑,一份项目规则。研究到中午,主管过来询问:“看懂了?”
“没看懂。”
“没事,一上手就会了。”
主管在电脑上点开“做题”的界面,也就是李亚洲屏幕里的那种3D点云图。他让薛再强按住鼠标,拖动屏幕里的界面,街道旋转起来,路上的车一会儿颠过来一会儿倒过去,“晕不晕?”主管问他。这是标注最基本的考核晕不晕3D。薛再强说,不少人在入职时都倒在了这一关上,一般来面试的,都会被问一句玩不玩CS这种第一人称视角的动作类游戏,如果常玩,留下来的概率就高些。
看着周围一排排电脑前的同事,薛再强明白了,这工作跟在工厂里打螺丝也差不多,只不过是在写字楼里,只要能坚持下去,最起码风吹不倒,雨吹不着。“大家都喜欢这个办公场地。”薛再强说。办公室四米挑高,落地窗,铺着地毯,“说出去,我是在写字楼里办公,坐办公室的!”
干这活儿的人就像他以前玩《地下城与勇士》时那种刷任务养号的:注册一批新号,不停地打怪捡装备刷经验升级,再把升到一定等级的号卖出去。在电脑前坐一天,手粘在鼠标键盘上,能养几百个号。
但这只是第一关。入职第一周要考核,要求每人最低达到80块产值,一个框两毛多,一天得标三四百个。薛再强速度跟不上,抠不出来。
“你这标的都是错的啊”,旁边工位上传来一句。那小孩比薛再强年轻得多,是职校来实习的现在,不少承接数据标注业务的公司,都会和职业学校对接,招需要实习的学生,他们更年轻、便宜。小孩每天大部分时间都在打游戏,中午睡一觉,下午才打开界面,“啪啪”两个小时,800个框,当天的产值完成了。
“天生干这行的料。”薛再强评价道。
跑销售的经验用上了,薛再强没事就给那小孩递烟,让人家教方法,烟冒得多了,“武功秘籍”就套出来了。“还是得心态好。”薛再强说,“你越是紧张兮兮的,一直紧盯着使劲,没用。”活儿多的时候,薛再强跟同事也会在“题海”里找点乐趣。系统里除了点云图,也会给出街景的实拍照片。他们会在路边的行人里偶然发现个“身材不错的美女”,大伙“偷着乐一下”。
“大部分人是不适合做这个,做不下来。”薛再强说。尤其像他这种做过销售的,习惯了和人聊天交朋友,“一下子让你坐那坐一天闷着头跟个机器一样,受不了。”
强大的社交能力让薛再强从标注员做到小组长,又调到商丘这个新成立的分公司做负责人。在这座办公楼里,几乎所有的办公室都属于数据加工的公司。这里是赛博世界的后台,业务五花八门,除了还没能上路的自动驾驶,抖音的自动生成字幕、直播审核、电商平台的商品上架……
薛再强公司楼上还有一家数据处理公司,他们既做数据标注业务,也做审核业务,如给自动驾驶标注图片上的汽车轮子,以及给音乐流媒体做歌词标注就是每天听歌,合着节奏把歌词变成卡拉OK里那样的滚动效果。
最有意思的项目是无人售货柜。它的整个销售过程,就像是有人在ATM机里手动数钱。“付款时如果有些延迟,那就是我们标注的人有点慢。”这家数据处理公司的员工告诉记者,“因为有的人拿东西时会刻意挡着商品,让摄像头拍不清楚他拿的是什么。”
智能看起来也不那么智能了。这家数据处理公司的老板王伟才说出了背后的秘密:AI自动识别的成本是一单三毛,而人工的成本是一毛。经济理性选择了人工。
乙方接到的标注需求
内卷的乙方
人工的低廉,让AI望向了中国的小城。人工智能和数据产业的兴起,让人的认知也被标价。这让众多像王伟才一样的商人发现了机遇,他们纠集人力投入这项产业,搭建起人工智能的感觉器官。
大多数像王伟才一样做数据标注的老板都称呼自己为“乙方”,这是人工智能产业链上的两端:甲方是车企、互联网公司等大集团,乙方则是覆盖着一定数量基层劳动者的数据标注公司。技术,是横在二者中间的沟壑。
大厦里的人提起他时,总会说,“那个名校的老板”。用时髦的话讲,他是一位标准的“连续创业者”。刚上大学时,因为老师说了句“大众创业万众创新”,他就受到召唤,跃入商业的海洋。
他2013年开始创业,做兼职平台起家,给餐馆酒店提供人力渠道。最意气风发的时候,他会和投资人讲这样的故事:中国是世界上人口最多的国家,所以在人力资源服务上,中国应该会诞生世界上最牛的人力资源服务公司。彼时,中国还没有那样一个巨头企业。他觉得自己就是“被历史选中的人”。
但2020年,随着餐饮酒店业进入寒冬,他的公司也遭遇了毁灭性的打击。一个甲方没有结款,现金流断了。他卖了房子抵债,原先八个合伙人就剩他和发小两个。王伟才不得不转行,投入了数据产业。
那时候在线教育红火,他接到了教育企业的拍照搜题系统开发。他可以凭自己的能力走完一整套流程试卷采集,然后找大学生做题。凭这项业务,公司一个月能有一两百万的净利润。
那是他第一次接触到数据产业。看似是大转行,但无论在哪,都少不了对人力的需求哪怕是人工智能这种以替代人工为目的的事业。而在中国,永远不会缺乏如此数量庞大且善于服从的人工。
从2018年到现在,乙方们接受到的数据标注需求就一直在变。语音识别、人脸识别、人体关节打点,然后是自动驾驶,从2D的图片标注,再到3D和4D的点云标注。
薛再强觉得,他们在做的是件为“子孙后代服务”的工作。目前,还没有诞生出市场公认的、成熟的、可被大范围推广的自动驾驶系统。“你这会儿不好好做,到时候他们开的车就是你做的电脑系统。你不能说我做完这个(系统)之后,开个车刚出门啪钻沟里了,那一下子出事了嘛。一旦出问题,害的是你自己的后代。”
但王伟才总是在怀疑,“标注这件事,真的那么有意义?机器不能干吗?我觉得不是机器不能干,只是现在机器没好到那种程度。”王伟才觉得,标注企业更像是外包,“大厂会有一部分任务,自己解决太浪费成本,所以才会放到我们这儿。”
甲方的震动随时会传递到乙方的世界。王伟才告诉记者,2022年,一家互联网巨头的无人驾驶项目大幅收缩,大面积裁员,他的许多同行都因此而没有活儿干,干脆撤出了基地。
在甲方与乙方的交流中,唯一会涉及的技术就是人工成本的核算。薛再强称,接项目时,乙方团队会首先对甲方的项目进行试标注,以此估计人工标注的效率,也就是一天能拉多少框。然后根据用工成本除以拉框效率,得到每个框的成本,以此和甲方协商单个框的价格。
伴随着AI成长的,是甲方对成本的控制越来越精确。李洪昊2018年入行,现在在商丘北航星空数据加工产业园负责招商,同时也有自己的标注团队。他感受到的是,数据标注产业的附加值在变得越来越低。一项技术的成熟,也就意味着这项技术不再需要人工的辅助。现在,没什么人再去接那种语音和文字识别的活儿了,单价太低,根本挣不到钱。“像2D的自动驾驶标注,还有普通话语音标注这种,客户算得很精确,你八个小时往死里赶,产出最多也就是每人每天一百五(元)。”
标注行业和AI研发的核心科技存在着森严的壁垒,以前李洪昊还想,自己也能做点标注以外更高端的业务。但跟甲方一聊才知道,标注之后,图像是以一串数码的形式传到程序员们那里。“咱缺的就是一个转成数码的技术。”去年,他去上海参加人工智能大会,参展方都是科技企业,交流环节,他向那些老板们自我介绍,说自己是做标注的,对方则通常回应:“我们不做这一块”,或者“哦,我们外包出去了”。
替代
壁垒似乎坚不可摧。对于真正“亲手”训练AI的算法工程师们来说,数据标注是个被藏在地下的世界。他们所接手到的,只是一个个被标注后生成的Json文件,而每一串代码,其实代表着地下世界里某位人类教师的某句讲解:“这是货车”“这是汽车”“这是行人”……那是AI的启蒙教育,它们统统被纳入算法。
地下世界里,有标注员重复的工作,有数据标注订单的转包、争夺……为了得到订单,这些人力的供应商们只能“内卷”起来,压低报价。“我们就像坐在桥边等活的民工,别人过来问一百干不干,你说干,旁边立马站起个人说我八十能干,那个说我六十就能干。”一名数据加工产业的经营者说。
人力低廉的价格和庞大的数量,是数据标注员和老板们立足的倚靠之一。面对被不断压低的单价,标注公司们需要不断去寻找更加便宜的人工。目前,已经有不少企业更多寻求与职业院校的合作,让标注公司成为职校生的实习场所,以压低人工的成本。
机器也在加入争夺。赵子健也是乙方中的一员,他的企业的思路是让AI实现标注。
据国际数据公司(IDC)预测,到2025年,中国数据标注服务的市场规模会由2022年的43亿元增长至123.4亿元。不过在这一行业还没有出现某个独角兽体量的企业,劳动密集是绝大多数企业的类型。在美国,由于更高的人力成本,数据标注企业会通过技术角度,思考解决数据加工过程中的成本问题。例如ScaleAI,该企业主要训练用来实现机器自动标注的人工智能,2022年,这家公司的估值已经达到73亿美元。
赵子健也想做和ScaleAI一样的事,他首先面对的是人力的竞争。“假设我的客户想要降低30%的成本,他要么去找便宜30%的人,要么通过算法自动化来替代”,赵子健说,“短期来看,肯定是第一种方式更容易。”
赵子健在2018年发现了有关数据标注的需求。当时他在浙江大学读本科,了解到有实验室在做桥梁颜色的自动识别项目。那个课题组里,七八个人标注十万张图,用了三个月才完工。于是他和朋友合伙成立了公司,从处理实验室的数据需求开始,踏入了这个世界。
赵子健还接到过“智慧课堂”的项目。就是在课堂前方设置一个摄像头,让系统通过学生上课时的表情状态,分析其上课时的专注度。在他看来,这确实是一项存在伦理争议的项目,但是他也认为,“如果做一个调查,我觉得至少有80%以上的家长会愿意牺牲孩子在课堂上的隐私,让他们提高五分的成绩。”
在数据的世界,效率是第一位的。赵子健在等待一个机会,那就是人工的成本降低到人们“无法忍受”的程度。他觉得,到那时,可以大量替代人工的自动标注工具一定会迎来更多的市场机会,数据标注就会走上智能化自动化的路线。“甲方不会管乙方是人工还是智能,只看你能降低多少成本。”
赵子健介绍,即便是自动标注系统,同样需要少量人力来实现一部分的标注工作,但在这个系统中,标注员更多是在辅助算法,实现更精准的自动标注。并且,随着标注的数据越来越多,自动标注的精准度也会越来越强。
在赵子健所预见的未来中,人眼所见的一切都将被数据化、智能化。他也没接触过公司那些外包的数据标注员,更不会想到,像李亚洲一样的标注员们如果被替代,他们将会何去何从。
他的公司里没有标注员。他问记者:“那些标注员们,不会觉得自己的工作没有意义吗?”
这个问题在商丘的产业园中得不到回答大部分人不会想这个问题,少部分人则觉得,自己是随着AI技术浪潮狂飙的一员。薛再强的办公室里挂着一道横幅:“为人工智能创造最高效的数据而努力奋斗”。这句话是上家公司留下的,薛再强觉得写挺好,就没摘。
(应受访人要求,文中王伟才为化名)
【版权声明】本作品的著作权等知识产权归北京青年报【北青深一度】所有,未经授权,不得转载。