受访者 | 黄飞跃,优图实验室总监
记者 | 夕颜出品 | CSDN(ID:CSDNnews)
「AI 技术生态论」 人物访谈栏目是 CSDN 发起的百万人学 AI 倡议下的重要组成部分。通过对 AI 生态顶级大咖、创业者、行业 KOL 的访谈,反映其对于行业的思考、未来趋势的判断、技术的实践,以及成长的经历。
本文为 「AI 技术生态论」系列访谈的第二十二期,对话国内一流计算机实验室腾讯优图总监黄飞跃,回顾优图实验室成长历程,畅谈计算机视觉技术进展和未来发展趋势。
百万人学 AI 你也有份!今日起点击阅读原文报名「2020 AI开发者万人大会」,使用优惠码“AIP211”,即可免费获得价值299元的大会在线直播门票一张。限量100张,先到先得!
12 年前,清华大学博士毕业的黄飞跃加入腾讯刚成立不到一年的腾讯研究院,带着 5 个人的小组,第一个项目是做一款名为“QQ影像”的桌面处理软件,但由于团队都属于 IT 直男,对于产品一窍不通,于是首个项目以并不尽如人意的结局告终。
12 年后,当初的 5 人团队已经扩大到 数百人的规模,成为计算机视觉领域鼎鼎有名的优图实验室。但细算起来,优图正式成立的时间其实在 2012 年,这一年,黄飞跃带领的这支团队更名为“优图”,他作为优图团队的负责人,带领这帮人成为国内计算机视觉大规模应用最早的一批从业者。
如今,做计算机视觉的人不会不认识优图这个名字,尤其是人脸识别技术和产品,优图的名声更是响亮。作为腾讯消费互联网业务背后的“隐形 AI 战队”,优图实验室与 腾讯 AI Lab 和微信 AI 团队一起,并列腾讯 AI 三大人工智能团队,为包括 QQ、微信、腾讯微视等消费互联网产品提供技术支持。
优图在做什么?
2018 年,腾讯宣布战略转型升级,拥抱产业互联网,优图从腾讯内部的一个技术团队开始走向前台,通过腾讯云等对外输出视觉 AI 能力。
黄飞跃对于优图的定位,就是一个计算机视觉相关技术的研发和落地的实验室,从最开始的图像压缩,到后面的人脸识别,再往后的人体识别、OCR 等一系列技术,优图从最初的围绕腾讯公司内部的需求提供技术支撑,到现在依托腾讯云等产品对外输出产品和解决方案。
有人会好奇,优图到底都做了些什么。实际上,从腾讯内部到 ToC,优图的AI技术早已渗透到我们的日常生活中,留心观察的话会发现,我们平常用到的微信刷脸支付、人脸识别对比、随申码、健康码、微众银行等 App 的人脸核身等,背后都是优图在做技术支撑。比如在微信小程序申请民政服务,检测人脸时出现的蓝色、绿色等不同颜色的光谱,其实就是在做活体检测,确认是否是本人操作。
天天P图
黄飞跃表示,最近一两年,短视频、泛娱乐场景的视觉AI需求比较旺盛,为此优图打造了一系列泛娱乐方面的解决方案,包括美颜美妆、人像分割、趣味合成和生成、人脸融合和变装等,你平常打开的美颜软件,说不定就有优图的存在。
让笔者印象比较深刻的,还有在寻找走失儿童场景中,优图可以实现跨年龄人脸识别,一两岁时丢失的婴儿,丢失十几年之后的儿童也能被精准识别,这样的“黑科技”也是优图研发的。
了解计算机视觉技术的人应该知道,跨年龄人脸识别对于数据量和模型训练来说都是巨大的挑战,为了充分的从数据中学习人脸自然的跨年龄变化规律,腾讯优图提出了基于 DDL(分布式蒸馏学习法则)学习策略的正则化迁移学习策略。基于该策略,算法模型可充分进行跨年龄人脸识别学习,从而让困难的跨年龄识别更加可靠和精准。用这项技术,腾讯成功帮助警方找回多名被拐超过十年的儿童。
“救人一命胜造七级浮屠”,可以造福、方便人类的事情,正是所有技术人的追求,因为这让我们所做的事情变得有了意义。
优图的技术“家底”有多厚?
各种场景下的应用, 当然离不开底层技术的支撑。从团队成立之初做图片压缩,到后来转到人脸检测和识别,优图不断洞察新技术趋势,积淀下清晰的技术发展路线。
黄飞跃在清华大学读研读博时,所学专业除了人脸识别和人脸检测之外,还包括人头 3D 重建、人体动作识别等技术。黄飞跃回忆,那时候人脸识别与现在相比有着巨大的差异,十几年前,火爆的专业是网络工程等方向,计算机视觉方向在当时是冷门。
黄飞跃也承认,当时学术的不成熟导致整个计算机视觉产业链不完整。现在,我们已经可以通过深度学习技术,为很多计算机视觉问题找到很好的解决方案,比如人脸检测识别,我们能够从几百人的合照中找到 99% 甚至全部的人脸,有遮挡也可以做到,但在当时,深度学习还没有起来,大家更多的是做偏研究的事情,和实际业务结合较少,采集数据难度大,算法在实际应用中效果差,只能在特定场景和小范围内做有限的应用。
总之,当时的计算机视觉研究环境很恶劣,人工智能仍处于发展瓶颈期,体系建设没有展开。2008 年,黄飞跃毕业时也曾纠结过去做老师还是进公司,看了很多方向,选择了加入刚成立不到一年的腾讯研究院,起初是跟着 leader,后来才带领着 5 人小组,在迷茫中开始视觉AI的探索之路。
因图像压缩技术声名大噪
上文中也提到,最开始,这支团队负责一款名叫“QQ 影像”的桌面处理软件,这是一款和美图秀秀类似的图像管理编辑软件,既有工程又有黄飞跃学习的视觉图像处理的一系列的能力,所以他认为这两者的结合是一个机会。但这个项目做到 2011年,PC 端开始向移动端转移,但 QQ 影像是 PC 软件,所以失去优势,加上团队都是技术人员,缺乏产品思维,导致产品发展不尽人意。
QQ 影像
2010 年,黄飞跃和团队迁往上海。2011 年下半年,黄飞跃发现“图片二次压缩”技术可能存在极大的价值,可以广泛应用到腾讯内部的众多业务中,比如图片的存储与传输,可有效减少存储、降低带宽流量,为公司节省巨额资金及存储空间。随着研究的深入和技术的不断成熟,黄飞跃带着团队开始为腾讯内部其他团队提供图片二次压缩技术可以将图片像素压缩 20%-30%,大大降低带宽成本。
此时,团队更名为“优图”这便是“优图实验室”的前身。
优图的图片压缩技术为腾讯创造了巨大的价值,也为优图带来了声望。
转移到人脸检测识别方向
2012 年下半年,优图把研究重心转移到人脸检测识别方向,开始进行人脸技术研发和储备。此时正逢腾讯的组织架构调整,原本隶属于腾讯研究院的优图并到了腾讯社交网络事业群旗下。
2013 上半年,优图开始将人脸检测技术输出至 QQ 空间,同时将技术提供给推出爆款“武媚娘”妆容的“天天P图”前身“水印相机”团队。2014 年,QQ 空间“面孔墙”全量上线,这是业界最早在大规模社交网络平台中人脸识别技术的应用。此时,黄飞跃带领的优图团队只有 20 人不到。
2014 年上半年开始,黄飞跃带领优图团队开始探寻大量人脸识别应用场景,和腾讯征信负责人挖掘人脸识别的一个创新应用,即通过自拍照和身份证照片比对,来确认是否是用户本人(人脸核身)。在成功打出微众银行这个线上人脸核身案例后,优图将技术逐渐开放给内部超过 50 个业务,并在 QQ、QQ 空间、QQ 音乐、财付通、微众银行、天天 P 图等明星产品中成功落地,也与滴滴、联通等企业达成合作。
随着业务的发展壮大,腾讯优图也从最开始的 5 人团队,成长为现在的百人以上的规模。
2018 年 9 月 30 日,腾讯宣布组织架构调整,隶属于 SNG 的优图实验室调整归属于 CSIG 云与智慧产业事业群。优图开始和云与智慧产业形成更密切的联动配合,通过腾讯云、微信等输出视觉AI能力,在金融、零售、政务、社区、物流、文旅等领域落地解决方案。
以上就是优图实验室大致的技术发展路线,在这个过程中,黄飞跃带领团队自主研发了很多创新性的计算机视觉技术和应用。
人脸识别算法迭代
黄飞跃回忆,自 2012 年下半年将重点转移到人脸识别上来之后,优图便开始积累人脸相关技术。那时,优图会使用一些传统的分类 PCA 等方法做检测识别,从而具备了基础的人脸相关能力,包括人脸检测、人脸五官定位、人脸识别这三要素。
2014 年以后,优图开始跟进深度学习相关技术潮流和趋势,最开始是用深度学习对齐传统的人脸方法。
黄飞跃认为,实际上人脸技术的演进有这几个点,其一是活体检测,优图做了人脸安全与身份核验、纹理检测、动作识别,以及自主研发的反光活体技术,即手机侧终端随机发出一系列不同的光,根据光照射用户的情况,和摄像头捕捉到的信息,判断是真的人脸还是一张照片、面具还是视频。这是人脸安全系列的技术演进。
其二是人脸识别规模的大幅提升,从开始的几千到几万的规模,现在到从数十亿规模中做人脸检测,背后依靠的是深度学习技术。
第三个特点是要结合实际业务场景,比如在疫情期间的口罩检测,就需要做算法和场景交互的设计调整。
八年成长路,不断积累“雪中送炭”的能力
从腾讯内部一个名不见经传的小组,到成长为一个颇有名气的AI实验室,优图花了八年时间,一路走来也并非一帆风顺,他们面临的挑战不仅来自技术层面,还有如何向公司证明技术的价值。
比如让这支团队声名鹊起的图像压缩技术发明之初,优图团队就面临着如何说服公司内部客户、合作伙伴和部门用这项技术的问题,为了与 QQ 空间团队合作,他们要经常跑到深圳,甚至长期派驻人员了解对方的需求。当时,QQ 空间团队关注的技术点很多,如何让图片显示更清晰,PC 端网页的相册照片如何更好地展示缩略图等,都是他们关心的问题,优图要做的不仅是要把技术“卖”给他们,还要根据需求给出具体的解决方案。好在团队成功完成任务,度过了团队成立之初的第一个大关。
2014 年是优图的一个拐点。在这个时间段,虽然优图与 QQ 空间的合作已经取得了一系列成果,优图研发推出的 QQ 空间面孔墙可以帮助用户按照人的维度来管理自己的相册、照片,整体的效果体验,包括准确度、指标都不错,但是实际上线之后,黄飞跃却开始思考另一个问题:优图团队的价值在哪里?因为这个能力始终是锦上添花,并不是雪中送炭,离不开的能力。于是,优图开始挖掘一些刚需、有价值的点。
黄飞跃想到了人脸识别。那时候团队已经开始主打人脸识别相关技术的研发,但是存在一定困难。2014 年下半年与微众银行的合作是一个契机。当时,微众银行开业,给自己的定位就是完全线下无网点银行,没有线下网点,线上开户只能通过人脸核身。但当时人脸核身技术层面上不成熟,这就给了优图难得的机遇,从 2014 年 9 月份开始合作,到 2015 年微众银行正式上线,优图攻坚了一系列难题,包括提高人脸活体的能力,防止人脸照片、视频攻击等,获得了微众的认可,把真金白银的业务交给优图。
八年走过来,优图的发展路线愈发清晰,聚焦于最核心的能力,比如人脸识别、人脸检测定位等,避免与其他团队的研发“撞车”;另外一方面,一些团队更多地侧重在优图基础能力之上做封装,如与 PCG 合作力,优图负责提供人脸检测配准的基础能力,PCG 在此之上研发美颜挂件等,提供美颜能力和解决方案。
计算机视觉迎来第二次高潮
以优图为代表,是国内互联网企业做计算机视觉技术研发与应用开发的缩影。在移动互联网时代,计算机视觉乘着东风,迎来第二次发展的高潮。
黄飞跃认为,移动互联网与计算机视觉之间是相辅相成的关系,这其中有几个原因,一个是正好深度学习的进展和移动互联网发展的时间重合,移动互联网时代的特点是手机上的摄像头,有了传感器,数据越来越多,UGC 数据量急剧增加,带来大量的需求和机会,因此整个移动互联网的产业链、市场空间远远大于 PC 互联网,因为计算终端无所不在,摄像头获取数据的设备无限大,市场很大会带来更多发展的机会,相关的企业也将越来越多。
然而,我们应该清楚,计算机视觉技术现在还处于发展较前期的前阶段,能够解决一些问题,但是更多地是做到识别模式,而不是理解,也就是偏感知层面,最终还需要向认知层面努力,建立起对图的深度理解,但目前从技术层面上来说还没有一个特别好的解决方案,跨越感知和认知之间的鸿沟将是一个艰难的过程。
谈到计算机视觉未来的发展趋势,黄飞跃表示优图将紧跟行业产业的趋势,目前他比较关注的是 5G,5G 将使流量带宽越来越大,手机终端计算能力越来越强,多媒体的处理、短视频也可能出现更丰富的表现形式。另外,AR/VR、短视频等也将成为计算机视觉应用较多的场景。