作者 | 阿司匹林
责编 | 李雪敬
封图 | CSDN 下载自视觉中国
作为已经有4000多名员工的AI独角兽,商汤的一举一动备受关注。
从2018年开始,奔着“开源、统一、可复现”的目标,商汤开始建设人工智能算法的开源体系。当时,商汤联合创始人林达华教授则主导发起了OpenMMLab项目,今年商汤将其升级为商汤的算法开放体系。
经过两年的发展,OpenMMLab在GitHub上累计收获了超过20000 Star,覆盖10多个研究方向、100多种算法和700多种预训练的模型,可提供开放的基础技术支持、接口标准和算法框架,逐渐形成了完整的体系和组织架构。
然而在自主可控的号召下,作为底层的深度学习框架更受关注。
2020年初,旷视、华为等先后开源 MegEngine 和 MindSpore,商汤 SenseParrots 的下一步动向立即成为业界关注的焦点。
实际上,商汤从创立第一天开始就自主研发深度学习平台 SenseParrots,经过这几年连续三代的迭代,已经形成了非常完整的工业级的深度学习平台。
然而为何商汤选择先开源 OpenMMLab,而不是 SenseParrots,背后是出于什么考虑?会有开源的规划吗?
8月,在苏州举行的全球人工智能产品应用博览会上,CSDN 与林达华教授一起聊了聊商汤的开源规划,以及产学研结合的那些事。
开源框架如何才能发挥更大的价值
CSDN:为什么选择 OpenMMLab 作为切入点?SenseParrots 是否有开源的计划呢?
林达华:商汤有底层的超算平台,有自主研发的深度学习框架,也有上层的各种算法和应用平台,这些是商汤自主研发和原创积累下来的技术体系。为了响应国家的号召和社会的期待,各个 AI 企业都开始有自己的开源战略,商汤也有自己的思考,我们理解开源的一个最重要的目的就是要能够为科研和产业服务的开放技术生态。
开源切入点的选择非常关键。现在在深度学习框架领域,虽然已经有了不少开源框架,但是目前被广泛应用的主要就是 PyTorch 和 TensorFlow,而且已经形成了非常巨大的生态。 不管是每年数以千计的论文,还有各个企业所积累的各种各样的产品,它们背后的代码都是基于这两个框架。
人工智能领域发展到现在,已经形成了一个丰富的体系。一个人工智能应用的建立不仅依赖深度学习框架,还需要多层次的算法、工具、以及各种工程环境的支撑。因此,单纯开放一个训练框架,没有生态的牵引与配合,是很难形成较大的影响力的,也很难给整个业界带来很大的价值。
我们做开源,就是要真正建立一个有影响力的开源生态。我们选择现在相对空白的领域视觉深度学习领域的开放算法体系OpenMMLab。即使有 PyTorch、TensorFlow 这些底层的深度学习框架,开发者要建立起来一个完备的上层应用,依然需要大量的算法和工程开发工作,而这一块的开源体系还是处在相对初级的阶段,这也是为什么 OpenMMLab 开源了一部分算法库,比如 mmdetection 已经取得了巨大的影响力,OpenMMLab 旗下的其它开源项目的影响力也在持续增长。目前 OpenMMLab 体系在 GitHub 已经有超过20000颗星。
有了生态影响力之后,我们以此为切入点,就可以规划下一步。未来我们会在合适的时机开放更底层的深度学习框架 SenseParrots,它提供了跟 PyTorch 等主要框架兼容的表达层,因此跟OpenMMLab的生态是连接在一起的。只要各种上层应用都是基于 OpenMMLab 来构建,那么我们开源 SenseParrots 等基础设施之后,开发者的迁移成本就会大幅降低,真正带动生态发展。
这是商汤在开源策略上的思考,也是我们朝着真正建立一个有影响力的开源生态而努力的目标。
CSDN:OpenMMLab 的主要优势在哪?
林达华:商汤在计算机视觉和深度学习领域有着非常深厚的技术积累。每一个算法的开发都是一个非常复杂的过程,除了大量的算法设计,还需要大量的工程实践,里面任何一个参数设计错误,就会导致精度达不到应有的水平。
比如,一个简单的检测算法,理解其原理其实不是很花时间,但真正要实现出来,并达到预期的结果, 即使是一个受过专门训练的博士,也会花费大量时间。就像设计一架飞机,虽然基本的物理原理大家都懂,但是要设计出符合性能要求的飞机,需要很长时间的沉淀。
商汤在过去几年里沉淀了大量的设计细节和经验,因此其他人在使用商汤开源的算法时,不需要把同样的坑再踩一遍。对于企业和科研来说,具有非常巨大的价值。
CSDN:商汤开源的目的是什么?OpenMMLab 有商业化的规划吗??
林达华:商汤开源的目的更多是构建人工智能未来的产业生态。一旦建立起生态,整个行业发展起来,大家都会认识到商汤在这个过程中能够提供平台的能力,就会有越来越多的伙伴和企业愿意跟商汤合作,把 AI 推到到更多的行业中。生态的构建给商汤所带来的长远的战略利益是非常的巨大的。
超大模型会成为未来的AI基础设施?
CSDN:CV 领域有哪些令人兴奋的技术或者应用突破?
林达华:自然语言处理领域的 BERT、GPT 等引起了学术界和产业界巨大反响。现在的AI生产模式是遇到一个新的场景,就需要重新积累数据,收集数据,训练一个新的模型,成本高昂。但是从长远来说,我们也在一直在探索,在 CV 领域能不能有类似于 GPT 这种非常强有力的预训练模型。
受到 NLP 领域的启发,CV 领域已经开始有人在探索有没有能够适用于多项应用的预训练模型,在不需要迭代或者非常短时间迭代的前提下,就能够达到实用水平。
我们已经在探索一些新模型训练的方式方法,经过短周期的迭代,就能够满足大量新型应用的性能要求。但是做这方面研究的机构不是很多,因为大模型的训练花费需要非常大的算力支撑,训练一次的花费也是非常高昂的。
商汤在建设大型的人工智能计算平台,一方面支撑产业赋能,另外一方面支撑技术的突破。我们实验室在这方面已经取得了一些初步的成果,可能在下次的会议上,就会看到我们的进展。
此外,我们也在积极探索各种无监督、半监督、弱监督方法,以及通过把模型和各种环境因素结合在一起的方法,来降低对标注数据的依赖。在今年的 ECCV,我们的多篇论文就体现了我们在这个方向所取得的成果。
CSDN:模型越来越大越来越深,这是未来的必然的发展方向吗?它会怎样影响AI生态?
林达华:科研是一个非常多样化的领域,随着超大模型的涌现,如果他们的价值真正能够在广大的场景里面得到验证,会对未来的科研分工模式带来新的变革。
整个科研链条在不同的阶段都需要创新,在应用领域需要创新。当GPT出来之后,它只是一个基础的模型,然而有很多人用非常创造性的方法来使用这个模型,所以应用层可以有很多创新。而有算力资源的人,也可以对这个模型做一些简单的迭代,应用到某种比较新奇的领域。
我其实并不认为全社会和整个科研界都是需要训练大模型。未来整个科研分工可能会有新的改变:少数有充足计算资源和工程能力的大型研究机构或者企业会在核心模型上进行竞争,并且把这些模型能力开放出来作为基础设施,而更多的AI研究者或者从业者则会站在巨人的肩膀上在应用侧进行多种形式的创新,解决产业和生活中的各种场景问题。
大牛回归学术界,是好是坏?
CSDN:一些著名科学家开始从企业回归学术界,是否意味着 AI 科研和工程落地之间存在巨大的鸿沟?商汤内部是如何考核科研的成绩并做好平衡的?
林达华:随着 AI 业务越做越深入,可能在 AI 发展的初期,算法研究员起到了非常大的推动作用,但是随着各个行业AI技术的成熟,行业需求愈发突显,包括商汤在内的企业,商业、产品、运营等人才的作用越来越重要,但是技术创新依然是最重要的源动力。
为了把 AI 推广到更多的行业,需要在技术方面有新的突破。这时有一部分科学家看到这些问题的存在,但是在企业里不一定可以花很长时间投入很多资源去做,对于这些更长期的更具探索性的研究,高校或者大型实验室是可以发挥很大作用的。所以 AI 真正持续长时间的健康发展,一定需要产学研的有机结合。
要解决现在 AI 数据成本等方面的根本问题,需要核心技术的突破。如果一个科学家从未在企业里待过,他看不到问题在哪里。那些在企业界待过的科学家再回归学术界,其实也能带来一些对整个产业发展真正有价值新思考,引领学术跟产业的融合。
商汤对这种事情一直处理得非常好,我们和很多高校实验室都有天然的联系,包括我在内的研究leader都在研究机构和高校里扮演很重要的角色,这样就能够在带动高校研究资源的同时,与企业的联动也更加紧密。