本文由计算机视觉life整理,如有侵权可联系删除。原文链接:
原提问:
人工智能就业前景越来越严峻了,你还在坚持吗?
沈世钧:
我也是AI从业人员,这些年,AI,我是亲身经历了从“黑科技”跌入“俗学”的过程。
这个事情对业界的震惊很大,不久后,大家了解到竞争对方之所以能取得这么大的进步,正是因为引入了以“深度学习”为基础的AI技术后,整个业界的研发重点就迅速切换到了AI的跑道上。
在随后的时间里,大家都如饥似渴的阅读各种paper,就是我这个打配合的软件工程师,也开始接触与AI相关的各种技术,包括神经网络、深度学习等等。
而经过深度学习的训练,在两年后的NIST竞赛中,各家公司的算法精度上虽然没有赶上原来的第一名,但已经开始接近了。
同时说明了,从技术上来说,“深度学习”并不是一个特别高深,特别新颖的技术,而更多是“旧瓶装新酒”,是对大家观念的扭转。
因为在此之前,计算资源缺失,数据缺失,所以才使得严重依赖于此的深度学习技术难以实用化。
而经过互联网多年的积累,计算和数据都到位的时候,“尘封”多年的深度学习技术则突然“枯木逢春”。
我从不止一个算法科学家嘴里听过,从对脑力的挑战来说,深度学习的精巧度远不如传统的数学算法。
甚至,相对于早前的数学研究,大家都觉得“深度学习好“傻”,好“暴力”,一种常见的套路是:
设置框架,喂数据,调参数,喂数据,调参数…,循环往复.
而且,就这两年来说,好多普通的软件工程师,都慢慢开始对算法研究缺乏敬畏了,因为我听到最多的对话就如下面:
“你们算法实验室,能不能尽快把质量检测精度再提高下。”
“当然能,不是正在准备数据,正在训练嘛!”
从此,大家也能够感受到,算法的提高,在很大程度上赖于数据,而不仅是算法工程师的脑力。
这直接导致了一个后果:以深度学习为基础的人工智能技术,在使计算机变得“聪明”的同时,却使算法工程师变得更“傻”。
这种傻有两个纬度,一个是从人的角度看,算法工程师的工作难度在降低,从阳春白雪变为了“朝市之学”。
另一个角度是,虽然机器变得越来越聪明,但我们却不知道它为什么变得聪明,它到底学会了什么?
原来,算法科学家通过数学精确的控制着机器的行为,是机器的“管家”,而现在,算法科学家在某种程度上沦为了机器的“保姆”。
因此,在技术上,深度学习不仅没有推高算法工程师的重要性。相反,正在降低他的重要性。
从我身边看到的,原来搞算法研究,博士是主流,而这两年越来越多的硕士正涌入这个行业。
而且,不仅在技术上,在商业上,算法工程师的稀缺程度也不如以前。
而经过这些年的发展,各个厂家的精度都有了大幅的进步,都越过了实用的门槛。因此,在算法上继续大幅投入下去,再取得的回报是非常有限的,甚至连锦上添花都算不上。
这个时候,大家急需要做的就是尽快的用好的产品占领市场,以获取经济回报。而这,无论对资本来,还是对社会,才是一门技术健康发展的应有之义。
当然,在接下来的几年,人工智能行业肯定会继续繁荣下去。但这种繁荣之下,很可能不是技术的繁荣,而是产品和市场的繁荣。
因此,对将要入行的技术新人来说,还需冷静的观察和思考后,再做决定。
wood hawk:
一年前入学的时候吧。那个时候国内ml火得一塌糊涂,然后美帝这边选方向基本清一色的机器学习。到美帝找工的时候就被教做人了,美帝找机器学习工作学历基本底线phd。不是phd在读根本就找不到工,到现在一个个全部和机器学习撇清关系。。。都在找sde码工工作,关于机器学习基本就是。。。你别乱说啊,你别乱讲啊,我和机器学习没关系哈。。。现在都在写代码,老老实实leetcode先刷个五百道,系统设计,分布式系统raft,2pc协议先学起来,web application后端从Java Spring到Go,前端React搞起来,sde全栈开发真香。。。package也给的巨大。。。还比ml好找工。。。真香真香
牢骚发完了。下面说点干货。ml一直以来最要命的问题就是怎么赚钱的问题。赚钱这个东西分两种,一是做辅助,而是做输出。推荐系统基本属于辅助类,相当于互联网加ai,首先你得有互联网产品,然后基于产品做改进,这部分目前其实商业化做得还是很成功的,但是既然是辅助,也就决定了他的招聘规模不可能大过sde开发。所以真正能提供大规模岗位招聘的其实是担任输出角色的ai,这样的企业的代表就不是互联网大厂了。代表的话,海康威视做监控的,图森科技做高速无人驾驶货运的,waymo做无人车的等等。这块商业化做得比较好的我个人认为是海康威视和图森,关键是很切实得能看到他要怎么赚钱。海康和有关部门合作,收入来源比较稳定,图森因为高速路况简单,并且不做端到端的系统,不完全依赖于深度学习而是主要靠雷达结合一些人类可以理解的逻辑,取代的是卡车司机的工作,目前在美国一些州也获得了运营批准,所以盈利也是可以预期的。但是除此以外的话,很多ai公司怎么赚钱这个问题就是搞不太清,有一个说法说,业务有2b,2c,现在很多startup搞的既不是2b也不是2c,而是2vc,说白了就是骗投资人钱。或者说是赚钱的第三种方式,炒作噱头,吸引资金。
说一句题外话,创业这个事情,以我自己有限的见识来看,科技公司可能还是要有工程师创业比较靠谱。想法其实是廉价的不值钱的,关键是要把想法变成现实的可行计划,如果科技创业不熟悉技术的话,能不能作出可行的计划真要打上一个大大的问号。但是投资人又迫切希望看到愿景,很多时候愿景和可行性是背道而驰的。希望以后投资人砸钱的时候,先花点钱去找个技术团队,好好对startup做一下全方位的技术论证。技术上不具备可行性光有ppt是赚不到钱的。
总结来说,ml其实是很好的技术。但是大家目前还没有找到很好的把它大规模变现的手段。很多需求看起来很炫,但是赚不到钱的需求都是伪需求。如果ml还是一直变现不了的话,可能未来招聘会越来越严峻。然后我个人认为比较靠谱的几个企业,互联网企业做推荐系统的其实都很靠谱,然后纯粹做ai和互联关系不大的话,我个人了解的,海康和图森还是比较靠谱的。可能还有一些其他公司,但是由于我个人眼界限制看不到而已。至于不太靠谱的企业,我就不点名了,总的来说就是能不能看到变现的可能。
再更。。。如果你想搞机器学习理论,老老实实先念个phd吧。连个phd都不肯为它念,你还好意思说爱它?(狗头)
wei chris:
坚持那是肯定的,不坚持连饭都吃不上。
2019年,我给公司面试了很多人,时间超过1个半小时的应该在100人以上,但是入职的不超过5个。结合我自己在公司内部的工作,基本上可以说,至少在‘AI+’行业,2019年不仅就业前景严峻,连从业者前景也很严峻。
17年之前我在互联网行业打拼, 虽然加班,但是基本上守着自己的一亩三分地,还算压力小,其他的事情也无需我过问。17年转入智慧医疗创业,负责的东西非常多了,从前端到后端,从产品到市场,都要操心,但基本上还是技术占主流。所以17年和18年基本上是在技术和数据上钻研。19年真正开始落地,主动和被动学习的东西非常多,切实感觉到远比调包堆层难太多。不管是‘互联网+’还是‘AI+’,垂直行业的关节比想象要复杂很多。用咨询行业经常讲的一句话:客户要的是solution,不是model。model是实验室的产物,solution才是推向市场的结果。solution意味着需要产品化和工程化的思维方式。
产品化除了包含传统意义上的产品设计和用户体验,更多是指符合垂直行业的业务逻辑。这一点其实对于纯计算机行业的人很难,一方面计算机毕业的学生必然没有这方面的知识储备,另一方面主动愿意学的人几乎没有。毫不客气的说,可能只有生物医学专业的人或有过相关经验的人才能真正设计出符合医学逻辑的产品。而这一点恰恰是落地的关键。我个人负责的是医疗文本方向,举个简单的例子。肝癌中有一些预测预后是否良好的指标,比如分化程度,切缘,病理亚型等。我们可以建立一个模型预测一下。首当其冲的问题是用什么模型?准备上AutoML吗?线性回归,SVM,深度模型其实都不算太好。医生们最喜欢决策树,因为临床过程中好落地。第二个问题是,用什么指标?如果完全按照模型的结果来筛指标,基本上失败了一半。最好的方案是先问一下医生有什么建议。有先验知识可以用,不用岂不是太浪费。以肝癌为例,其实上述指标都和预后有关,但是最好的是MVI微脉管侵犯。因为2015年国内指南明确推荐使用这个指标,而且有明确的临床意义。这种事情在智慧医疗行业很多,甚至有些不讲理。近几年在深度学习方向非常推崇端对端的学习方式,某种意义上给黑盒属性和不可解释性包装了一个冠冕堂皇的外衣。我不是说端对端不好,但是这种完全忽视业务逻辑的模型范式,不是行业通吃的。尤其是注重决策的场景,是非常重视过程的。过程讲不通,roc再好也不行。
工程化的要求在2019年更为迫切。记得之前,有文章提到过,AI创业企业决胜的关键不是模型,而是工程能力。其实国内很多互联网医疗或者智慧医疗创业公司的工程化能力应该都不算强。我的这个论断是基于对一些有代表性的产品的考察和分析。我们自己的外包人员反馈,以及医院药厂对友商的评价,也支持这个理解。应该说,这些公司的算法能力可能和大企业没有太大差距,毕竟很多人都是从大企业挖过来的。但是工程能力差了一大截。可能与很多有经验的开发人员不愿意去小公司或被忽视,以及类似2C的高性能并发等场景需求不多有关。我个人也觉得招到一个合适的开发颇有难度。本质上讲,创业公司的开发人员初期最好是全栈,即使不是全栈,也能理解前端和后端的概念和接口。这种要求不是三年经验能训练出来的。另外,医学领域对于数据安全和稳定性的考量几乎是第一位的,有些时候有点不可抗力的性质。2019年发生了个别伦理审查已经通过,项目已经正式开始,但是最后被主PI院长因为数据不在私有云上而暂停的事情。这种自打自脸的事情医院是干的出来的。某种程度上,似乎也是医院内山头林立的结果。还有一个体会是,很多创业公司都喜欢用各种软件的开源版本或者社区版本。但是这些版本的灵活性和性能都会打折扣(有些版本只能支持单个账户登录,或者只能挂载一个数据库)。如果公司不愿意花钱,而且没有真正的工程人员介入的话,这些产品基本上是半成品。
围绕着这个solution思维,2019年因为AI落地的事情占用了我大量的时间,技术方面主要是数据安全,知识产权和招聘。哪一个环节都不敢怠慢。数据安全很好理解,医院需要数据安全存放,药厂需要规避数据安全风险,监管机构需要数据安全方案。但是你要知道,目前的安全等保和HIPAA等,更多的是在用流程控制安全。公司要想提高数据安全除了物理隔离,加密,灾备,更多时间是在准备各种文档说明自己的生产过程符合安全规章制度。当一个领域无法用技术提升时,通常会采用过程管理。这东西非常像软件成熟度模型CMM,试问哪个IT人员愿意花时间在这上边。知识产权的问题主要是和医院药厂合作完成项目时的文章,算法,产品的产权分配。最一般的场景是,医生给你标注了数据集,你拿来训练深度模型,又发了文章,开发了产品。专利律师的理解是,这种情况下对方是否有权利要求知识产权目前完全看双方协商。其实从公司层面,多挂一个名字也没什么,主要是怕让甲方误会,曲解,影响了业内口碑埃而且在AI爆棚的时期,发专利也并不难。招聘的事情,今年也废了老大劲。所以我说就业前景是严峻的。最深的感触是很多自称是算法工程师的人骗面试,最大的特点是专业非计算机,数据或统计出身,简历上各种“熟悉”,“精通”模型框架,加上泰坦尼克号项目经验。我个人又非常喜欢问基础问题,例如讲一个聚类算法或解释一下tfidf,瞬间露馅。还有些自称精通python的人,答不上来yield和return的区别,或者python的向量化操作。我是真的累了。我差点给hr训练一个基于简历的虚假申请者分类器。
2019年,我个人几乎没有在追什么前沿的NLP模型,各种BERT,transformer也是通过公众号的新闻了解。我主要觉得这些模型一来需要大量标注数据,这在中文医疗文本行业内几乎不可能;二来实际效果能有多大提升也未可知,医生是否接受也是个挑战。我越来越觉得AI掉进了一个大牛挖坑,小牛填坑,工程师调参,外行将信将疑的境地。大家都在关注工具属性,很少人关注落地属性。不过作为技术人员2020年可能还是要补一补。2019年因为响应各种需求也有些收货,学习了neo4j,arangodb等nosql数据库,还有面向仪表盘的web开发,自动化部署的docker开发,还研究了点异常点检测和度量学习。唯一的目的就是希望能发现更多的方向是客户真正认可和关注的。东西都学杂了,脑子有点乱。有一次,在R里用str想转换为字符串(python里str是用来转换为字符串的,而R里str是返回数据框结构的),一时没有发现。
我在知乎另一个回答中提了很多机器学习在医疗领域的坑。
其实我本人是希望大家都能理性看待AI的能力和前景。如果有机会,我甚至会写一个‘机器学习有哪些非常有意义的研究方向?’的回答。AI的2B业务和传统互联网中业务完全是两码事,尊重行业积淀,尊重兄弟学科是一个基本前提。不可否认,很多传统行业和制造业,例如AI最火的安防,自动驾驶和智慧医疗可能都深受社会制度和甚至行业痼疾的影响,你要进来,面对的不是一个企业,而是一个链条。
作为计算机出身的人,我自然希望AI能大放异彩。但是这个行业混进来一些浑水摸鱼的人,一些过于乐观的人,还有一些只想赚快钱的人。而坚持不仅仅是一种态度,更多的是一种能力,未来必然会有一些企业‘化作春泥更护花’。
我在坚持