来源:a16z
a16z 成立于初代 iPhone 发布的两年后,在移动互联网的浪潮中,这家风险投资机构凭借着 Instagram、Twitter 和 Skype 等成功投资案例迅速跻身硅谷最成功 VC 之列。近几年来 a16z 战绩显赫,助推多家独角兽成功上市,而且这些独角兽公司多为在大众视野内知名度颇高的互联网企业,仅已经或计划在今年上市的就包括 Airbnb、Lyft、Pinterest、Slack 等。
回顾2020年和2021年,a16z公司总结了AI的最新故事,也包括一些实践中的突破
建立AI业务
就像数据库在1980年代成为软件的核心部分一样,我们进入了“ AI/ML内嵌”软件的新时代。那么,当内部包含AI/ML时,业务模型将是什么样子,经济原理(以及我们衡量现有软件业务的方式)是否适用?
AI的新业务(以及与传统软件的区别)
主要内容:人工智能代表了一种全新的业务,其利润率可能低于传统软件业务。更不用说边缘案例的长尾问题,这使得扩展这些业务具有挑战性。使用AI/ML构建软件的企业有着光明的前景,但成功的开始在于了解构建AI业务与传统软件有何不同(并相应地管理对其他软件的期望)。
关键问题:基于数据模型的AI业务与基于代码的软件在本质上有所不同吗?还是随着市场的成熟以及GTM手册和工具的发展,人工智能业务会变得像软件业务吗?
驯服长尾问题:人工智能经济学历险记
主要内容:人工智能业务中边缘案例的长尾问题与解决问题的复杂性以及解决该问题所需的工作量直接相关。但是,有一些方法可以将长尾问题视为一阶问题。在“人工智能的新业务”的后续活动中,我们采访了数十个领先的AI/ML团队,以总结来之不易的行业机密,因为它们“驯服了AI的长尾”。这些建议包括:a.选择合适的问题进行研究,b.缩小和优化全局长尾,c.解决局部长尾的新兴技术。
关键问题:解决长尾问题的经济性与云计算成本直接相关,但是云成本曲线如何变化?这对我们如何应对人工智能业务中长期存在的情况意味着什么?
遏制复杂性:AI / ML的未来
主要内容:AI模型和数据是流动和复杂的-更像是形而上学,而不是典型的数据管理或工程学。Anaconda联合创始人兼首席执行官Peter Wang认为:“There is no such thing as ‘data’, there’s just frozen models,”。a16z的合伙人马丁卡萨多(Martin Casado)观察到,也许那些具有物理学背景的人可以更好地领会在自然世界中极其艰难的挑战,由此或许可能获得更多。但这不仅仅是哲学上的辩论!
关键问题:康韦定律如何适用于数据组织?现在,价值在软件价值链中什么位置?
长尾问题与自治市场
主要内容:人工智能业务存在“长尾问题”,因为它们可以模拟现实世界的复杂性。而且神经网络的本质使问题变得更加复杂,神经网络可以在一定范围内做出准确的预测,但是同时会在范围之外表现非常糟糕。构建AI系统成为协调大规模和广泛的数据收集工作以对边缘案例进行建模的问题。当前,数据收集的方法已经集中,自上而下并且由技术巨头所主导……如果数据自下而上的收集会怎么样呢?
关键问题:如果加密技术为分散式数据收集提供了机会,那么这将如何给AI初创企业带来优势呢?
适用于AI / ML的工具
随着AI / ML内置于更多软件中,数据对于我们的软件功能而言与代码同等重要。AI/ML工具现如今已经被大量的预装在软件当中。这些工具如何组合在一起,以及它们如何发展?
运营ML / AI的新兴蓝图
主要内容:由于在生产中可靠运行AI / ML的工具的数量爆炸式增长,高端数据科学已为更多”玩家“所用。例如,Uber乘车定价时。越来越多的开源库和方法论也使相应的工具包更加成熟,并降低了准入门槛。
关键问题:基于传统技术的现有用户将如何适应这种巨大的变化?
数据体系结构的演变和重大数据讨论
主要内容:仅仅数据并没有价值,它需要一套工具和系统来收集,处理,存储和分析。传统上说,数据工具是在两个独立但并行的生态系统中构建的数据湖来处理AI/ML,而数据仓库为分析和BI提供了基矗但是,数据湖和数据仓库的技术能力正在融合,从而为数据基础架构启用了新的设计模式(例如,数据仓库),其中单个集中存储点可以处理传统的分析工作负载和操作ML / AI。
关键问题:运行AI / ML和分析的单独工具(和团队)是否正在朝着融合的方向发展?
新闻中的AI
极限能力的GPT-3
发生了什么:今年在一篇论文中宣布了GPT-3,这是一种经过预先训练的机器学习模型,该模型经过优化以执行各种自然语言处理任务。7月,OpenAI(GPT-3背后的研发公司)发布了对其API的有限的私有访问权,其中包括GPT-3以及其他模型背后的一些技术成就。不久之后,出现了许多大型语言模型可能实现的示例和演示。9月,OpenAI将GPT-3技术许可给了Microsoft。
为何重要:GPT-3允许使用它的人去减少部分进行数据处理和建立AI业务的部分(经济成本。这使得自然语言处理(NLP)成为AI研发最有前途的领域之一。A16z的运营合作伙伴Frank Chen认为,NLP遵循的是一种过时的计算机科学方法:基础的数据/算法模型突破带来了创新,但是这些突破需要几年的时间才能传播到各地。
关键问题:GPT-3对初创企业,老牌企业以及“AI即服务”的未来有何影响?
规范人工智能
发生了什么:白宫管理和预算办公室(OMB)和科学技术政策办公室(OSTP)发布了一项备忘录草案,其中包含10条关于“人工智能应用程序的管理”的原则。
重要性:美国是人工智能领域的领导者,但其他国家(尤其是中国)也在大力投资人工智能。
关键问题:人工智能是新的创新太空竞赛吗,“规范”人工智能到底意味着什么?有多少的必要?
Nvidia + Arm合并
发生了什么:英伟达宣布有意收购Arm。Nvidia生产GPU;Arm凭借针对低能耗和低成本进行了优化的架构,在数十亿个设备中制造了芯片系统。
重要性:这代表了过去十年计算领域的三大技术趋势的顶点:云原生,移动优先和机器学习(cloud native, mobile first, and machine learning)。
关键问题:如果价值一直在不断上升,并且硬件,软件,固件,应用程序等之间的划分在很长一段时间内都不稳定,那么谁在主导这个游戏?
聚焦:生物中的AI
对于生物技术中一些最重要的开放问题,人工智能有广阔的应用前景。例如,更好,更复杂的模型可以将不同的数据集结合在一起,以改善药物发现和临床试验。新的机器学习技术有潜力改善我们的预测,建模和模拟,从细胞的工作方式到全球性大流行将如何发展;AI / ML甚至可以最终帮助我们绘制神经图谱并逆向工程神经复杂性,以更好地了解阿尔茨海默氏病等疾玻那么,今年的重大研究突破是什么及其对生物和医疗保健的影响?
解决医疗保健中的Baumol成本病
鲍莫尔成本病(Baumol's cost disease)是美国经济学家威廉鲍莫尔所提出的一种现象,主要在说明一种部门的生产力相对落后于另一种部门的理由。他建立两部门宏观经济增长模型,其中一个部门是进步部门,另外一个部门是停滞部门。进步部门的生产率相对快速增长将导致停滞部门出现相对成本的不断上升。他认为很多服务部门都具有这一特征,相对于制造业,服务业劳动生产率更难以提高,因而,随着制造业的生产率改进,服务业在整个经济中的比重反而上升。
主要内容:鲍莫尔的成本病可以解释为什么依靠专门劳动力的服务(例如医疗保健和教育)变得更昂贵,而袜子和电子产品等商品却变得更便宜。而且与其他领域不同的是,软件已经渗透到通过将服务转变为商品来降低成本的领域,在医疗保健领域,这样做的速度很慢。
关键问题:人工智能能否最终带来巨大的成本节省,并让人类工作人员专注于更高级的医疗服务?
AlphaFold!蛋白质折叠
发生了什么:本月,Google DeepMind的AlphaFold系统在每两年一次的挑战中胜过了20个国家/地区的100个团队,仅凭氨基酸序列就可以预测蛋白质的3-D结构。
重要性:蛋白质决定了所有生物并为所有生物提供动力,但是蛋白质可能存在的结构种类是一个天文数字,这使得其成为生物学的重大挑战之一。AlphaFold其准确度可与实验室实验相媲美(甚至更快)。
关键问题:这是否是生物界AI的高光时刻呢?实际上,AlphaFold是否会像GPT-3或TensorFlow?这对未来的药物发现和其他应用意味着什么?
使用ML寻找新抗生素
发生的事情:训练了一个深层神经网络来预测抗生素,并且在查看了十亿种化合物后,发现了在已知抗生素中具有独特结构的抗生素。
为何重要:这项研究表明,通过扫描大量潜在的候选物,然后将最有希望的样本由科学家进行人工验证,人工智能可以真正有效地用于铅化合物的鉴定。通过降低发现成本,它为初创企业和学术实验室提供了一个更加经济的方法。
关键问题:在药物发现和开发的其他地方,是否有可能将深度学习神经网络与人类专家验证进行组合呢?
2021
to be continued...