【文/观察者网专栏作者 晨枫】
DeepSeek突然成为炙手可热的全球性话题,不仅因为其以低成本实现了“以小搏大”,其成功故事也成为国运的写照。
简单来说,人工智能可能像几十年前开始的芯片控制和数字化一样,将深植于几乎所有新科技的创建和老科技的升级之中。但低成本带来质变,不只是量变。
汽车是德国的卡尔奔驰发明的,但在美国的亨利福特发明流水线、海量生产低成本的T型汽车之前,汽车只是有钱人的玩物、豪华马车的代用品。在福特之后,低成本汽车迅速改变了人们的生活方式,也在本质上重塑了世界经济,成为世界经济和政治中心从欧洲转移到美国的重要推手。
低成本人工智能有望起到类似的作用,DeepSeek的开源路线和“蒸馏技术”使得“白菜化人工智能”成为可能。
DeepSeek V3 不仅在性能上表现出色,其性价比也遥遥领先同类大模型
再通用的大模型也会是“万宝全书缺只角”,开源路线使得其他人可以在开源构架上打造自己的人工智能应用,“蒸馏技术”则可以用小模型去芜存菁地保留需要保留的方面,有针对性地加强大模型不足之处,进一步缩小模型,降低训练和运作的门槛。
开源模型不是DeepSeek发明的,但DeepSeek把开源人工智能推到前所未有的高度,并且提供了基本的开发工具包。相比之下,OpenAI、Anthropic、Google都是闭源的。
开源vs闭源,或者更加广泛地说,开放架构vs闭合架构,是信息科技发展史上几番出现的主题。如今人们只说PC,已经忘记IBM是PC架构的开创者。差不多同时,苹果推出自己的架构,其实还有Atari、Commodore、Next、Sparc等其他架构。
最后,PC所代表的开放架构胜出,因为开放架构可以调动几乎无限的资源,为相关生态添砖加瓦。这种乘数效应是靠一己之力的闭合架构无法比拟的。开放架构与寄生开发是共生、共荣的。
人工智能生态的一部分。开源的活跃性和包容性将进一步扩大人工智能生态的影响,使得中国成为世界新科技的中心这对美国霸权而言,是巨大的危险。
开源也意味着新经济。比如说,私用的购物和生活小帮手需要海量的公域数据,每人每家的小帮手都到网上“搜刮”差不多的数据,这是巨大的浪费,也是巨大的成本。专业的“公域数据批发商”可能应运而生,集中“搜刮”公域数据,提供云服务,用于训练私用小模型。
相关的小模型训练也会应运而生,好比人工智能时代的云上“驯狗师”,帮助个人用户训练、调整、更新私用小模型。
一方面,这依然把隐私和数据自主交给了“别人”,另一方面,这个“别人”是自己可选的,而不像平台,没得选。如果有足够的自信和技能,自己动手也可以,那就没有“别人”的问题了。
小模型和大模型也是相辅相成的,这是自驾和公交的关系,不是相互替代的关系。
人工智能可能意味着颠覆性的科技发展,意味着全新赛道,意味着重新洗牌和重拉起跑线。在航空科技的历史上,喷气时代就是这样的颠覆性时刻。
苏联航空科技的启动很早,但由于科技实力和综合国力差别,直到二战时代,苏联航空科技的水平仍不及欧美。但在喷气时代的重新洗牌中,苏联一跃而进入第一梯队,米格-15和F-86打得有声有色,同时代的欧洲喷气机落后了。肯定会有人以米格-15用罗尔斯-罗伊斯“尼恩”发动机来说事,且不说米格-15用的是苏联自己的改进型,他们应该说说英国为什么没有用“尼恩”造出至少和米格-15一样好的战斗机。
从这里开始,苏联航空的辉煌一直延续到冷战结束,苏-27的篇章至今在中国续写。
苏联科技决策错误使得苏联错过了战后更加广泛深刻的电子科技和数字革命,经济和科技的过度军事化最终限制了颠覆性时刻在更大层面上开花结果。
中国是完全不同的情况。宽广、深厚、坚实的科技和制造业基础提供了土壤,庞大、勤劳、聪明的人口提供了水分,以民为本、“发展是硬道理”的政策提供了阳光,和平崛起、共同发展的基本国策提供了空气,颠覆性的科技革命就成为种子,重新洗牌和重拉起跑线就是历史性的起飞时刻。
浙江大学硕士,2008年毕业后留在杭州创业,2015年创立对冲基金“幻方量化”,2019年成为中国首家突破千亿元人民币的私募量化大厂。2023年全球AI热潮爆发,梁文锋宣布转变赛道,同年7月成立DeepSeek。
在他的旗下,汇集了一支小而精的队伍,139名研究人员大多由中国本土培养,其中许多是清华、北大应届毕业生甚至在读生。据说,Deepseek“只招1%的天才,去做99%中国公司做不到的事情”。
梁文峰的成就,打破了人们“非北清不能出人才”的迷思。DeepSeek确实招募了很多北清的人,但主心骨并不来自北清。梁文峰是浙大的,按照“第一学历为王”的思路,被小米用1000万年薪挖走的罗福莉是北师大的。北清复交浙科等C9都是中国的顶级名校,但在这小圈子之外,还有更多的优秀高校,有更多的优秀人才,不要被“蓝筹股”思维蒙住眼睛,而是需要“蓝海股”思维。
OpenAI等“传统人工智能”团队走所有问题一视同仁的大一统路线,典型大模型有多达1.8-2万亿个参数,训练时要对这些参数统统调整,解算时也需要数据在所有这些参数中“走一遍”,算力要求可想而知。
DeepSeek采用化整为零、化零为整的思路,将巨大的问题分解为既相关又独立的子问题。较小的子问题只需要较小的模型,但在顶层,有另一个“交通指挥模型”将需要求解的问题导向相关的小模型,对“跨界”的问题则调用若干相关的小模型,并根据与各子问题的相关程度协调子模型之间的解。因此,模型只有6710亿个参数,而且任何时候都只有不超过370亿个参数激活。这是Deepseek可以用较小算力训练和解算的关键。
这不仅再次说明“蛮干不如巧干”的道理,也说明在科技发展出现颠覆性变化的时候,“世界是平的”,辉煌属于有想法、有准备的人,而并不一定只属于大厂、国家队。幻方量化在人工智能方面植根不久,但此前从事的高频率交易对计算效率的要求很极端,所以在大模型“巧算”方面的成功并不偶然。中国肯定需要华为这样的大厂,也需要科学院这样的国家队,但DeepSeek这样并无业界背景的小厂不仅有机会,还放了一个原子弹。
深厚积累永远是有用的,但在颠覆性的时代,抓住当下、勇于创新更重要,这本来就是重拉起跑线的意义。尤其应该注意的是,机会常常与困难并存,需要的是珍视机会,不要被困难吓住。在30年前,“下海”是既惊心动魄又振奋人心的时刻,那是“繁花”的时代,也是大下岗的时代;现在又是“下海”的时刻,是“银杏叶”和DeepSeek的时代,也是躺平的时代。30年前下海需要的本钱是资金和关系,现在下海需要的本钱更是知识和前瞻。
在“繁花”时代,人们前赴后继地下海,是看到前人成功,激起“我也能”的自信。在人工智能时代,DeepSeek是个好榜样,希望能激起更多初创科技企业的产生,并在融资市场上得到更多的支持。中国制造业已经产生一大批“小巨人”,中国科技也需要一大批“小巨人”。