展会信息港展会大全

国产大模型震惊海外,周鸿祎:绝对是中国AI产业发展的里程碑事件
来源:互联网   发布日期:2025-01-06 08:30:49   浏览:180次  

导读:前几天中国六代战机曝光,外网闹翻天了。这还不够,这两天中国大模型又出了新版本,致使海外 AI 社区刷屏。国内 AI 创业公司 DeepSeek发布了新的开源大模型,其参数量为6000多亿,性能赶上了 GPT - 4o和Facebook的羊驼,但训练成本比它们降低了10倍,价格仅为它们的10%。该模型推出后,明显能感觉到海外 AI 技术人才对中国 AI 技术的进步,处于半震惊半懵状态。网友评论整齐划 ......

前几天中国六代战机曝光,外网闹翻天了。这还不够,这两天中国大模型又出了新版本,致使海外 AI 社区刷屏。国内 AI 创业公司 DeepSeek发布了新的开源大模型,其参数量为6000多亿,性能赶上了 GPT - 4o和Facebook的羊驼,但训练成本比它们降低了10倍,价格仅为它们的10%。该模型推出后,明显能感觉到海外 AI 技术人才对中国 AI 技术的进步,处于半震惊半懵状态。网友评论整齐划一,都在问中国人是如何做到的?Meta 的一位科学家惊叹,DeepSeek 的训练像是黑科技。OpenAI 的一位创始团队成员称,以前达到 DeepSeek 这种级别能力通常需16000个 GPU,而现在 DeepSeek 只用2000个 GPU,计算量减少了11倍,这证明 AI 算法还有很大优化空间。

大家可能不太了解 DeepSeek 这家公司,虽然我们有合作,但我对其了解不深,于是用纳米 AI 搜索查询了一下。DeepSeek 中文名为深度求索,如名字所示,该公司一直低调行事,却早有名气。在硅谷,DeepSeek 被称为来自东方的神秘力量。其背后是量化私募的巨头幻方公司,2021 年为做量化交易囤了一万张英伟达 A100,当时 ChatGPT 尚未出现,大模型也未发布,如同 Meta 为搞元宇宙囤卡一样,都机缘巧合赶上了 AI 浪潮,所以在其他巨头闹卡荒时,DeepSeek 手中有卡心中不慌。这家公司首次被人记住是因其发布 2.0 开源模型时提供了史无前例的性价比,模型推理成本降至每百万个 token 约一元,约为 LLaMA的1/7、GPT 的1/70,故而 DeepSeek 被称为 AI 界的拼多多,掀起国产大模型价格战,字节跳动、腾讯、百度、阿里纷纷降价。如今开发者能享大模型福利,DeepSeek 功不可没。

为何今日要提及此事?过去我常说中美 AI 核心差距不大,约半年左右,主要差距在算力。因核心算法公开,多为工程化方法,模型也是开源的,差距实则不大,可很多人不信,一些专家还带节奏,称论 AI 实力美国领先,中国最多第二梯队,美国遥遥领先,我对此不敢苟同。有人妄自菲薄还让众人灰心,长他人的志气灭自己的威风,对中国 AI 产业发展无益。如今 DeepSeek 发布的模型有力回击了这些言论。微软、脸书、谷歌都在朝着10万卡集群做大模型训练时,DeepSeek 仅用2000个 GPU,花费不到600万美金和两个月时间,就做出一个与全球顶尖大模型能力对齐的开源大模型。有人质疑说,新推的大模型是用国外模型知识蒸馏而来,但知识蒸馏方法人人可用,为何他人未做到?此次效率大幅提升,肯定是在底层架构上有不同于其他巨头的创新,DeepSeek 定有不为人知的训练方法和工程实践方法。过去只有美国 AI 公司具备这种独有能力,如今中国公司也逐渐掌握了。有人会说 DeepSeek 只是个例,缺乏说服力,能否说出更多先进国产大模型?当然可以。比如阿里的通义千问,其推出的千问2.5系列大模型,其中的700亿参数版本,在视觉推理、数学和科学问题表现上与国外大模型相比毫不逊色,慢思考能力也逐渐提升。此外,王小川的百川智能近期推出的金融大模型在专业能力上超过了 GPT - 4o,这也证实了我之前对专业大模型的判断,即在通用大模型基础上结合专业领域知识训练,专业大模型能力可超越通用大模型,我们称之为领域增强。360 在o1出现前就实现了慢思考能力,只是实现方法略有不同,360 打造的安全行业大模型能力也遥遥领先于 GPT - 4o。总之,希望观看这篇文章的各位相信中国 AI 发展并不弱,不要被某些专家言论误导。过去我们是模仿者和追随者,他人擅长从零到一,我们擅长从一到 n,如今情况正转变,中国科技领域原发性创新已让全世界看到,过去是 “Copy to China”,以后可能是 “Copy from China”。

DeepSeek 公司表现出色,开了个好头,今后我国 AI 创新定会更加活跃。借 DeepSeek 这个版本,我谈几点大模型发展的看法。第一,无需再争论开源与闭源好坏,DeepSeek 是开源的,开源模型正赶超闭源模型。在人类技术发展趋势中,开源可使大模型技术不被少数巨头垄断,唯有开源才能让大模型真正走入各行各业,让各级政府和企业低成本在开源基座模型上打造行业应用,推动生产力飞跃。所以 DeepSeek 的进步对推动中国 AI 产业发展是极大利好。更令人振奋的是,中国正引领全球大模型开源浪潮,开源是互联网精神的直接体现,也是美国科技发展的源泉与机制。然而,现在中国最强的两个模型通义千问和 DeepSeek 是开源的,美国最强的两个模型Claude和GPT 却是闭源的.可见美国走向闭源,中国走向开源,这预示着科技发展天平向中国倾斜,一旦中国开源生态建立,这种创新机制将助力中国加速 AI 科技发展,掌握先机,实现从追赶者到引领者的华丽转身。第二,DeepSeek 3.0版本用2000块卡做到了万卡集群才能做到的事,这表明我们在一定程度上打破了西方对我们的算力封锁,堪称奇迹。当前美国想尽办法对我们进行小院高墙式的封锁,遏制中国 AI 产业发展,禁止高端算力芯片流入中国。只有强大对手才能逼出最强的自己,若针对中国 AI 芯片的禁令,最终使中国大模型在算力受限情况下找到更高效解决方案,那这种适得其反的结果影响将更广泛。此外,用这种极致训练方法训练专业大模型,算力成本会进一步降低,促使中国 AI 在专业、垂直、场景、行业大模型上更快普及。第三,有人会问,如此一来我们是否还有必要建万卡集群?不要误解,我并非说中国 AI 发展不需要高端算力芯片,巨头们囤显卡建算力集群依旧必要,因为目前预训练算力需求或许没那么大,但像慢思考这类复杂推理模型对推理算力需求大,文生图、文生视频的应用也需消耗大量算力资源,巨头们提供 AI 云服务,构建庞大算力基础必不可少,这与 DeepSeek 降低训练算力需求是两回事,两者并不矛盾。建万卡集群实际是个工程问题,做过一次便一通百通,所以马斯克从 OpenAI 挖人建十万卡集群,小米挖 DeepSeek 的天才少女,都是为获取工程化的万卡集群训练诀窍。作为科技行业的从业者,看到 DeepSeek 推出如此厉害的模型,中国 AI 公司凭借原发性技术创新震惊世界,让曾经轻视我们的外国开发者同行惊愕,各位是否感到畅快、自豪与感动?这绝对是中国 AI 产业发展的里程碑事件,我相信以后中国 AI 发展此类新闻会越来越多。大家应对中国 AI 产业发展充满信心。

赞助本站

相关内容
AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港