文 | 周鑫雨
编辑 | 杨轩
2023年11月6日,由创新工场董事长兼CEO李开复成立的AI公司“零一万物”发布了首款开源中英双语大模型“Yi”。与此同时,36氪获悉,零一万物已完成新一轮融资,由阿里云领投。目前,零一万物估值已超10亿美元,跻身独角兽行列。
此前,“Yi”于11月2日已经在Hugging Face低调上传了两个参数规模分别为6B和34B的基础模型。截至11月5日,Yi-34B分别在Hugging Face LLM Leaderboard(pretrained)(预训练大语言模型)和中文大模型榜单C-Eval排行榜已经爬升到1位。
上下文窗口,意味着模型的“记忆力”。据介绍,Yi目前拥有200K上下文窗口,可处理约40万字的文本这也是目前全球大模型中最长的上下文窗口。
李开复提到,由于GPU紧缺,当模型尺寸从6B推向更大的尺寸时,团队需要把握好规模减少试错成本,不能一味追求“大”。通过打磨AI Infra,Yi-34B将训练成本下降了40%,“别的友商如果要用2000张GPU,我们只要1200张。”
Yi的训练数据主要来源于公开语料的爬取和数据库。李开复介绍,训练数据的难点在于重复率高、质量低。通过清晰,团队从100多T的数据中筛选出了3T。由于中文语料的质量较低,目前,Yi的训练数据中英文语料的比例高于中文语料。
那么Yi的能力究竟几何?在测评中,零一万物参考了Meta开源模型Llama2能力测评中所用到的PIQA、SIQA、HellaSwag、WinoGrande等多个数据集,来评估Yi的“常识推理能力”“阅读理解能力”“数学与代码能力”等多维度能力。
Yi能力。
结果显示,Yi-6B在常识推理能力和阅读理解能力上达到了国内外开源模型的平均水平,但在数学与代码能力上还较弱。Yi-34B在常识推理能力和阅读理解能力上均大幅领先国内外开源模型,在数学与代码能力上处于领先水平。
李开复认为,34B的尺寸属于开源大模型稀缺的“黄金比例”尺寸,达到“涌现”门槛、满足精度要求的同时,对厂商而言能够采用高效率单卡推理,训练成本友好。
李开复坦言,在完成融资前,零一万物为了覆盖算力等训练成本已经负债几千万美元。这也侧面反映出李开复All in AI的决心。
作为零一万物的发起人,李开复也可谓是中国人工智能的领军人物之一。他曾先后担任微软全球副总裁、谷歌全球副总裁兼大中华区总裁,并在2009年创立了天使投资和企业孵化平台创新工常
2023年3月,李开复躬身入局大模型赛道,为筹建新公司零一万物广发“英雄帖”:“零一万物欢迎有AI 2.0技术实力和AGI信仰的优秀人才加入,一起打造AI2.0全新平台,加速AGI到来。”到7月,零一万物已有来自阿里、百度、谷歌、微软等国内外公司的数十位核心成员到位。发布会上,李开复介绍,“(团队)在6、7月份写的第一行代码。”
如今,零一万物已经集结了国内外一批人工智能领域的大牛:
零一万物预训练负责人黄文灏,零一万物AI Infra副总裁戴宗宏。
比如零一万物AI Infra副总裁戴宗宏,曾是阿里达摩院机器智能技术资深算法专家,以及华为云人工智能领域CTO。在阿里期间,他构建了阿里巴巴搜索引擎平台,后带领团队研发了图像搜索应用拍立淘。
再比如,零一万物预训练负责人黄文灏来自智源人工智能研究院,曾担任健康计算研究中心技术负责人。加入智源前,他曾任微软亚洲研究院研究员,负责自然语言理解、实体抽娶对话理解以及人机协同等研究工作。加入零一万物后,黄文灏团队主要负责Yi的训练。
李开复认为,AI 2.0时代,最大的商机将出现在To C/消费级的超级应用。他提到,互联网时代的Super App微信和抖音的第一个版本并不是Super App,而是准确捕捉了用户的需求。而零一万物的目标是在AI 2.0时代再做一款微信、抖音。
具体到零一万物的商业规划,李开复告诉36氪,AI 1.0时代无法商业化的公司很早被淘汰,而商业化的公司的最大挑战是能够可持续、可增长这意味着AI 1.0的不少公司需要人头规模,不是高质量的收入。
他强调,收入的规模化不应该用人头推动,而应该用技术推动。“以此为原则,零一万物将朝着Consumer(消费级)应用发力。”考虑到国内用户的付费意识和意愿尚在培养阶段,零一万物将同时考虑应用的本地化和出海。
目前,零一万物已经启动100B以上参数规模的模型训练,而多模态大模型团队已经集结了十多个人。“几周之内我们就有新的发布和大家分享。”李开复透露,“Yi”的定位是通用底座,同时,Yi系列量化版本、对话模型、数学模型、代码模型、多模态模型将以快节奏推出。