无论是模型还是应用,都离不开硬件厂商或云服务商,算力目前是最稀缺的资源,是大模型成本结构中最显著的部分,GPU是训练模型与加速推理的关键算力硬件,GPU的性能实际上决定了这个新兴行业的步调。但长期来看,人才对人工智能未来的影响超过了算力。
巨头忙于研发大模型,尚未顾及深度切入具体应用场景,这是初创企业的蓝海,也有发展道路上的暗礁。 当前生成式AI市场处于技术主导的早期阶段,存在千亿美元市值的平台性企业的机会。3年内,颠覆式的AI应用的核心驱动力来自于底层模型的创新,模型的作用将大于产品设计的作用。
启明创投合伙人周志峰。
7月7日,在2023世界人工智能大会启明创投论坛“生成式AI与大模型:变革与创新”上,启明创投联合未尽研究发布《生成式AI》报告。在AI 2.0时代,经过大规模数据预训练得到的大模型可直接被下游各种任务使用,无论是模型还是应用,都离不开硬件厂商或云服务商,算力目前是最稀缺的资源,GPU(图形处理器)是训练模型与加速推理的关键算力硬件。但长期来看,人才对人工智能未来的影响超过了算力。
报告认为,当前生成式AI市场处于技术主导的早期阶段,存在千亿美元市值的平台性企业的机会。3年内,颠覆式的AI应用的核心驱动力来自于底层模型的创新,模型的作用将大于产品设计的作用。
启明创投合伙人周志峰表示,人类科学技术的进步在不断加速,就像海洋上一浪推一浪,频率越来越高,浪越来越多。我们处在生成式AI发展的早期,未来的发展速度会非常快,任何一个伟大的科技趋势出现时,都会掺杂泡沫,希望大家能够忽略产业周期,忽略噪音和泡沫,踏踏实实埋头做事,才能推动AI向前发展。
算力是最稀缺资源,理论上大模型训练成本随时间推移而下降
人工智能的发展已经走过70多年时间。报告显示,四代底层技术的进步推动了四波人工智能的发展。第一波小规模专家知识用了40年走完;第二波浅层机器学习用了20年走完;第三波深度学习用了8-10年走完,并取得一定成就。最近这一波AI新浪潮,以2017年基于Transformer的预训练模型为起点,并在2020年GPT-3大模型发布后突破技术奇点。
报告提出了AI 1.0时代和AI 2.0时代。在AI 1.0时代,需要针对特定任务,利用相关数据研发特定模型,任务和模型耦合。AI 2.0时代,经过大规模数据预训练得到的大模型,带来了好的效果和泛化能力,可以直接被下游各种任务使用。
AI 2.0时代里的公司将分为三层:一是基础设施层,主要是解决大模型训练/推理/部署的工具链厂商和提供GPU资源的智算中心,智算中心再往下是新一代AI芯片或下一代通用GPU。二是模型层,主要是研发大模型并对外提供AI模型服务或者API(应用程序编程接口)服务,包括训练和推理时需要的GPU资源。除了这类底座大模型,也包括提供针对特定行业或场景的垂直模型的公司。三是应用层,即专注于解决某个特定领域的应用公司,包括自研大模型的应用公司和利用第三方大模型的应用公司。
新的应用要有新的基础设施。AI 2.0的基础设施是以提供智能算力为中心的智算中心。无论是模型还是应用,都离不开硬件厂商或云服务商,算力目前是最稀缺的资源,也处于最容易获利的要津,是大模型成本结构中最显著的部分,GPU是训练模型与加速推理的关键算力硬件,GPU的性能实际上决定了这个新兴行业的步调。报告显示,训练一次类似GPT-3的大模型,即1750亿参数规模、3000 亿token, 需要3.15*10^23FLOP的算力需求。如果只用1片英伟达V100芯片,在FP16精度的28TFLOP的理论算力下,需要训练357年;要缩短训练时间,就要增加硬件投入,但算力使用效率就会下降。 如果只用1片FP16精度下理论算力312TFLOP的英伟达A100芯片来重新训练一次GPT-3,则需32年。报告提到,理论上随着硬件性能提升、软件优化程度提高等,大模型训练成本会随时间推移而下降。
生成式AI密切结合研究与创新,通往AGI的路上要研究的问题更多了
随着算力与模型的进步,更多初创企业正在涌入,面临着竞争和可能的巨头碾压。但竞争促进了创新,与2022年快速涌现出的生产力工具方向的创业公司不同,2023年,有更多比例的新公司聚焦在底层技术的创新。大模型创业公司也开始分化,在通用大模型创业公司方兴未艾的同时,面向医疗、电商、科研、工业、自动驾驶和机器人等特定方向的垂直大模型公司开始出现。
报告认为,现在仍是AI 2.0的早期,基础架构和核心技术并不是特别成熟;巨头忙于研发大模型,尚未顾及深度切入具体应用场景。这是初创企业的蓝海,也有发展道路上的暗礁。 当前生成式AI市场处于技术主导的早期阶段,存在千亿美元市值的平台性企业的机会。3年内,颠覆式的AI应用的核心驱动力来自于底层模型的创新,两者无法解耦,模型的作用将大于产品设计的作用。
在前沿研究领域,2022年和2023年是生成式人工智能技术取得突破的两年,报告梳理论文发现,生成式人工智能领域的一个突出特征是研究与创新过程的密切结合,许多在企业内部实现,迅速推出产品。从GPT-4的技术报告到微软的研究论文,都展示出大模型所具有的接近于人类的文字处理能力、数学推理能力等,但在通往通用人工智能(AGI)的路上,需要研究和解决的问题反而更多了,如信心校准、长期记忆、持续学习、个性化、规划和概念跨越、透明度、认知谬误和非理性等。过去半年最重要的研究方向是破解和理解大模型神秘而又令人兴奋的智能“涌现”,大模型既需要超越对下一个词的预测能力,也需要一个更丰富复杂的“慢思考”深层机制,来监督“快思考”预测下一个词的机制。
报告显示,最好的前沿研究一定是研究和解决技术规模应用中遇到的问题,如研究如何减少幻觉,调教大模型更加准确地输出真实内容,训练出更强的推理能力;如何更集约地训练模型,降低门槛,推出新产品,让各行各业和消费者都能用上;如何能像人一样与真实的物理世界互动;如何成为人类复杂工作的助手,设计并帮助执行科学实验;如何影响就业,从而做出政策的响应;如何让人工智能安全和可信。
长期来看,人才对人工智能未来的影响超过了算力。中国研究人员发布的论文在数量上已经超过了美国,但金字塔顶端,无论是研究还是创业,美国仍然占据明显优势。在全球范围内,人工智能研究创新的重心正从高校转移至企业,美国拥有顶尖学者最多的前三大机构分别是谷歌、微软与Meta,合计招揽了美国顶级学者的30%,中国仍以高校为主。