2024AI大趋势：“大模型”进入“小时代”？-人工智能动态-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

2024AI大趋势：“大模型”进入“小时代”？

来源：互联网发布日期：2023-12-25 18:57:29 浏览：8300次

导读：当前，人工智能领域正在尝试开发更小型、成本更低的AI模型，这可能会使AI技术更加普及和易于使用。有人工智能专家预测，预计到2024年，小型语言模型将在特定任务部署AI的公司中发挥更大的作用。 OpenAI CEO、人工智能界当之无愧的先行者Sam Altman也承认：...

当前，人工智能领域正在尝试开发更小型、成本更低的AI模型，这可能会使AI技术更加普及和易于使用。

有人工智能专家预测，预计到2024年，小型语言模型将在特定任务部署AI的公司中发挥更大的作用。

OpenAI CEO、人工智能界当之无愧的先行者Sam Altman也承认：

“大模型”时代可能走向结束，未来我们会通过其他方式来改进它们。”

大模型的局限性

当前大模型在成本和计算需求方面有局限性。

过去五年来，AI领域通常以参数的数量来衡量一个模型的能力。参数越多，通常意味着模型能处理更复杂的任务，展示出更强的能力。

例如，最大模型的参数数量每年增加了十倍或更多，每次增加都带来了意想不到的能力扩展，如编程和翻译能力。所以大型神经网络模型通常被认为性能更优。

有观点指出：

“以参数数量作为能力或风险的衡量标准过于粗糙，我们应更关注模型的实际使用方式。”

这些大模型使用的参数数量极多（有的超过1000亿个），每个参数都需要计算资源来处理。尽管大模型（如GPT系列）在技术上领先，但这些模型往往规模庞大且对计算资源的需求极高。每当大模型在能力上有显著提升时，它们的训练和运行成本也急剧上升。即便这些模型是开源的，许多研究者和小型企业也难以承担其所需的昂贵计算成本。

不仅如此，许多AI研究者在这些模型的基础上进行迭代开发，以创造适用于新工具和产品的自己的模型，但大模型的复杂性也让其变得困难。

监管对大模型也有所担忧，并且对大型LLM的监管趋于严格。例如，美国政府在去年10月底发布的一项行政命令要求对制造“双用途”基础模型的公司，如那些拥有“数十亿参数”的模型，实施更高透明度要求。

小模型的优势

在某些特定任务上，小型、高效的AI模型可能比大模型更适用。

正如专注于人工智能和机器学习的技术公司Snorkel的Matt Casey写道：

“在某些任务上使用大模型就像是“用超级计算机玩《青蛙过河》。”

虽然大模型在处理复杂任务上有优势，但并不是每个任务都需要这样强大的计算能力。

小语言模型的优势数不胜数。

更低的资源需求。小模型通常需要更少的计算资源来训练和运行，这使得它们更适合在计算能力有限的设备上使用，例如，小模型可以直接安装在用户的电脑或智能手机上，这样就不需要与远程数据中心连接。

更低的成本。小模型在训练和部署时需要的计算资源较少，这直接导致了较低的运行和维护成本。

更好的隐私保护。小模型可以在本地设备上运行，而无需将数据发送到云端服务器，这有助于提高数据处理的隐私性。有助于提高数据安全性。

更快的处理速度。由于参数较少，小模型在处理请求时的响应时间通常更短，这对于需要实时反应的应用尤其重要。

研究人员正在努力开发出更孝更高效的AI模型，缩减它们的参数数量，同时保证它们在特定任务上能够达到甚至超越大模型的表现。

一种方法是“知识蒸馏技术”，与传统的预训练不同，“蒸馏技术”的意思是使用一个大型的“教师”模型来指导一个小型的“学生”模型的训练。用“蒸馏”方式训练小模型，不再直接从训练大模型时会用到的那些巨量数据中学习，而只是在模仿。就像一个学生不会学到老师的全部知识库，但在针对性的领域，ta可以获得和教师差不多水平的考试表现。

Carnegie Mellon大学的计算机科学教授Graham Neubig说：

“通常情况下，你可以创建一个小得多的专门模型来处理特定任务。这种小模型虽然不具备大模型的广泛适用性，但在特定任务上可以表现得非常出色。”

Neubig教授和他的合作者在一个实验中开发了一个比GPT模型小700倍的模型，并发现它在三项自然语言处理任务上的表现超过了大型GPT模型。

小模型表现出色的例子有很多。

例如，微软的研究人员最近也发报告称，他们能够将GPT模型缩减成一个参数仅略超10亿的小模型。这个小模型能够在某些特定任务上与大模型相媲美。

再者，今年7月，Meta的开源Llama 2，推出了三个版本，参数范围从7亿到70亿不等。还有，为金融应用设计的BloombergGPT只有50亿参数。尽管这些模型的参数数量相对较少，但它们在多项任务上的表现都优于类似模型，显示了小模型的潜力。

小型语言模型的局限性

然而，这些优势通常是以牺牲一定的性能为代价的。一些研究显示，但小型“学生”模型可能只在一定范围内的任务上表现出色。大型“教师”模型由于其庞大的参数数量和复杂的结构，通常在理解和生成语言方面更为精准和强大。因此，在更广泛或复杂的任务上，选择小模型还是大模型取决于特定应用的需求和限制。

人工智能公司Cohere的非营利人工智能研究实验室Cohere for AI的负责人Sara Hooker说道：

“小模型在处理广泛或罕见任务时的能力仍有限。”

“还有很多未知的领域，我们如何确保从大模型中获得的数据足够多样化，以覆盖所有这些任务？”

“蒸馏”技术在某种程度上是法律灰色地带。比如通过蒸馏技术（一种将大型AI模型的知识转移到更小模型的过程），小模型可能在功能上与大模型类似或者能够执行相似的任务。然而，“竞争”的具体定义可能不够明确，这导致了法律上的不确定性。

（更多精彩科技资讯，点击这里进入全天候站点)

相关热词： 2024AI 大趋势大模型进入小时代

2024AI大趋势：“大模型”进入“小时代”？
来源：互联网发布日期：2023-12-25 18:57:29 浏览：8300次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

2024AI大趋势：“大模型”进入“小时代”？ 来源：互联网 发布日期：2023-12-25 18:57:29 浏览：8300次