展会信息港展会大全

AI大模型驶向产业之海,需要高质数据“河道”引航
来源:互联网   发布日期:2023-12-02 16:34:50   浏览:5751次  

导读:“我们的AI大模型,在万卡集群上训练,三小时就出一次错。别笑,这已经是世界先进水平了。”某次行业峰会上,一位清华大学的院士科学家,讲出了AI大模型训练的“大实话”。 风靡全球的AI大模型,是今年毋庸置疑的风口,数量不断增长,达到了惊人的水平。“百...

“我们的AI大模型,在万卡集群上训练,三小时就出一次错。别笑,这已经是世界先进水平了。”某次行业峰会上,一位清华大学的院士科学家,讲出了AI大模型训练的“大实话”。

风靡全球的AI大模型,是今年毋庸置疑的风口,数量不断增长,达到了惊人的水平。“百舸争流”之下,大家却经常会忽略一个关键问题:AI大模型带来的数据激流,也比想象中更加汹涌。

“三小时出错一次”,听起来不可思议的故障率,却是大模型从业者要面对的常态,甚至是“优等生”。目前业界的普遍做法,是写容错检查点checkpoint。既然三小时就报错,那就2.5小时停一次,写好检查点,把数据存起来,再开始训练。一旦出现故障,可以从写好的检查点恢复,避免“从头开始”、全部白干。而检查点需要存储的数据多,会耗费大量的时间。该院士团队基于llama 2架构研发的大模型,数据存一次硬件,就需要十个小时,存储效率直接影响了开发进度。

如果说大规模的异构数据,是肆意奔涌的激流,存储系统就是承载着数据流量的河道,其宽阔坚固程度直接决定了数据是否会淤塞甚至停滞,

赞助本站

相关内容
AiLab云推荐
推荐内容
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港