展会信息港展会大全

研究人员推出 xLSTM 神经网络架构,可同时处理所有 Token
来源:互联网   发布日期:2024-05-13 14:53:30   浏览:2372次  

导读:IT之家 5 月 13 日消息,研究人员 Sepp Hochreiter 和 Jrgen Schmidhuber 在 1997 年共同提出了长短期记忆(Long short-term memory,LSTM)神经网络结构,可用来解决循环神经网络(RNN)长期记忆能力不足的问题。 而最近 Sepp Hochreiter 在arXiv上发布论文...

IT之家 5 月 13 日消息,研究人员 Sepp Hochreiter 和 Jürgen Schmidhuber 在 1997 年共同提出了长短期记忆(Long short-term memory,LSTM)神经网络结构,可用来解决循环神经网络(RNN)长期记忆能力不足的问题。

而最近 Sepp Hochreiter 在arXiv上发布论文,提出了一种名为 xLSTM(Extended LSTM)的新架构,号称可以解决 LSTM 长期以来“只能按照时序处理信息”的“最大痛点”,从而“迎战”目前广受欢迎的 Transformer 架构。

研究人员推出 xLSTM 神经网络架构,可同时处理所有 Token

IT之家从论文中获悉,Sepp Hochreiter 在新的 xLSTM 架构中采用了指数型门控循环网络,同时为神经网络结构引入了“sLSTM”和“mLSTM”两项记忆规则,从而允许相关神经网络结构能够有效地利用RAM,实现类 Transformer“可同时对所有 Token 进行处理”的并行化操作。

研究人员推出 xLSTM 神经网络架构,可同时处理所有 Token

团队使用了 150 亿个 Token 训练基于 xLSTM 及 Transformer 架构的两款模型进行测试,在评估后发现 xLSTM 表现最好,尤其在“语言能力”方面最为突出,据此研究人员认为 xLSTM 未来有望能够与 Transformer 进行“一战”。

赞助本站

AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港