Transformer 后继有模!

35小吃技术网 推荐阅读 2023年09月25日21时22分03秒 48 0

微软大模型新架构正式发起挑战! 论文的标题写得很鲜明:

( ):大模型领域的后继者。

该论文提出了一种新的机制。 微软亚洲研究院和清华大学的研究人员并没有否认他们的“野心”,并大胆表示:

实现了良好的扩展结果、并行训练、低成本部署和高效推理。

这些属性使该基础设施成为更大语言模型的强大继承者。

实验数据还表明,在语言建模任务上:

并且当模型尺寸大于一定规模时,性能会更好。

真的有“接班人模式”吗? 详情我们一起来看看吧。

解决“不可能网三角”

大型语言模型的重要性是毋庸置疑的。 无论是GPT系列、的PaLM,还是Meta的LLaMA,都是基于构建的。

但它并不完美:它的并行处理机制是以推理效率低下为代价的,每一步的复杂度都是O(N); 它是一个内存密集型模型,序列越长,占用的内存就越多。

在此之前,大家也不是网没有想过继续提升。 然而,主要的研究方向却有些被忽视:

换句话说,这些神经网络架构面前存在着一个“不可能三角”。 三个角代表:并行训练、低成本推理、良好的可扩展性。

研究人员想要做的就是让不可能成为可能。

具体来说,在 的基础上,将标准的自注意力机制替换为多尺度保存( )机制。

与标准的self-机制相比,机制有几个特点:

此外,保存机制使用多尺度衰减率,增加了模型的表达能力,并利用的尺度不变性来提高层的数值精度。

▲ 双重表示

每个块包含两个模块:多尺度保留(MSR)模块和前馈网络(FFN)模块。

Transformer 后继有模!-第1张图片

保持机制支持以三种形式表示序列:

其中,并行表示使得有效利用GPU进行并行训练成为可能。

递归表示实现了 O(1) 推理复杂性,减少了内存占用和延迟。

分块递归可以更有效地处理长序列。

这样,“不可能三角”就变得可能了。 以下是与其他基础设施的对比结果:

语言建模任务上的实验结果进一步证明了.

结果表明可以达到类似的困惑度(PPL,评价语言模型质量的指标,越小越好)。

同时,当模型参数为70亿、输入序列长度为8k时,推理速度可达8.4倍,内存占用降低70%。

它在训练过程中的内存节省和加速方面也比 + 表现更好,分别达到 25-50% 和 7 倍。

值得一提的是,推理成本与序列长度无关,并且推理延迟对批量大小不敏感,从而允许高吞吐量。

另外,当模型参数规模大于20亿时, 的性能优于 。

研究团队

研究团队来自微软亚洲研究院和清华大学。 孙玉涛和董丽一起饰演。

孙玉涛,清华大学计算机系本科生,目前在微软亚洲研究院实习。

李东,微软亚洲研究院研究员。 他也是引起广泛关注的论文《可以记住10亿个代币》的作者之一。

论文通讯作者为魏福如网。 他是微软亚洲研究院全球研究合伙人,这10亿枚代币也来自他的研究团队。

论文地址:

Transformer 后继有模!-第2张图片

广告声明:文章中包含的外部跳转链接(包括但不限于超链接、二维码、密码等)用于传达更多信息,节省选择时间。 结果仅供参考。 IT之家的所有文章均包含此声明。