Meta 发布 Megabyte AI 模型抗衡 Transformer:解决后者已知问题、速度提升 4 成

5 月 30 日消息,近日 Meta 团队开发了一款名为 Megabyte 的 AI 模型以抗衡 Transformer,据称 Megabyte 解决了 Transformer 模型所面临的问题,并且在速度上提升了 40%

Meta 发布 Megabyte AI 模型抗衡 Transformer:解决后者已知问题、速度提升 4 成

▲ 图源 Arxiv

目前 Transformer 在自然语言处理等领域非常流行,但由于其序列数据的处理方式是逐步进行的,无法并行化处理,因此训练速度较慢; 难以处理长序列,因为其在反向传播过程中,梯度很容易消失或爆炸;此外,由于需要在每一步保留历史信息,内存消耗较大。

而 Megabyte 模型将输入和输出序列划分为 patch,而不是单个的 token。这种架构使得对大多数任务而言字节级别的预测相对容易,例如根据前几个字符预测完成的单词等。这意味着在大型网络中可以精简字符以提升效率,并且内部预测可以使用更小的模型进行。Megabyte 模型的这种方法解决了当今 AI 模型所面临的训练速度、可靠性及硬件占用比挑战。

Meta 发布 Megabyte AI 模型抗衡 Transformer:解决后者已知问题、速度提升 4 成

▲ 图源 Arxiv

此外,在计算效率方面,相比于等大的 Transformer 和 Linear Transformer,Megabyte 模型在固定模型大小和序列长度范围内使用更少的 token。因此相对于 Transformer,Megabyte 模型可以在相同的计算成本下训练内容更丰富、体积更大、性能更好的模型。

目前 Meta 团队放出了 Megabyte 模型的论文。

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

免责声明 1、本站所发布的全部内容源于互联网搬运,(包括源代码、软件、学习资料等)本站提供的一切软件、教程和内容信息仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络收集整理,版权争议与本站无关。您必须在下载后的23个小时之内,从您的电脑或手机中彻底删除上述内容。
2、访问本站的用户必须明白,本站对所提供下载的软件和程序代码不拥有任何权利,其版权归该软件和程序代码的合法拥有者所有,如果您喜欢该程序和内容,请支持正版,购买注册,得到更好的正版服务。我们非常重视版权问题,如本站不慎侵犯您的版权请联系我们,我们将及时处理,并撤下相关内容!敬请谅解! 侵删请致信E-mail:messi0808@qq.com
3、如下载的压缩包需要解压密码,若无特殊说明,那么文件的解压密码则为www.77code.com
4、如遇到加密压缩包,请使用WINRAR解压,如遇到无法解压的请联系管理员!

琪琪源码网 资讯动态 Meta 发布 Megabyte AI 模型抗衡 Transformer:解决后者已知问题、速度提升 4 成 https://www.77code.com/zh/zixun/41593.html

相关文章