您的位置：首页 > 科技

豆包提出全新稀疏架构降低推理成本

2025年02月13日 17:14:23 来源：新京报 作者：韦博雅

2月12日，据“豆包大模型团队”微信公众号，近期，字节跳动豆包大模型团队提出了全新的稀疏模型架构 UltraMem，该架构有效解决了 MoE 推理时高额的访存问题，推理速度较 MoE 架构提升 2-6 倍，推理成本最高可降低 83%。该研究还揭示了新架构的 Scaling Law，证明其不仅具备优异的 Scaling 特性，更在性能上超越了 MoE。实验结果表明，训练规模达 2000 万 value 的 UltraMem 模型，在同等计算资源下，可同时实现业界领先的推理速度和模型性能，为构建数十亿规模 value 或 expert 开辟了新路径。

责任编辑：张阿嫱