您的位置:首页 > 科技

豆包提出全新稀疏架构 降低推理成本

2025年02月13日 17:14:23 来源:新京报 作者:韦博雅

2月12日,据“豆包大模型团队”微信公众号,近期,字节跳动豆包大模型团队提出了全新的稀疏模型架构 UltraMem,该架构有效解决了 MoE 推理时高额的访存问题,推理速度较 MoE 架构提升 2-6 倍,推理成本最高可降低 83%。该研究还揭示了新架构的 Scaling Law,证明其不仅具备优异的 Scaling 特性,更在性能上超越了 MoE。实验结果表明,训练规模达 2000 万 value 的 UltraMem 模型,在同等计算资源下,可同时实现业界领先的推理速度和模型性能,为构建数十亿规模 value 或 expert 开辟了新路径。

责任编辑:张阿嫱
  • 架构
  • 推理
  • moe
欢迎关注中国城市报微信号
分享到: 

关于我们

城市服务

报社业务


网站备案号:京ICP备15005404号-4 京公网安备 11010502043907号
互联网新闻信息服务许可证10120190005 举报邮箱: jubao@people.cn  违法和不良信息举报电话: 010-65367114  010-65363263 地址:北京市金台西路2号人民日报社 邮编 100733

《中国城市报》社有限公司版权所有,未经书面授权禁止使用

Copyright © 2015-2025 by www.zgcsb.com. all rights reserved