字节攻克MoE关键瓶颈,训练成本节省40%

China&Chinese 作者: EqualOcean 编辑: 邢怡然、徐菀岐 2025-03-11 13:20

算力效率提升有望激活更广泛的用户与应用场景

tech

3月10日,字节豆包大模型团队在国际知名开源社区平台GitHub上开源了一项针对 MoE(混合专家模型)架构的关键优化技术COMET。据悉,该技术可将大模型训练效率提升1.7倍,成本节省40%。目前,COMET已实际应用于字节的万卡集群训练,累计帮助节省了数百万GPU小时训练算力。

2月12日,字节跳动豆包大模型团队发布消息称,团队提出了全新的稀疏模型架构UltraMem,可有效解决MoE推理时高额的访存问题,推理速度较MoE架构提升2—6倍,推理成本最高可降低83%。

业内人士分析,此次开源的COMET可与此前提出的UltraMem结合使用,将大模型训练成本进一步“砍”得更低。

当前,随着技术的不断进步迭代,以及头部厂商逐渐加入开源大军,大模型训练成本正不断下降。启明创投主管合伙人周志峰曾表示,大模型每百万Token调用成本已经从2023年120美元(约人民币800元)降到2024年不到人民币1元,下降了99.9%,根据估算,未来成本很有可能再下降99.9%。