首页 > 3D标签MoE 相关文章
MiniMax-01:引领下一代大模型技术,开启“Transformer时刻”

MiniMax-01:引领下一代大模型技术,开启“Transformer时刻”

在大模型领域,几乎每一次创新都意味着技术的飞跃。从Transformer的崛起到GPT系列的壮大,每一次进展都让人工智能朝着更强大的方向前进。而今天,MiniMax公司推出的MiniMax-01,再次让人看到了大模型架构和技术突破的巨大潜力。它不仅代表着国内在大模型领域的技术前沿,也标志着一个新的“大模型时代”的开始。400万Token上下文:大模型的突破1月15日,MiniMax正式发布了预告已...

深度对话:从 DeepSeek 技术突破到 AI 超级集群的未来

深度对话:从 DeepSeek 技术突破到 AI 超级集群的未来

编者注:本文根据美国知名播客主持人 Lex Fridman 与两位重量级嘉宾——半导体分析专家 Dylan Patel、AI 研究科学家 Nathan Lambert 之间的长达五小时访谈整理而成。原对话文字超十万字,我们在保留主要观点和思考深度的基础上进行了凝练和改写,希望给读者带来更流畅、更具可读性的阅读体验。01 | DeepSeek:从“黑马”到热议焦点1.1 DeepSeek 是什么?L...

DeepSeek开源DeepEP通信库:为MoE模型训练和推理提供高效解决方案

DeepSeek开源DeepEP通信库:为MoE模型训练和推理提供高效解决方案

2025年2月25日,DeepSeek在开源周第二日宣布,成功开源DeepEP,这是第一个专为Mixture of Experts(MoE)模型训练和推理设计的开源EP通信库。DeepEP旨在提升MoE模型的计算效率,提供高效的节点内和节点间通信,优化GPU资源管理,并为AI开发者提供更灵活、低延迟的解决方案。1. DeepEP通信库:MoE模型的高效支持DeepEP是专门为MoE(Mixture...

字节对MoE模型训练成本再砍一刀 成本可节省40%

字节对MoE模型训练成本再砍一刀 成本可节省40%

字节豆包大模型团队今日正式开源一项针对MoE(混合专家模型)架构的关键优化技术。据悉,该技术在实际应用中已实现大模型训练效率提升1.7倍,同时可显著降低训练成本达40%,为人工智能领域的大规模模型训练带来了全新突破。技术创新 助力大模型训练此次开源的优化技术针对MoE架构中存在的计算资源分配和调度瓶颈问题,采用了全新的算法优化方案和调度策略。经过在字节旗下万卡集群的实战检验,该技术累计帮助节省了数...