MoE_3D标签 - 大屏时代

MiniMax-01：引领下一代大模型技术，开启“Transformer时刻”

在大模型领域，几乎每一次创新都意味着技术的飞跃。从Transformer的崛起到GPT系列的壮大，每一次进展都让人工智能朝着更强大的方向前进。而今天，MiniMax公司推出的MiniMax-01，再次让人看到了大模型架构和技术突破的巨大潜力。它不仅代表着国内在大模型领域的技术前沿，也标志着一个新的“大模型时代”的开始。400万Token上下文：大模型的突破1月15日，MiniMax正式发布了预告已...

深度对话：从 DeepSeek 技术突破到 AI 超级集群的未来

编者注：本文根据美国知名播客主持人 Lex Fridman 与两位重量级嘉宾——半导体分析专家 Dylan Patel、AI 研究科学家 Nathan Lambert 之间的长达五小时访谈整理而成。原对话文字超十万字，我们在保留主要观点和思考深度的基础上进行了凝练和改写，希望给读者带来更流畅、更具可读性的阅读体验。01 | DeepSeek：从“黑马”到热议焦点1.1 DeepSeek 是什么？L...

DeepSeek开源DeepEP通信库：为MoE模型训练和推理提供高效解决方案

2025年2月25日，DeepSeek在开源周第二日宣布，成功开源DeepEP，这是第一个专为Mixture of Experts（MoE）模型训练和推理设计的开源EP通信库。DeepEP旨在提升MoE模型的计算效率，提供高效的节点内和节点间通信，优化GPU资源管理，并为AI开发者提供更灵活、低延迟的解决方案。1. DeepEP通信库：MoE模型的高效支持DeepEP是专门为MoE（Mixture...

字节对MoE模型训练成本再砍一刀成本可节省40%

字节豆包大模型团队今日正式开源一项针对MoE（混合专家模型）架构的关键优化技术。据悉，该技术在实际应用中已实现大模型训练效率提升1.7倍，同时可显著降低训练成本达40%，为人工智能领域的大规模模型训练带来了全新突破。技术创新助力大模型训练此次开源的优化技术针对MoE架构中存在的计算资源分配和调度瓶颈问题，采用了全新的算法优化方案和调度策略。经过在字节旗下万卡集群的实战检验，该技术累计帮助节省了数...

首页 1 尾页

MiniMax-01：引领下一代大模型技术，开启“Transformer时刻”

深度对话：从 DeepSeek 技术突破到 AI 超级集群的未来

DeepSeek开源DeepEP通信库：为MoE模型训练和推理提供高效解决方案

字节对MoE模型训练成本再砍一刀 成本可节省40%

字节对MoE模型训练成本再砍一刀成本可节省40%