2026(17篇)
Alpa:用于分布式深度学习的算子间与算子内并行自动化 FSMoE:一种用于稀疏混合专家模型的灵活且可扩展的训练系统 The Illustrated Transformer 关于评估大语言模型(LLM)推理系统性能 基于 Megatron-LM 的 GPU 集群上高效大规模语言模型训练 Oobleck:大模型分布式训练的容错革命 OpenHands:面向 AI 软件开发者的通用代理开放平台 Parrot:通过语义变量高效服务基于 LLM 的应用 Pie:面向新兴 LLM 应用的可编程服务系统 可扩展智能体系统相关汇总 机器学习集群效率:使用 ML 生产力吞吐量分析与优化大规模 Google TPU 系统 TrainVerify:基于等价性的分布式大语言模型训练验证方法 WLB-LLM:用于大语言模型训练的工作负载均衡4D 并行方案 零气泡流水线并行 AReaL:用于语言推理的大规模异步强化学习系统 DeepSeek-R1:基于强化学习的大语言模型推理能力激励方法 METIS:具备配置自适应能力的快速高质量感知 RAG 系统