2025(9篇)
2026(22篇)
Alpa:用于分布式深度学习的算子间与算子内并行自动化 Patching until the COWs come home 数据中心即计算机(一、二章节) FSMoE:一种用于稀疏混合专家模型的灵活且可扩展的训练系统 The Illustrated Transformer 认证 Kubernetes 应用开发者(CKAD)学习指南(一、二) 认证 Kubernetes 应用开发者(CKAD)学习指南(三) 关于评估大语言模型(LLM)推理系统性能 基于 Megatron-LM 的 GPU 集群上高效大规模语言模型训练 Oobleck:大模型分布式训练的容错革命 OpenHands:面向 AI 软件开发者的通用代理开放平台 如何阅读论文 Parrot:通过语义变量高效服务基于 LLM 的应用 Pie:面向新兴 LLM 应用的可编程服务系统 可扩展智能体系统相关汇总 机器学习集群效率:使用 ML 生产力吞吐量分析与优化大规模 Google TPU 系统 TrainVerify:基于等价性的分布式大语言模型训练验证方法 WLB-LLM:用于大语言模型训练的工作负载均衡4D 并行方案 零气泡流水线并行 AReaL:用于语言推理的大规模异步强化学习系统 DeepSeek-R1:基于强化学习的大语言模型推理能力激励方法 METIS:具备配置自适应能力的快速高质量感知 RAG 系统