FSMoE:一种用于稀疏混合专家模型的灵活且可扩展的训练系统
发布于
摘要 近年来,大型语言模型(LLMs)倾向于利用稀疏性来减少计算量,常用的方法是采用稀疏激活的混合专家(Mixture-of-Experts, MoE)技术。MoE 引入了四个模块,包括令牌路由(to...
继续阅读 →Next Door 0.5x Engineer
发布于
摘要 近年来,大型语言模型(LLMs)倾向于利用稀疏性来减少计算量,常用的方法是采用稀疏激活的混合专家(Mixture-of-Experts, MoE)技术。MoE 引入了四个模块,包括令牌路由(to...
继续阅读 →发布于
介绍 本文是Alpa: Automating Inter- and Intra-Operator Parallelism for Distributed Deep Learning的译文与笔记。 摘要...
继续阅读 →发布于
结构笔记 alt text 文件系统 文件系统的目的是组织和存储数据。文件系统通常支持用户和应用之间的数据共享,以及持久性,从而保证在系统重启后数据仍然可用。 xv6 文件系统提供了类 Unix 的文...
继续阅读 →发布于
介绍 本文是Pie: A Programmable Serving Systemfor Emerging LLM Applications的笔记与译文。 Notes notes notes notes...
继续阅读 →发布于
内存分配器 程序用户/kalloctest 对 xv6 的内存分配器进行压力测试:三个进程增长和缩小它们的地址空间,导致大量调用 kalloc 和 kfree 。 kalloc 和 kfree 获取 ...
继续阅读 →发布于
介绍 本文是Zero Bubble (Almost) Pipeline Parallelism的笔记及译文。 Notes alt text alt text alt text alt text 摘要 ...
继续阅读 →发布于
介绍 本文是[WLB-LLM: Workload-Balanced 4D Parallelism for Large Language Model Training](https://www.usen...
继续阅读 →发布于
介绍 本文是Parrot: Efficient Serving of LLM-based Applications with Semantic Variable的译文。 摘要 大型语言模型(LLM)的...
继续阅读 →发布于
第七章 锁 大多数内核(包括 xv6)都会交错执行多个活动。产生交错执行的一个来源是多处理器硬件:具有多个 CPU 独立执行的计算机,例如 xv6 的 RISC-V。这些多个 CPU 共享物理 RAM...
继续阅读 →发布于
入口与分支条件 由 在所有 CPU 的 supervisor 模式下进入; 根据 判断当前是否为引导 CPU()或其它 CPU()。 引导 CPU 路径(cpuid()==0) console...
继续阅读 →