分布式训练并行技术梳理总结
首先声明一些符号: 模型参数量:$\Phi$ GPU数量:$N$(有时候可能误写成了$n$) Pipeline degree(或者说PP size):$p$ TP siz...
首先声明一些符号: 模型参数量:$\Phi$ GPU数量:$N$(有时候可能误写成了$n$) Pipeline degree(或者说PP size):$p$ TP siz...
之前一直对LLM推理过程中的prefill阶段和decode阶段有些困惑,prefill阶段处理prompt,decode阶段自回归地逐to...
导读:本文可以看作是对分析transformer模型的参数量、计算量、中间激活、KV cache的详细说明 定性分析 GPU上都存了哪些东西 首先我...
本文中有较多Latex数学公式,博客上有一些数学公式格式渲染不正确,可以查看flash_attention简要笔记 优化效果 原来,attent...
[toc] 1.自动微分 1.1 初步封装 首先我们考虑函数的自动微分。函数是这样的:$y=f(x), l=L(y)$,其中x表示输入,y是中间变量,L相当于是损...
Tensor 背景 在推理框架中,只需要进行模型结构的加载、模型权重的加载,然后进行前向运算,整个过程不需要反向传播。 有时模型结构和权重信息会放在一个文件...
Abstract Transformer模型架构在自然语言处理、计算机视觉、强化学习等领域表现出了强大的能力,已经成为当前深度学习很多模型的核心,当前发展迅...