deep learning | Paul's Blog

分布式训练并行技术梳理总结

首先声明一些符号：模型参数量：$\Phi$ GPU数量：$N$（有时候可能误写成了$n$） Pipeline degree（或者说PP size）：$p$ TP siz...

之前一直对LLM推理过程中的prefill阶段和decode阶段有些困惑，prefill阶段处理prompt，decode阶段自回归地逐to...

导读：本文可以看作是对分析transformer模型的参数量、计算量、中间激活、KV cache的详细说明定性分析 GPU上都存了哪些东西首先我...

本文中有较多Latex数学公式，博客上有一些数学公式格式渲染不正确，可以查看flash_attention简要笔记优化效果原来，attent...

[toc] 1.自动微分 1.1 初步封装首先我们考虑函数的自动微分。函数是这样的：$y=f(x), l=L(y)$，其中x表示输入，y是中间变量，L相当于是损...

Tensor 背景在推理框架中，只需要进行模型结构的加载、模型权重的加载，然后进行前向运算，整个过程不需要反向传播。有时模型结构和权重信息会放在一个文件...

Abstract Transformer模型架构在自然语言处理、计算机视觉、强化学习等领域表现出了强大的能力，已经成为当前深度学习很多模型的核心，当前发展迅...