分布式训练并行技术梳理总结

首先声明一些符号: 模型参数量:$\Phi$ GPU数量:$N$(有时候可能误写成了$n$) Pipeline degree(或者说PP size):$p$ TP siz...

Encoder Decoder和decoder Only架构训练和推理浅析

之前一直对LLM推理过程中的prefill阶段和decode阶段有些困惑,prefill阶段处理prompt,decode阶段自回归地逐to...

LLM时代的transformer参数量、计算量、激活值的分析

导读:本文可以看作是对分析transformer模型的参数量、计算量、中间激活、KV cache的详细说明 定性分析 GPU上都存了哪些东西 首先我...

flash_attention简要笔记

本文中有较多Latex数学公式,博客上有一些数学公式格式渲染不正确,可以查看flash_attention简要笔记 优化效果 原来,attent...

反向传播和自动微分简析

[toc] 1.自动微分 1.1 初步封装 首先我们考虑函数的自动微分。函数是这样的:$y=f(x), l=L(y)$,其中x表示输入,y是中间变量,L相当于是损...

推理框架设计

Tensor 背景 在推理框架中,只需要进行模型结构的加载、模型权重的加载,然后进行前向运算,整个过程不需要反向传播。 有时模型结构和权重信息会放在一个文件...

A survey of Efficient Transformer on Inference

Abstract Transformer模型架构在自然语言处理、计算机视觉、强化学习等领域表现出了强大的能力,已经成为当前深度学习很多模型的核心,当前发展迅...