transformer | Paul's Blog

Encoder Decoder和decoder Only架构训练和推理浅析

之前一直对LLM推理过程中的prefill阶段和decode阶段有些困惑，prefill阶段处理prompt，decode阶段自回归地逐to...

LLM时代的transformer参数量、计算量、激活值的分析

导读：本文可以看作是对分析transformer模型的参数量、计算量、中间激活、KV cache的详细说明定性分析 GPU上都存了哪些东西首先我...