Encoder Decoder和decoder Only架构训练和推理浅析

之前一直对LLM推理过程中的prefill阶段和decode阶段有些困惑,prefill阶段处理prompt,decode阶段自回归地逐to...

LLM时代的transformer参数量、计算量、激活值的分析

导读:本文可以看作是对分析transformer模型的参数量、计算量、中间激活、KV cache的详细说明 定性分析 GPU上都存了哪些东西 首先我...