A survey of Efficient Transformer on Inference

Abstract Transformer模型架构在自然语言处理、计算机视觉、强化学习等领域表现出了强大的能力,已经成为当前深度学习很多模型的核心,当前发展迅...

量化基础

1. 背景 从速度看 访存耗时远多于计算 浮点数计算耗时和整型计算耗时差不多?(from 张志),但是浮点数计算单元需要占用更多额外的芯片面积 从ener...