视觉Transformer(ViTs)在计算机视觉领域引发了最新且最重要的突破。其高效设计大多以计算复杂度的间接指标,即浮点运算数(FLOPs)为指导,然而,该指标与吞吐量等直接指标之间存在明显差距。因此,我们建议使用目标平台上的直接速度评估作为高效ViTs的设计原则。特别是,我们引入了一种简单且有效的ViT——LITv2,在各种不同模型尺寸下,LITv2均以更快的速度优于现有的最先进方法。LITv2的核心是一种新颖的自注意力机制,我们称之为HiLo。
© 版权声明
本网站上的所有资源均来源于本网站,所有网址和文章版权均归原作者所有。如有侵权行为,请将相关证明发送至以下电子邮件地址:dxsen@qq.com