视觉<a href="https://www.ecreat.cn/tag/transformer” target=”_blank”>Transformer(ViTs)在图像识别领域实现了最新的突破,为计算机视觉界带来了新的可能性。尽管许多高效设计是以浮点运算数(FLOPs)这一计算复杂度的间接指标为依据,但这一指标与实际性能(如吞吐量)之间存在显著差距。因此,我们主张将目标平台上的直接速度评估作为设计高效ViTs的准则。特别是,我们介绍了一种新颖且高效的ViT——LITv2,它在各种模型尺寸下均展现出了优于现有最先进方法的性能。LITv2的核心在于一种我们称之为HiLo的自注意力机制,这种机制显著提升了模型的效率。
© 版权声明
本网站上的所有资源均来源于本网站,所有网址和文章版权均归原作者所有。如有侵权行为,请将相关证明发送至以下电子邮件地址:dxsen@qq.com