15、CF-ViT: A General Coarse-to-Fine Method for Vision Transformer
创始人
2024-06-02 13:50:33
0

简介

论文:https://arxiv.org/abs/2203.03821
github:https://arxiv.org/pdf/2203.03821.pdf

transformer 输入图像的空间维度上产生了相当大的冗余,导致大量的计算成本。

论文提出一种粗到细的vision transformer(CF-ViT)来减轻计算负担,同时保持性能

CF-ViT在不影响性能的情况下,比LV-ViT降低了53%的FLOPs,吞吐量也达到了2.01×
在这里插入图片描述
vit transformer 加速方法

  • Static ViT Compression
    致力于通过手动设计模块,无论输入图像如何,都具有固定的计算图,从而降低网络复杂性
  • Dynamic ViT Compression
    动态ViT根据其输入图像调整计算图

vis transformer公式

编码、输入
在这里插入图片描述
注意力权重
在这里插入图片描述
FFN
在这里插入图片描述

实现流程

主要思想是减少输入序列长度来降低计算成本
在这里插入图片描述
理论依据是

  • 粗粒度的补丁分割也可以很好地定位信息对象
  • 大多数图像在较短的序列长度内都能被ViT模型很好地识别

论文方法将vis transformer的过程分为两阶段实现

在粗推理阶段使用较小长度的标记序列实现图像识别,如果预测结果没达到阈值,进一步分割信息区域以进行细粒度识别

Coarse Inference Stage

输入
在这里插入图片描述
假设有 k 个编码器,输出为
在这里插入图片描述
再经过一个分类器 F,得到各个patch的 n-分类结果
在这里插入图片描述
取最大的分类概率值
在这里插入图片描述
使用阈值 η 来实现性能和计算之间的权衡,如果 pjc>ηp^c_j > ηpjc​>η,那么输出分类结果为 j 类,否则进入细推理阶段

Informative Region Identification

并不是对所有patch都进行细分,识别并重新划分这些对性能提高最有利的信息 patch
在这里插入图片描述

使用类注意力 ak0a^0_kak0​ 作为分数来指示一个令牌是否具有信息

全局类注意力:此外,使用指数移动平均(EMA)将不同编码器之间的类注意结合起来,以更好地识别信息补丁
在这里插入图片描述
β=0.99\beta = 0.99β=0.99 全局类注意力从第 4 个编码器开始,在最后一个编码器αˉK\bar{\alpha}_KαˉK​ 中选取全局类注意力得分较高的patch

Fine Inference Stage

通过注意力权重大小对patch进行排序后,进一步限制细推理的patch数量

限定细粒度分裂后的patch数为
在这里插入图片描述
α∈[0,1]\alpha \in [0,1]α∈[0,1]提供了准确性和效率之间的权衡

α = 0表示没有很好的推断,结果 patch 最少,虽然计算上很经济,但如果测试集充满了“硬”图像,性能就会下降

α = 1导致CF-ViT精细推理阶段退化到传统的ViT模型

α设为0.5

Feature Reuse

在这里插入图片描述
经过patch限定后的输入patch为:
在这里插入图片描述
为了不丢失原有的信息,将划分前的patch信息注入到四个细粒度补丁中

如上上图所示,x~0f\tilde{x}_0^fx~0f​首先经过一个MLP映射,然后复制4份,再根据粗推理阶段的预测结果进行筛选,得到Xr=FR(xK1;xL2;⋯;xKNc)X_r = FR(x^1_K;x^2_L;\cdots;x_K^{N_c})Xr​=FR(xK1​;xL2​;⋯;xKNc​​),然后分别与细粒度划分后的patch相加

在这里插入图片描述
简单而言,就是每个划分后的小patch应该继承划分前大patch的信息

划分后再经过一个分类器得到预测分类结果 pfp^fpf
在这里插入图片描述

实验

损失函数
在这里插入图片描述
交叉熵损失 和 Kullback-Leibler散度

使用的η = 1,这意味着对每个输入图像都会执行精细推断阶段,η值越大,进入精细推理阶段的输入越多,性能越好,但计算成本也越大,反之亦然

result

在这里插入图片描述
在这里插入图片描述

上一篇:连接池介绍

下一篇:shell重定向

相关内容

热门资讯

常用商务英语口语   商务英语是以适应职场生活的语言要求为目的,内容涉及到商务活动的方方面面。下面是小编收集的常用商务...
六年级上册英语第一单元练习题   一、根据要求写单词。  1.dry(反义词)__________________  2.writ...
复活节英文怎么说 复活节英文怎么说?复活节的英语翻译是什么?复活节:Easter;"Easter,anniversar...
2008年北京奥运会主题曲 2008年北京奥运会(第29届夏季奥林匹克运动会),2008年8月8日到2008年8月24日在中华人...
英语道歉信 英语道歉信15篇  在日常生活中,道歉信的使用频率越来越高,通过道歉信,我们可以更好地解释事情发生的...
六年级英语专题训练(连词成句... 六年级英语专题训练(连词成句30题)  1. have,playhouse,many,I,toy,i...
上班迟到情况说明英语   每个人都或多或少的迟到过那么几次,因为各种原因,可能生病,可能因为交通堵车,可能是因为天气冷,有...
小学英语教学论文 小学英语教学论文范文  引导语:英语教育一直都是每个家长所器重的,那么有关小学英语教学论文要怎么写呢...
英语口语学习必看的方法技巧 英语口语学习必看的方法技巧如何才能说流利的英语? 说外语时,我们主要应做到四件事:理解、回答、提问、...
四级英语作文选:Birth ... 四级英语作文范文选:Birth controlSince the Chinese Governmen...
金融专业英语面试自我介绍 金融专业英语面试自我介绍3篇  金融专业的学生面试时,面试官要求用英语做自我介绍该怎么说。下面是小编...
我的李老师走了四年级英语日记... 我的李老师走了四年级英语日记带翻译  我上了五个学期的小学却换了六任老师,李老师是带我们班最长的语文...
小学三年级英语日记带翻译捡玉... 小学三年级英语日记带翻译捡玉米  今天,我和妈妈去外婆家,外婆家有刚剥的`玉米棒上带有玉米籽,好大的...
七年级英语优秀教学设计 七年级英语优秀教学设计  作为一位兢兢业业的人民教师,常常要写一份优秀的教学设计,教学设计是把教学原...
我的英语老师作文 我的英语老师作文(通用21篇)  在日常生活或是工作学习中,大家都有写作文的经历,对作文很是熟悉吧,...
英语老师教学经验总结 英语老师教学经验总结(通用19篇)  总结是指社会团体、企业单位和个人对某一阶段的学习、工作或其完成...
初一英语暑假作业答案 初一英语暑假作业答案  英语练习一(基础训练)第一题1.D2.H3.E4.F5.I6.A7.J8.C...
大学生的英语演讲稿 大学生的英语演讲稿范文(精选10篇)  使用正确的写作思路书写演讲稿会更加事半功倍。在现实社会中,越...
VOA美国之音英语学习网址 VOA美国之音英语学习推荐网址 美国之音网站已经成为语言学习最重要的资源站点,在互联网上还有若干网站...
商务英语期末试卷 Part I Term Translation (20%)Section A: Translate ...