第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時綁定郵箱和手機立即綁定

基于加性注意力的快速視覺變換器簡評

Fastformer应用于Vision Transformer

基于加性注意力的快速视觉Transformer,
快速视觉Transformer (FViT)
,来自深圳大学和西安电子科技大学,
2024 CAI(Tsang Sik-Ho @ Medium),

图像分类,
1989年 - 2023 [视觉排列器 (ViP)] [ConvMixer] [CrossFormer++] [FastViT] [EfficientFormerV2] [MobileViTv2] [ConvNeXt V2] [SwiftFormer] [OpenCLIP] 2024**[FasterViT] [CAS-ViT] [TinySaver]
==== 我还有其他论文阅读在这里 ====,

概述:
  1. 快速视觉变换器(FViT)
  2. 结果显示了
1. 快速视觉变换器(FViT)
1.1. 视觉变换器 (ViT)
  • ViT 中的 多头自注意力机制 模块:

式(1)和(2)具有二次复杂度。

1.2. 快速变换器(Fastformer)

加性注意力模块和Fastformer

  • 在视觉Transformer中,对于Q、K、V矩阵,不是使用全自注意力,而是首先应用一个加性注意力模块,将查询矩阵转化为一个带有注意力权重α的全局查询向量 q

  • 然后全局查询向量与每个键向量的逐元素相乘将它们整合成一个全局感知的键矩阵
  • 类似地,为了计算效率,i 个向量的加性注意力权重全局键向量被计算出来:

  • 然后计算两者的逐元素乘积,即全局键和值向量之间的元素级乘积。
  • 然后对每个键值交互向量应用一个线性变换层,以学习其隐藏表示,再加上查询矩阵,从而形成模型的最终输出

线性复杂性成功实现了。

2. 结果如下
  • Fastformer(b_32 和 b_16 变体)与 ViT 的 B/16 和 B/32 版本进行了比较。B/16 和 B/32 的隐藏层维度为 768,MLP 的维度为 3072。
  • 它们的头数为 12,深度设置为 12。

ImageNet 的结果

在B/16变体中,ViT达到了77%的Top-1准确度,比Fastformer-B/16的63%更好。但是Fastformer-B/16只有79M参数,而ViT-B/16则有86M参数之多。

  • Fastformer-B/16 的计算量为 45.2 GFLOPs,而 ViT-B/16 的计算量为 49.3 GFLOPs,后者比前者计算量更大。GFLOPs(每秒十亿次浮点运算)。

B/32 版本 中,ViT-B/32 的 Top-1 准确率为 73%,而 Fastformer-B/32 的准确率为 65%。但是,Fastformer-B/32 参数量为 81M,而ViT-B/32 则为 88M

  • Fastformer-B/32 的 11.6 GFLOPs 计算量比 ViT-B/32 的 12.6 GFLOPs 更低。
  • (虽然作者提到具有更少 FLOPs 的方法可以获得与 ViT 相当的性能,但精度明显下降。)
點擊查看更多內容
TA 點贊

若覺得本文不錯,就分享一下吧!

評論

作者其他優(yōu)質文章

正在加載中
  • 推薦
  • 評論
  • 收藏
  • 共同學習,寫下你的評論
感謝您的支持,我會繼續(xù)努力的~
掃碼打賞,你說多少就多少
贊賞金額會直接到老師賬戶
支付方式
打開微信掃一掃,即可進行掃碼打賞哦
今天注冊有機會得

100積分直接送

付費專欄免費學

大額優(yōu)惠券免費領

立即參與 放棄機會
微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號

舉報

0/150
提交
取消