第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定

基于加性注意力的快速視覺(jué)變換器簡(jiǎn)評(píng)

Fastformer应用于Vision Transformer

基于加性注意力的快速视觉Transformer,
快速视觉Transformer (FViT)
,来自深圳大学和西安电子科技大学,
2024 CAI(Tsang Sik-Ho @ Medium),

图像分类,
1989年 - 2023 [视觉排列器 (ViP)] [ConvMixer] [CrossFormer++] [FastViT] [EfficientFormerV2] [MobileViTv2] [ConvNeXt V2] [SwiftFormer] [OpenCLIP] 2024**[FasterViT] [CAS-ViT] [TinySaver]
==== 我还有其他论文阅读在这里 ====,

概述:
  1. 快速视觉变换器(FViT)
  2. 结果显示了
1. 快速视觉变换器(FViT)
1.1. 视觉变换器 (ViT)
  • ViT 中的 多头自注意力机制 模块:

式(1)和(2)具有二次复杂度。

1.2. 快速变换器(Fastformer)

加性注意力模块和Fastformer

  • 在视觉Transformer中,对于Q、K、V矩阵,不是使用全自注意力,而是首先应用一个加性注意力模块,将查询矩阵转化为一个带有注意力权重α的全局查询向量 q

  • 然后全局查询向量与每个键向量的逐元素相乘将它们整合成一个全局感知的键矩阵
  • 类似地,为了计算效率,i 个向量的加性注意力权重全局键向量被计算出来:

  • 然后计算两者的逐元素乘积,即全局键和值向量之间的元素级乘积。
  • 然后对每个键值交互向量应用一个线性变换层,以学习其隐藏表示,再加上查询矩阵,从而形成模型的最终输出

线性复杂性成功实现了。

2. 结果如下
  • Fastformer(b_32 和 b_16 变体)与 ViT 的 B/16 和 B/32 版本进行了比较。B/16 和 B/32 的隐藏层维度为 768,MLP 的维度为 3072。
  • 它们的头数为 12,深度设置为 12。

ImageNet 的结果

在B/16变体中,ViT达到了77%的Top-1准确度,比Fastformer-B/16的63%更好。但是Fastformer-B/16只有79M参数,而ViT-B/16则有86M参数之多。

  • Fastformer-B/16 的计算量为 45.2 GFLOPs,而 ViT-B/16 的计算量为 49.3 GFLOPs,后者比前者计算量更大。GFLOPs(每秒十亿次浮点运算)。

B/32 版本 中,ViT-B/32 的 Top-1 准确率为 73%,而 Fastformer-B/32 的准确率为 65%。但是,Fastformer-B/32 参数量为 81M,而ViT-B/32 则为 88M

  • Fastformer-B/32 的 11.6 GFLOPs 计算量比 ViT-B/32 的 12.6 GFLOPs 更低。
  • (虽然作者提到具有更少 FLOPs 的方法可以获得与 ViT 相当的性能,但精度明显下降。)
點(diǎn)擊查看更多內(nèi)容
TA 點(diǎn)贊

若覺(jué)得本文不錯(cuò),就分享一下吧!

評(píng)論

作者其他優(yōu)質(zhì)文章

正在加載中
  • 推薦
  • 評(píng)論
  • 收藏
  • 共同學(xué)習(xí),寫(xiě)下你的評(píng)論
感謝您的支持,我會(huì)繼續(xù)努力的~
掃碼打賞,你說(shuō)多少就多少
贊賞金額會(huì)直接到老師賬戶(hù)
支付方式
打開(kāi)微信掃一掃,即可進(jìn)行掃碼打賞哦
今天注冊(cè)有機(jī)會(huì)得

100積分直接送

付費(fèi)專(zhuān)欄免費(fèi)學(xué)

大額優(yōu)惠券免費(fèi)領(lǐng)

立即參與 放棄機(jī)會(huì)
微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢(xún)優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)

舉報(bào)

0/150
提交
取消