sponsored links

Transformer已成新霸主?FAIR等重新設計純卷積ConvNet,效能反超

機器之心報道

編輯:陳萍、小舟

來自 FAIR 、UC 伯克利的研究者重新檢查了設計空間並測試了純 ConvNet 所能達到的極限,表明卷積神經網路的效能不亞於視覺 Transformer。

視覺識別的快速發展始於 Vision transformer (ViT) 的引入,其很快取代了傳統卷積神經網路 (ConvNet),成為最先進的影象分類模型。另一方面, ViT 模型在包括目標檢測、語義分割等一系列計算機視覺任務中存在很多挑戰。因此,有研究者提出分層 Transformer(如 Swin Transformer),他們重新引入 ConvNet 先驗,這樣使得 Transformer 作為通用視覺主幹實際上可行,並在各種視覺任務上表現出卓越的效能。

然而,這種混合方法的有效性在很大程度上仍歸功於 Transformer 的內在優勢,而不是卷積固有的歸納偏置。在這項工作中,來自 FAIR 、UC 伯克利的研究者重新檢查了設計空間並測試了純 ConvNet 所能達到的極限。研究者逐漸將標準 ResNet「升級(modernize」為視覺 Transformer 的設計,並在此過程中發現了導致效能差異的幾個關鍵元件。

Transformer已成新霸主?FAIR等重新設計純卷積ConvNet,效能反超

  • 論文地址:https://arxiv.org/pdf/2201.03545.pdf
  • 程式碼地址:https://github.com/facebookresearch/ConvNeXt

研究者將這一系列純 ConvNet 模型,命名為 ConvNeXt。ConvNeXt 完全由標準 ConvNet 模組構建,在準確性和可擴充套件性方面 ConvNeXt 取得了與 Transformer 具有競爭力的結果,達到 87.8% ImageNet top-1 準確率,在 COCO 檢測和 ADE20K 分割方面優於 Swin Transformer,同時保持標準 ConvNet 的簡單性和有效性。

Transformer已成新霸主?FAIR等重新設計純卷積ConvNet,效能反超

值得一提的是,該論文一作為劉壯(Zhuang Liu),是大名鼎鼎 DenseNet 的共同一作,憑藉論文《Densely Connected Convolutional Networks》,摘得 CVPR 2017 最佳論文獎。作者謝賽寧是ResNeXt的一作。

升級卷積神經網路

該研究梳理了從 ResNet 到類似於 Transformer 的卷積神經網路的發展軌跡。該研究根據 FLOPs 考慮兩種模型大小,一種是 ResNet-50 / Swin-T 機制,其 FLOPs 約為 4.5×10^9,另一種是 ResNet-200 / Swin-B 機制,其 FLOPs 約為 15.0×10^9。為簡單起見,該研究使用 ResNet-50 / Swin-T 複雜度模型展示實驗結果。

為了探究 Swin Transformer 的設計和標準卷積神經網路的簡單性,該研究從 ResNet-50 模型出發,首先使用用於訓練視覺 Transformer 的類似訓練方法對其進行訓練,與原始 ResNet-50 相比的結果表明效能獲得了很大的提升,並將改進後的結果作為基線。

然後該研究制定了一系列設計決策,總結為 1) 宏觀設計,2) ResNeXt,3) 反轉瓶頸,4) 卷積核大小,以及 5) 各種逐層微設計。下圖 2 展示了「升級網路」每一步的實現過程和結果,所有模型都是在 ImageNet-1K 上進行訓練和評估的。由於網路複雜度和最終效能密切相關,因此該研究在探索過程中粗略控制了 FLOPs。

訓練方法

除了網路架構的設計,訓練過程也會影響最終效能。視覺 Transformer 不僅帶來了一些新的架構設計決策和模組,而且還為視覺領域引入了多種訓練方法(例如 AdamW 最佳化器)。這主要與最佳化策略和相關的超引數設定有關。

因此,該研究第一步使用視覺 Transformer 訓練程式訓練基線模型(ResNet50/200)。2021 年 Ross Wightman 等人的論文《 An improved training procedure in timm 》展示了一組顯著提高 ResNet-50 模型效能的訓練方法。而在本篇論文中,研究者使用了一種類似於 DeiT 和 Swin Transformer 的訓練方法。訓練從 ResNet 原始的 90 個 epoch 擴充套件到了 300 個 epoch。

該研究使用了 AdamW 最佳化器、Mixup、Cutmix、RandAugment、隨機擦除(Random Erasing)等資料增強技術,以及隨機深度和標籤平滑(Label Smoothing)等正則化方案。這種改進的訓練方案將 ResNet-50 模型的效能從 76.1% 提高到了 78.8%(+2.7%),這意味著傳統 ConvNet 和視覺 Transformer 之間很大一部分效能差異可能是訓練技巧導致的。

宏觀設計

該研究第二步分析了當前 Swin Transformer 的宏觀網路設計。Swin Transformer 使用類似於卷積神經網路的多階段設計,每個階段具有不同的特徵圖解析度。其中兩個重要的設計考量是階段計算比和主幹架構。

一方面,ResNet 中跨階段計算分佈的原始設計很大程度上是受實驗影響的。另一方面,Swin-T 遵循相同的原則,但階段計算比略有不同。該研究將每個階段的塊數從 ResNet-50 中的 (3, 4, 6, 3) 調整為 (3, 3, 9, s3),使得 FLOPs 與 Swin-T 對齊。這將模型準確率從 78.8% 提高到了 79.4%。

通常,主幹架構重點關注網路如何處理輸入影象。由於自然影象中固有的冗餘性,普通架構在標準 ConvNet 和視覺 Transformer 中積極地將輸入影象下采樣到適當的特徵圖大小。標準 ResNet 中包含一個步長為 2 的 7×7 卷積層和一個最大池,這讓輸入影象可進行 4 倍下采樣。而視覺 Transformer 使用了「patchify」策略,Swin Transformer 雖然使用類似的「patchify」層,但使用更小的 patch 大小來適應架構的多階段設計。該研究將 ResNet 主幹架構替換為使用 4×4、步長為 4 的卷積層實現的 patchify 層,準確率從 79.4% 提升為 79.5%。這表明 ResNet 的主幹架構可以用更簡單的 patchify 層替代。

ResNeXt-ify

第三步該研究嘗試採用 ResNeXt [82] 的思路,ResNeXt 比普通的 ResNet 具有更好的 FLOPs / 準確率權衡。核心元件是分組卷積,其中卷積濾波器被分成不同的組。ResNeXt 的指導原則是「使用更多的組,擴大寬度」。更準確地說,ResNeXt 對瓶頸塊中的 3×3 卷積層採用分組卷積。由於顯著降低了 FLOPs,因此這擴充套件了網路寬度以補償容量損失。

該研究使用分組卷積的一種特殊情況——深度卷積(depthwise convolution),其中組數等於通道數。深度卷積已被 MobileNet [32] 和 Xception [9] 使用。研究者注意到,深度卷積類似於自注意力中的加權求和操作,在每個通道的基礎上進行操作,即僅在空間維度上混合資訊。深度卷積的使用有效地降低了網路的 FLOPs。按照 ResNeXt 中提出的策略,該研究將網路寬度增加到與 Swin-T 的通道數相同(從 64 增加到 96)。隨著 FLOPs (5.3G) 的增加,網路效能達到了 80.5%。

反轉瓶頸

Transformer 中一個重要的設計是建立了反轉瓶頸,即 MLP 塊的隱藏維度比輸入維度寬四倍,如下圖 4 所示。有趣的是,Transformer 的這種設計與卷積神經網路中使用的擴充套件比為 4 的反轉瓶頸設計有關聯。

Transformer已成新霸主?FAIR等重新設計純卷積ConvNet,效能反超

因此該研究第四步探索了反轉瓶頸的設計。如下圖 3 所示,儘管深度卷積層的 FLOPs 增加了,但由於下采樣殘差塊的 shortcut 1×1 卷積層的 FLOPs 顯著減少,整個網路的 FLOPs 減少到 4.6G。有趣的是,這會讓效能從 80.5% 稍稍提高至 80.6%。在 ResNet-200 / Swin-B 方案中,這一步帶來了更多的效能提升——從 81.9% 提升到 82.6%,同時也減少了 FLOPs。

卷積核大小

第五步該研究探索了大型卷積核的作用。視覺 Transformer 最顯著的特性是其非區域性自注意力,每一層都具有全域性感受野。雖然已有卷積神經網路使用了大卷積核,但黃金標準(VGGNet [62] )是堆疊小卷積核(3×3)的卷積層。儘管 Swin Transformer 重新將區域性視窗引入到自注意力塊中,但視窗大小至少為 7×7,明顯大於 3×3 的 ResNe(X)t 卷積核大小。因此該研究重新審視了在卷積神經網路中使用大卷積核的作用。

向上移動深度卷積層。要探索大卷積核,一個先決條件是向上移動深度卷積層的位置(如圖 3(c) 所示)。類似地,Transformer 中也將 MSA 塊放置在 MLP 層之前。由於已經設定一個反轉瓶頸塊,複雜、低效的模組(MSA、大卷積核)通道變少,而高效、密集的 1×1 層將完成繁重的工作。因此這個中間步驟將 FLOPs 減少到 4.1G,導致效能暫時下降到 79.9%。

增大卷積核。經過上述準備工作,採用更大的卷積核是具有顯著優勢的。該研究嘗試了幾種卷積核大小:3、5、7、9、11。網路的效能從 79.9% (3×3) 提高為 80.6% (7×7),而網路的 FLOPs 大致保持不變。

此外,研究者觀察到較大的卷積核的好處是在 7×7 處會達到飽和點,並在大容量模型中驗證了這種行為。當卷積核大小超過 7×7 時,ResNet-200 機制模型沒有表現出進一步的增益。因此該研究在每個塊中都使用了 7×7 深度卷積。

至此,宏觀尺度網路架構的升級調整已經完成。

微觀設計

下一步研究者探究了一些微觀尺度上的架構差異——這裡的大部分探索都是在層級完成的,重點是啟用函式和歸一化層的具體選擇。

用 GELU 替代 ReLU。隨著時間的推移,研究者已經開發了許多啟用函式,但 ReLU 由於其簡單性和有效性,仍然在 ConvNet 中廣泛使用。ReLU 也被用作原始 Transformer 中的啟用函式。GELU 可以被認為是 ReLU 的更平滑變體,被用於最先進的 Transformer,包括 Google 的 BERT 和 OpenAI 的 GPT-2 ,以及 ViT 等。該研究發現 ReLU 在 ConvNet 中也可以用 GELU 代替,準確率保持不變(80.6%)。

更少的啟用函式。Transformer 和 ResNet 塊之間的一個小區別是 Transformer 的啟用函式較少。如圖 4 所示,該研究從殘差塊中消除了所有 GELU 層,除了在兩個 1×1 層之間的 GELU 層,這是複製了 Transformer 塊的風格。這個過程將結果提高了 0.7% 到 81.3%,實際上與 Swin-T 效能相當。

更少的歸一化層。Transformer 塊通常也具有較少的歸一化層。在這裡,該研究刪除了兩個 BatchNorm (BN) 層,在 conv 1 × 1 層之前只留下一個 BN 層。這進一步將效能提升至 81.4%,已經超過了 Swin-T 的結果。請注意,該研究的每個塊的歸一化層比 Transformer 還要少,研究人員發現在塊的開頭新增一個額外的 BN 層並不能提高效能。

用 LN 代替 BN。BatchNorm(BN)是 ConvNet 中的重要組成部分,因為它提高了收斂性並減少了過擬合。然而,BN 也有許多錯綜複雜的東西,可能會對模型的效能產生不利影響 。研究者曾多次嘗試開發替代方案,但 BN 仍然是大多數視覺任務的首選方法。在原始 ResNet 中直接用 LN 代替 BN 效能欠佳。隨著網路架構和訓練技術的改進,該研究重新審視使用 LN 代替 BN 的影響,得出 ConvNet 模型在使用 LN 訓練時沒有任何困難;實際上,效能會改進一些,獲得了 81.5% 的準確率。

分離式(Separate)下采樣層。在 ResNet 中,空間下采樣是透過每個 stage 開始時的殘差塊來實現的,使用 stride =2 的 3×3 卷積。在 Swin Transformer 中,在各個 stage 之間添加了一個分離式下采樣層。該研究探索了一種類似的策略,在該策略中,研究者使用 stride =2 的 2×2 卷積層進行空間下采樣。令人驚訝的是,這種改變會導致不同的訓練結果。進一步調查表明,在空間解析度發生變化的地方新增歸一化層有助於穩定訓練。該研究可以將準確率提高到 82.0%,大大超過 Swin-T 的 81.3%。該研究採用分離式下采樣層,得到了最終模型 ConvNeXt。ResNet、Swin 和 ConvNeXt 塊結構的比較如圖 4 所示。

ResNet-50、Swin-T 和 ConvNeXt-T 的詳細架構規範的比較如表 9 所示。

Transformer已成新霸主?FAIR等重新設計純卷積ConvNet,效能反超

實驗

ImageNet 實驗評估

該研究構建了不同的 ConvNeXt 變體,ConvNeXtT/S/B/L,與 Swin-T/S/B/L 具有相似的複雜性,可進行對標實驗評估。此外,該研究還構建了一個更大的 ConvNeXt-XL 來進一步測試 ConvNeXt 的可擴充套件性。不同變體模型的區別在於通道數、模組數,詳細資訊如下:

Transformer已成新霸主?FAIR等重新設計純卷積ConvNet,效能反超

Results ImageNet-1K:下表是 ConvNeXt 與 Transformer 變體 DeiT、Swin Transformer,以及 RegNets 和 EfficientNets 的結果比較。

由結果可得:ConvNeXt 在準確率 - 計算權衡以及推理吞吐量方面取得了與 ConvNet 基線(RegNet 和 EfficientNet )具有競爭力的結果;ConvNeXt 的效能也全面優於具有類似複雜性的 Swin Transformer;與 Swin Transformers 相比,ConvNeXts 在沒有諸如移位視窗或相對位置偏置等專門模組的情況下也具有更高的吞吐量。

ImageNet-22K:下表(表頭參考上表)中展示了從 ImageNet-22K 預訓練中微調的模型的結果。這些實驗很重要,因為人們普遍認為視覺 Transformer 具有較少的歸納偏置,因此在大規模預訓練時可以比 ConvNet 表現更好。該研究表明,在使用大型資料集進行預訓練時,正確設計的 ConvNet 並不遜於視覺 Transformer——ConvNeXt 的效能仍然與類似大小的 Swin Transformer 相當或更好,吞吐量略高。此外,該研究提出的 ConvNeXt-XL 模型實現了 87.8% 的準確率——在 384^2 處比 ConvNeXt-L 有了相當大的改進,證明了 ConvNeXt 是可擴充套件的架構。

Isotropic ConvNeXt 與 ViT 對比:在消融實驗中,研究者使用與 ViT-S/B/L (384/768/1024) 相同的特徵尺寸構建 isotropic ConvNeXt-S/B/L。深度設定為 18/18/36 以匹配引數和 FLOP 的數量,塊結構保持不變(圖 4)。ImageNet-1K 在 224^2 解析度下的結果如表 2 所示。結果顯示 ConvNeXt 的效能與 ViT 相當,這表明 ConvNeXt 塊設計在用於非分層模型時仍具有競爭力。

下游任務評估

在 COCO 上的目標檢測和分割研究:該研究以 ConvNeXt 為主幹,在 COCO 資料集上微調 Mask R-CNN 和 Cascade Mask R-CNN 。表 3 比較了 Swin Transformer、ConvNeXt 和傳統 ConvNet(如 ResNeXt)在目標檢測和例項分割上的結果。結果表明在不同的模型複雜性中,ConvNeXt 的效能與 Swin Transformer 相當或更好。

Transformer已成新霸主?FAIR等重新設計純卷積ConvNet,效能反超

基於 ADE20K 的語義分割:在表 4 中,該研究報告了具有多尺度測試的驗證 mIoU。ConvNeXt 模型可以在不同的模型容量上實現具有競爭力的效能,進一步驗證了 ConvNeXt 設計的有效性。

Transformer已成新霸主?FAIR等重新設計純卷積ConvNet,效能反超

分類: 健身
時間: 2022-01-11

相關文章

回憶東北剿匪:十八九歲的姑娘窮到沒衣服穿,必須儘快消滅土匪

回憶東北剿匪:十八九歲的姑娘窮到沒衣服穿,必須儘快消滅土匪
1945年8月,日本剛剛投降,吳永福就參加了上黨戰役. 淪陷區的百姓 但他很快就得到了另一個重要任務,跟隨幹部團火速趕往東北,建立根據地.吳永福一聽到訊息就報了名,現在獲得了批准.1945年10月,幹 ...

我們是十八軍子弟,是老西藏軍人的孩子!這是我們永遠不變的情懷

我們是十八軍子弟,是老西藏軍人的孩子!這是我們永遠不變的情懷
老西藏的孩子們 鍾建新 今年是西藏解放七十週年,是特別值得慶賀和紀念的,我一個十八軍的後代,一個西藏軍人的孩子心情很激動.我們十八軍前輩們,為了西藏的解放,歷盡艱辛,不畏犧牲,邊築路邊進軍西藏,留下太 ...

從紅二十八軍走出的“虎將”
來源:合肥晚報 作者:李明 崔建軍 程堂義 在中國工農紅軍發展史上,紅二十八軍經歷了兩次重建,堅持了三年游擊戰爭,而且還在後來被改編成了開闢敵後抗日根據地主力部隊之一的新四軍第四支隊.出生於安徽六安的 ...

十八歲以後才會明白的事

十八歲以後才會明白的事
那年你十八歲,年輕氣盛,好奇心重,說想到外面去看看,不顧家人的反對,獨自踏上了他鄉之旅,你說外面挺好的,餓了有飯吃,累了就睡覺,偶爾還能去酒吧玩一玩.到後來,你很快花光了身上僅有的兩千塊錢積蓄,差點沒 ...

民間故事:少女十八歲,滿頭白髮,道士見了竟是跪倒喊娘
民間故事,奇聞趣事,這裡是話神道仙的原創故事領域. 接下來請看傳奇的民間故事. 世間之大無奇不有,古往今來,民間可是發生了很多怪事,有些已經超出了人們的想象極限. 在古代,有著這麼一個怪事. 離著縣城 ...

國共第二次合作,中共番號是第十八集團軍,為什麼會被稱為八路軍

國共第二次合作,中共番號是第十八集團軍,為什麼會被稱為八路軍
1937年,國共達成第二次合作以後,中國工農紅軍改變為國民革命軍第八路軍,後來又改編成第十八集團軍.第十八集團軍就是中共軍隊的正式番號,但無論是在當時還是在後來的歷史上,敵我雙方都習慣把我軍稱之為&q ...

十八洞村:苗寨鉅變

十八洞村:苗寨鉅變
圖片來源:東方IC 經濟觀察報 記者 張曉暉 從湖南的省會城市長沙出發,一路向西,坐高鐵抵達湘西城市懷化,從懷化北上,途經沈從文的故鄉鳳凰古城,再開車走209國道,經過兩個小時彎彎曲曲的盤山公路,會抵 ...

2021《留學》名企探營第十八站 | 美中國際教育集團——深耕二十五載,成就行業老牌

2021《留學》名企探營第十八站 | 美中國際教育集團——深耕二十五載,成就行業老牌
在315國際消費者權益日當天,<留學>雜誌作為留學行業一線的專業垂直媒體,發起了針對留學行業的摸底與探查活動. 自2021年3月15日開始,<留學>將用6個月的時間,圍繞&qu ...

彭德懷問解方:“土耳其旅何物?”知道後告訴三十八軍給我全殲

彭德懷問解方:“土耳其旅何物?”知道後告訴三十八軍給我全殲
朝鮮戰爭中土耳其旅是第一個"報名"跟著美國跑到朝鮮的,而且出兵5400多人,一個旅的兵力,那是相當的積極,其中還有一支軍樂隊來鼓舞士氣. 主要原因是土耳其被打怕了,原來整個土耳其跟 ...

十八軍窯洞群遺址旁的移民新生活:家家戶戶都是庭院式民居

十八軍窯洞群遺址旁的移民新生活:家家戶戶都是庭院式民居
甘孜縣是由四川進入西藏的必經之路.1951年,為了給西進部隊提供一個穩固的空運通道,西南軍區決定搶修這裡的甘孜機場.為了不打擾當地百姓,戰士們就在附近的山坡上挖窯洞解決住宿,僅7個多月時間,就在海拔3 ...

一人之下4定檔,來和寶兒姐研究阿威十八式吧

一人之下4定檔,來和寶兒姐研究阿威十八式吧
距離<一人之下3>的播出已經過去了一年了,在粉絲們的千呼萬喚中<一人之下4>終於定檔了,將於9月24日播出. 這一期播出將是非常精彩的碧遊村篇,這一篇中的故事會非常精彩.和第三 ...

故城縣西半屯鎮十八里村:“葡萄+香瓜”致富能發家

故城縣西半屯鎮十八里村:“葡萄+香瓜”致富能發家
"聽說十八里村在葡萄園裡種起了香瓜,長得還不賴,這兩天忙著採摘往外走呢."鄰村的群眾議論紛紛. 十八里村位於西半屯鎮區西部,是典型的農業村,有良好的葡萄大棚種植基礎.為了發展壯大集 ...

羨慕忌妒啊!陽江十八子李總的新歡——Rey Audio號角音箱

羨慕忌妒啊!陽江十八子李總的新歡——Rey Audio號角音箱
故事得分二部份來說.第一部分是已收藏有數千件Hi-End音響器材的世界發燒音響博物館負責人李積回,也就是大家熟悉的陽江十八子.別看他有著彌勒佛一般的小肚子,聲音宏亮笑口常開,其實李總腦筋反應非常快,思 ...

十八歲公開,二十歲訂婚,二十二歲結婚,周峻緯會是下個任嘉倫嗎

十八歲公開,二十歲訂婚,二十二歲結婚,周峻緯會是下個任嘉倫嗎
在娛樂圈,大部分明星戀愛都會選擇不公開,因為會影響事業,但有一位明星卻非常特殊,他十八歲公開戀情,二十歲訂婚,二十五日歲結婚,看到英年早婚的周峻緯後,很多網友都認為他會成為下個任嘉倫,你怎麼看呢? ( ...

貓大十八變,來看看小眼緬因貓的蛻變史

貓大十八變,來看看小眼緬因貓的蛻變史
喜歡貓咪可以關注下"老胡說貓",分享養貓知識.救助故事.種草貓物,帶你走進貓的世界! 要說視覺衝擊最大的喵星人是誰?那體型碩大的緬因貓一定是可以排得上名次的! 還記得老胡第一次親眼 ...

尋訪十八軍足跡之一

尋訪十八軍足跡之一
中國西藏網訊 桑達寺位於西藏自治區那區市比如縣羊秀鄉普宗溝,是一座歷史悠久的苯教寺院,已有800餘年的歷史.該寺是普宗部落首領的寺廟,在歷史上實行活佛家族世襲制,由首領委任一位兒子為寺院活佛,主持宗教 ...

樊梨花的武藝到底有多強?她的實力與十八好漢相比是什麼水準?

樊梨花的武藝到底有多強?她的實力與十八好漢相比是什麼水準?
在羅通掃北時最強的戰將就是猛羅仁,號稱小裴元慶的的他與羅通的差距有很大.在唐軍徵東時期第一勇將絕對是巔峰時期的薛仁貴,唐軍勁敵蓋蘇文遇到了他也顯得弱不禁風.而到了薛丁山徵西中最厲害的人物,卻不是薛丁山 ...

《旗幟》第二十八集 | 仝保民:用體育弘揚傳統文化

《旗幟》第二十八集 | 仝保民:用體育弘揚傳統文化
"偉大的旗幟"系列第二十八集 仝保民 | 用體育弘揚傳統文化 小小柔力球,內含大學問.為推廣這項既有中華傳統文化內涵又與現代球類有氧活動相結合的運動,國家級社會體育指導員.北京市柔 ...

如何保護我們一生有限的二十八顆牙齒
大家好,我是小病不求人,今天來和大家聊聊如何保護我們一生有限的二十八顆牙齒! 隨著年齡的增長,我們的牙齒多多少少都會有一些小毛病,我最近就發現我不能吃太酸了東西了,以前最愛吃了,現在只要吃酸的東西,牙 ...

解析臨滄茶區:勐庫十八寨,寨寨出好茶,冰島茶何以冠絕天下?

解析臨滄茶區:勐庫十八寨,寨寨出好茶,冰島茶何以冠絕天下?
雲南的普洱茶知名產區,根據地域位置,可大致劃分為西雙版納.普洱.臨滄三大茶區.其中,臨滄貴為普洱茶原料的最大產地,被譽為"天下茶倉". ▲茶山 今天,旗艦店"藏品普洱&q ...