sponsored links

Transformer振興CNN骨幹網路,港大、騰訊視覺自監督表徵學習CARE

機器之心報道

機器之心編輯部

來自港大、騰訊 AI Lab、牛津大學的研究者用 Transformer 振興 CNN 注意力。

自監督表徵學習近兩年十分火熱。機器學習界的三位泰斗 Geoffroy Hinton、 Yann Lecun 、 Yoshua Bengio 一致認為自監督學習有望使 AI 產生類人的推理能力,其中 Hinton 與 Lecun 近兩年也在 ICML / NeurIPS 中發表自監督表徵學習的研究工作。

可以說在機器學習頂會發表自監督表徵學習的文章,是與 Hinton 和 Lecun 站到了同一賽道上。而今年的 NeurIPS 2021,Lecun 剛發推感嘆他與另外一位 CV 泰斗 Jean Ponce 的自監督投稿 VICReg 被拒掉了,可見在機器學習領域,自監督學習的競爭激烈程度。另外一方面,最近熱門的 Transformer 給計算機視覺演算法帶來了全面的升級。那麼 Transformer 跟自監督表徵學習在一起會迸發出怎樣的火花?

Transformer振興CNN骨幹網路,港大、騰訊視覺自監督表徵學習CARE

來自港大、騰訊 AI Lab、牛津大學的學者在 NeurIPS 2021 發表的文章會帶來一個啟發性的答案。

該研究受現有自監督表徵學習架構 BYOL 的啟示,結合前沿的 Transformer ,提出利用 Transfomer 來提升 CNN 注意力的自監督表徵學習演算法。本文將現有的架構歸為 C-stream,另提出 T-stream。在 CNN 骨幹網路的輸出並行接入 T-stream。將 Transformer 置於 T-stream 中提升 CNN 輸出的注意力,並以此結果來監督 CNN 自身的輸出,從而達到提升 CNN 骨幹網路注意力的效果。在現有的標準資料集中,也進一步提升了 CNN 骨幹網路在下游識別任務的各類效能。

Transformer振興CNN骨幹網路,港大、騰訊視覺自監督表徵學習CARE

  • 論文地址:https://arxiv.org/pdf/2110.05340.pdf
  • Github 地址:https://github.com/ChongjianGE/CARE

背景和啟示:自監督表徵學習與樣本對比

基於影象內容的自監督表徵學習目標為訓練一個普適的視覺特徵編碼器(encoder backbone)。在給定神經網路架構(如 VGG, ResNet)的情況下,擺脫資料標註依賴構建自監督的過程,進行從零開始的初始化訓練(pretext training)。將訓練好的網路認為類似於用 ImageNet 標註資料預訓練的結果,後續將該網路進行一系列下游識別任務的遷移(downstream finetuning),包括影象分類,物體檢測和分割。由於在初始化訓練中未使用資料標籤做約束,預訓練的網路表徵並不針對下游具體的某個識別任務,從而具備普適的視覺表徵能力。其潛在的應用在於利用海量的網際網路資料,擺脫人工標註的、依賴自適應學習神經網路的視覺表徵能力,從而能夠受益於一系列的下游識別任務。自監督學習在下游識別任務中可以媲美有監督學習。

在自監督表徵學習的研究中,對比學習 (contrastive learning) 為常用的方法。給定一批未標註的資料,以當前一個數據為正樣本,其餘資料為負樣本。對比學習透過這樣的方式,構建正負樣本及其增廣的資料來確定損失函式從而訓練網路。其中一個輸入資料透過兩路網路形成兩個不同的 view,進行後續的樣本對比。在處理海量資料的過程中,有效的從資料中構建樣本和防止模型坍塌成為了熱門研究方向。從 MoCo[a]的佇列設計及網路動量更新開始,一系列的研究工作應運而生。這裡介紹幾個代表性的工作,為簡潔起見,演算法框架圖中的對映器 (projector) 沒有畫出:

Transformer振興CNN骨幹網路,港大、騰訊視覺自監督表徵學習CARE

SimCLR

上圖為 Hinton 團隊的 SimCLR[b]演算法框架,其採用 large batch 的設計,擺脫佇列儲存的依賴,直接對正負樣本進行對比構造損失來更新網路。

Transformer振興CNN骨幹網路,港大、騰訊視覺自監督表徵學習CARE

BYOL

上圖為 DeepMind 團隊的 BYOL[c]演算法框架,其單純利用當前樣本進行自身的多種資料增廣進行對比。同時引入 projector 來擺脫上下游任務對於網路的影響。在更新網路時也採用了動量更新的方式防止模型的坍塌。

Transformer振興CNN骨幹網路,港大、騰訊視覺自監督表徵學習CARE

MoCo V3

上圖為 Kaiming He 團隊的 MoCo V3[d],其將 transformer 做為學習編碼器(encoder backbone),利用現有的自監督學習框架進行樣本對比學習。同時也是將 vision transformer (ViT[e])作為編碼器引入自監督學習中的工作之一。

Transformer振興CNN骨幹網路,港大、騰訊視覺自監督表徵學習CARE

本文方法

與 MoCo V3 的出發點不同,本文的工作旨在利用 transformer 的自注意力機制來提升 CNN 編碼器的效能。其中將原有的 CNN 框架歸為 C-stream,然後提出包含 Transformer 的 T-stream。兩個 stream 同時接收 CNN 編碼器的輸出,然後用 T-stream 監督 C-stream。相比於 Yann Lecun 團隊的 Barlow Twins[f]利用協方差矩陣衡量兩個 view 的冗餘,本文引入可學習的 transformer 能夠自適應的在不同網路訓練狀態下提供注意力的輔助,從而更有效的提升 CNN 編碼器的視覺表徵能力。

本文的方法:CARE (CNN Attention REvitalization)

Transformer振興CNN骨幹網路,港大、騰訊視覺自監督表徵學習CARE

Proposed pipeline

本文提出的演算法流程圖如上所示。首先將輸入影象x進行兩次不同的預處理得到兩個正樣本x_1、x_2。然後,用 C-stream 的兩個 CNN 編碼器分別提取x_1、x_2的特徵,其中將一路 CNN 提取的特徵輸入對映器 projector1 和預測器 predictor1 得到高維特徵f_1(x),同時將另一路 CNN 提取的特徵僅輸入動量更新的對映器 (momentum projector1) 得到高維特徵f_2(x)。此外,雙路 CNN 提取的這兩組特徵也會被同時輸入到 T-stream。其中一路的 Transformer1 提取具有空間注意力的特徵,並將此特徵輸入到對映器 projector2 和預測器 predictor2 得到高維特徵f_3(x)。另一路動量更新的 Transformer 同樣提取 CNN 特徵並輸入動量更新的對映器 momentum projector2 得到高維特徵f_4(x)。

至此,演算法框架的前向過程已經設計完成。後續透過對f_1(x)、f_2(x)、f_3(x)、f_4(x)進行針對性的損失函式設計進行反向傳播的學習。本演算法在反向傳播過程中,僅更新 C-stream 以及 T-stream 的其中一路,而對應的另外一路則利用動量更新 (momentum update) 的手段進行。具體形式在後續介紹。

網路架構設計:本演算法旨在透過自監督學習框架的搭建,利用自定義的輔助任務來學習一個能夠有效提取影象特徵的 CNN 編碼器。本演算法對任意的 CNN 編碼器均具有一定的適用性,因此在 CNN 編碼器的選取上有著很好的靈活性。例如,ResNet50,ResNet101 以及 ResNet152 皆可以作為本演算法的 CNN 編碼器。Transformer 的結構如下圖所示:

Transformer振興CNN骨幹網路,港大、騰訊視覺自監督表徵學習CARE

Transformer 結構示意圖

該 Transformer 以 CNN 編碼器輸出為輸入,並輸出f_1(x)、f_2(x)、f_3(x)、f_4(x)更具空間專注度性質的特徵。本演算法所設計的 Transformer 主要包括 4 個序列的模組,其中單個模組如上圖所示。單個模組主要包含由一個 1x1 的卷積層,一個多頭自注意力層(Multi-head Self-attention, MHSA)[g]以及額外一個 1x1 卷積層組成。其中 MHSA 層可以很好地學習到具有空間專注度性質的特徵。此外,對映器 projector 和預測器 predictor 的主要結構為多層感知器(Multi-layer perceptron)。兩者皆包含兩個全線性連線層(fully connected layers),一個啟用層以及一個標準化層(batch normalization)。

本文設計的損失函式基於流程框架中的四個輸出f_1(x)、f_2(x)、f_3(x)、f_4(x)。其中本文用

Transformer振興CNN骨幹網路,港大、騰訊視覺自監督表徵學習CARE

表示 C-stream 的損失項,用

Transformer振興CNN骨幹網路,港大、騰訊視覺自監督表徵學習CARE

表示 T-stream 的損失項。其具體形式如下:

Transformer振興CNN骨幹網路,港大、騰訊視覺自監督表徵學習CARE

此外,本文用 T-stream 的輸出來監督 C-stream 的輸出。這個約束用

Transformer振興CNN骨幹網路,港大、騰訊視覺自監督表徵學習CARE

表示,具體形式如下:

Transformer振興CNN骨幹網路,港大、騰訊視覺自監督表徵學習CARE

該約束表明在自監督學習中,C-stream 的輸出會與 T-stream 的輸出儘量相似。所以最終整體的損失函式可以由如下表示:

Transformer振興CNN骨幹網路,港大、騰訊視覺自監督表徵學習CARE

在計算整體損失後,本演算法只後向傳播梯度更新 C-stream 和 T-stream 的上支。其下路分支主要透過動量更新的方式來更新引數。所謂動量更新指的主要是利用當前 C-Stream 和 T-Stream 的上路分支的引數,以及其之前時刻的引數資訊,來動量更新其下路分支的網路引數。在網路訓練結束後,只保留 CNN encoder1 作為目標編碼器。該編碼器隨後會用做下游識別任務的 backbone 網路。

視覺化分析:CNN 編碼器的注意力展示

在自監督訓練結束後,本文對 CNN 編碼器進行特徵響應的視覺化展示,從而觀察編碼器在訓練後對視覺內容關注程度的變化。本文對同樣的編碼器進行兩種自監督策略,一種是隻使用 C-stream 的結構進行訓練,一種是使用全部結構進行訓練。本文對這兩種訓練策略下的同樣的編碼器進行視覺化展示,如下圖所示:

Transformer振興CNN骨幹網路,港大、騰訊視覺自監督表徵學習CARE

CNN 編碼器的注意力視覺化展示

從圖中可以看到,第一行為輸入影象,第二行為單純利用 C-stream 結構進行訓練的編碼器的注意力,第三行為利用本文提出 CARE 結構進行訓練的編碼器的注意力。透過觀察注意力在影象上面的分佈和強度可以看出,本文提出的 CARE 演算法訓練的編碼器對影象中的物體更敏感,注意力更強烈。

實驗結果

在實驗過程中,本文從多個方面驗證提出演算法的有效性。包括上游訓練好的模型線上性分類問題中的效能、在半監督資料中的效果,以及在下游物體檢測和分割任務中的效能。在骨幹網路模型選擇方面,本文選取了 CNN 通用的 ResNet 系列模型進行訓練。對比模型為 ResNet 系列和 Transformer 結構。驗證的方式為利用不同的自監督學習演算法在多種模型上進行各類任務不同訓練階段中的效能驗證。在本文演算法的訓練過程中,使用 8 卡 V100 算力即可進行模型訓練的收斂。在當前海量算力的視覺自監督表徵學習任務下相對算力友好。

上游任務線性分類的比較。在固定 ResNet-50 為骨幹網路情況下,針對不同的自監督學習演算法進行訓練,展示在不同訓練階段的線性分類效果。如下圖所示,本文提出的 CARE(CNN attention revitalization)方法取得的優異的表現。

Transformer振興CNN骨幹網路,港大、騰訊視覺自監督表徵學習CARE

此外,本文也與 BYOL 方法在 ResNet 不同骨幹網路、不同訓練階段的效能進行對比,如下圖所示。本文的 CARE 方法在不同骨幹網路下效能更佳。

Transformer振興CNN骨幹網路,港大、騰訊視覺自監督表徵學習CARE

以上為相同骨幹網路、不同學習演算法的對比。本文同時也對比了 Transformer 的骨幹網路以及現有的學習演算法。效果如下圖所示,跟 Transformer 結構相比,本文利用 ResNet 網路,在引數量相近的情況下,取得了更好的結果。

Transformer振興CNN骨幹網路,港大、騰訊視覺自監督表徵學習CARE

更多的實驗對比,以及 CARE 演算法的 Ablation Study 詳見文章中的實驗章節。

總結

綜上,本文提出了一個利用 Transformer 結構來輔助 CNN 網路訓練的視覺自監督表徵學習框架。其核心貢獻在於利用一種網路結構的特性(即 Transformer 的注意力提升特性),在訓練中監督目標網路(即 CNN 骨幹網路),從而使得網路特效能夠得到遷移並提升目標網路效能的效果。在視覺識別的各類任務中也得到了充分驗證。本文的框架對自監督表徵學習具有很強的啟示意義,現有網路結構設計繁多,功能各異。如何利用這些網路獨有的特點,進而整合在一個網路中達到渾然一體的目標,也是後續自監督表徵學習可探索的重要方向。

參考文獻:

[a]. Momentum contrast for unsupervised visual representation learning. Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick. CVPR 2020.

[b]. A Simple Framework for Contrastive Learning of Visual Representations. Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. ICML 2020.

[c]. Bootstrap Your Own Latent: A New Approach to Self-Supervised Learning. Grill et al. NIPS 2020.

[d]. An Empirical Study of Training Self-Supervised Vision Transformers. Xinlei Chen, Saining Xie, and Kaiming He. ICCV 2021.

[e]. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. Dosovitskiy et al. ICLR 2021.

[f]. Barlow Twins: Self-Supervised Learning via Redundancy Reduction. Jure Zbontar, Li Jing, Ishan Misra, Yann LeCun, and Stéphane Deny. ICML 2021.

[g]. Bottleneck Transformers for Visual Recognition. Aravind Srinivas, Tsung-Yi Lin, Niki Parmar, Jonathon Shlens, Pieter Abbeel, Ashish Vaswani. CVPR 2021.

分類: 科技
時間: 2021-10-12

相關文章

江蘇夫婦將兩套房打通,以現代時尚為格調,卻裝出大豪宅的視覺感

江蘇夫婦將兩套房打通,以現代時尚為格調,卻裝出大豪宅的視覺感
有家人的陪伴才最安心,繁華過後,家才是最溫暖的港灣,在沒有任何束縛和壓力的環境中能夠讓身體完全放鬆又感到無比舒適. 今天分享的這套218㎡的大平層設計,就是以現代時尚的格調結合簡易奢華元素,打造輕奢主 ...

為何Transformer在計算機視覺中如此受歡迎?

為何Transformer在計算機視覺中如此受歡迎?
編者按:近一年來,Transformer 在計算機視覺領域所帶來的革命性提升,引起了學術界的廣泛關注,有越來越多的研究人員投入其中.Transformer 的特點和優勢是什麼?為什麼在計算機領域中 T ...

44種模型,RobustART評測CNN、Transformer、MLP-Mixer誰最魯棒?

44種模型,RobustART評測CNN、Transformer、MLP-Mixer誰最魯棒?
機器之心專欄 北京航空航天大學.商湯科技.京東探索研究院等 來自北航.商湯科技和京東探索研究院等機構的研究者提出了第一個在大規模資料集 ImageNet 上面向模型結構和訓練技巧且針對多種噪音型別的模 ...

國家鄉村振興7萬億投到哪兒?主要在這23件大事上!別錯過

國家鄉村振興7萬億投到哪兒?主要在這23件大事上!別錯過
民族要復興,鄉村必振興. 進入新發展階段.貫徹新發展理念.構建新發展格局,農業.農村.農民將面對哪些新課題,呈現哪些新變化? 脫貧之後怎麼幹?鄉村產業怎麼興?糧食安全怎麼保?農村環境怎麼建?城鄉之間怎 ...

三部門關於進一步推動農商互聯助力鄉村振興的通知
各省.自治區.直轄市.計劃單列市及新疆生產建設兵團商務主管部門.發展改革委.供銷合作社: 為貫徹落實黨中央.國務院決策部署,按照<商務部等17部門關於加強縣域商業體系建設促進農村消費的意見> ...

大資料的威脅有多大,你要警惕

大資料的威脅有多大,你要警惕
你是否好奇,2021年7月盛傳的"國內某約車平臺把使用者資訊打包發給美國,會有什麼威脅"? 你是否好奇,為什麼頭條.抖音等平臺會推送你喜歡的內容,你周圍的人嗎? 它們都有共同的關鍵 ...

家長請收藏!2022屆高考大事件一覽!附高三全年規劃

家長請收藏!2022屆高考大事件一覽!附高三全年規劃
#杭州身邊事##高考##開學季#咳咳咳!上一屆高三離開,下一屆高三即將登場! 為幫助大家迅速理解高三一年的學習重點,我們整理了一份"2022年高三大事件時間表一覽" ,包含高三重要 ...

如何在享受大資料和人工智慧便利的同時,兼顧安全、可靠、可控?

如何在享受大資料和人工智慧便利的同時,兼顧安全、可靠、可控?
來源:方圓 (圖片來源:攝圖網) 網約車與計程車哪個更便宜?蘋果手機與非蘋果手機,誰打車更貴?新客戶打車便宜還是老客戶打車便宜? 帶著這樣的疑問,復旦大學教授孫金雲帶領他的學生,一個月時間內在北京.上 ...

線上線下觀演人次近16萬——鄉村大舞臺房山區演出圓滿落幕

線上線下觀演人次近16萬——鄉村大舞臺房山區演出圓滿落幕
"人民的小康, 美麗的小康.綠水青山多錦繡,百花分外香------"伴隨原創歌舞<人民的小康>的熱鬧開場,9月19日上午,2021北京西山民俗文化節開幕式暨第32屆北京 ...

出圈的B站,走不出“網路侵權”圍城

出圈的B站,走不出“網路侵權”圍城
文 | 鋅刻度,作者 | 流星,編輯 | 陳鄧新 陳睿最近心情可能不大美麗. 在8月公佈2021 Q2財報後,B站雖然暫時遏制住了股價下跌的頹勢,但虧損持續擴大,遊戲業務依舊疲軟,以及國內政策日趨收緊 ...

校長痛批教師上課兩大現象,為何不遵守師德?老師:請領導先帶頭

校長痛批教師上課兩大現象,為何不遵守師德?老師:請領導先帶頭
學校是學生們接受教育的地方,當然身為教育工作者的老師也不可或缺,不過要想打造一個"完美"的校園,不僅需要學生和老師,還有承擔了很多非教學任務的校長及主任,只有學校的管理體系完整,學 ...

大金空調5G空氣系統,讓使用者盡享資訊時代舒適生活

大金空調5G空氣系統,讓使用者盡享資訊時代舒適生活
隨著5G時代的加速到來,各行各業都感受到新技術的衝擊,在空調行業,5G時代同樣帶來了更多改變,最近,行業領導品牌--大金空調推出了5G全屋空氣系統,大金全屋空氣系統與5G+雙智慧技術完美融合,可遠端開 ...

華為雲釋出盤古藥物分子大模型,開啟AI藥物研發新模式

華為雲釋出盤古藥物分子大模型,開啟AI藥物研發新模式
[中國,深圳,2021年9月23日]今日,主題為"深耕數字化"的華為全聯接2021隆重開幕.華為高階副總裁.華為雲CEO.消費者雲服務總裁張平安發表"深耕數字化,一切皆服 ...

畢業多年後才知道,師範生和醫學生差距有多大,簡直天壤之別
醫生和老師,一直以來都是大學生趨之若鶩的職業,而且在家長眼中更是被定義為"有前途"的工作,因此很多學生都會選擇學教育學或醫學. 首先這兩種職業都關係到人們生活的方方面面,教育離不開 ...

留位費已交,浸會or港中文,選誰?
題主國內211新聞專業本科生,去年申請了香港浸會大學媒介管理,香港城市大學傳播與新媒體,香港中文大學跨文化研究. 後來收到浸會和城大offer,在截止之前選擇了浸會,交了6萬港幣留位費(如果放棄則拿不 ...

提前返鄉的農民工,千萬不要亂投資,鄉村振興創業商機在哪?

提前返鄉的農民工,千萬不要亂投資,鄉村振興創業商機在哪?
儘管共同富裕的號角已經吹響, 但由於近兩年經濟不景氣,加上限電停工的影響,大批農民工提前返鄉並暗下決心不再出來,打算借鄉村振興的東風,在老家和縣城投資創業.創業是好事,一旦創業成功,不僅可以實現財務自 ...

磁能熱水器企業只有避開這4大誤區,才能順勢借力
在網際網路的時代,越來越多電熱水器企業投入到電商平臺的懷抱,還有不少電熱水器企業建立自己的微信公眾號.傳統電熱水器企業要想發展做大,網路營銷不可缺少的新方式.那麼網路營銷有著哪些誤區呢?下面君粵磁能熱 ...

中部戰區組織2021年度面向社會公開招考文職人員網路面試

中部戰區組織2021年度面向社會公開招考文職人員網路面試
9月14日至16日,中部戰區組織2021年度面向社會公開招考文職人員面試工作,首次採用網路視訊會議的方式進行. 此次網路面試依託騰訊會議進行,每個考場安排有1名考場管理員隨機抽取1套考題,由主考官進行 ...

解讀5大商科專業:金融、管理、營銷、會計、MBA
商科一直是英國留學的最熱門專業.但具體要申請商科中的哪個專業?很多同學是一臉懵..特別是有些打算跨專業申請商科的同學,認為商科學的知識都大同小異. 有人甚至說,哪個好申我就申哪個,哪個不要求數學我就申 ...