sponsored links

150億引數,谷歌開源了史上最大視覺模型V-MoE的全部程式碼

選自 Google AI

機器之心編譯

編輯:杜偉、陳萍

還記得谷歌大腦團隊去年 6 月份釋出的 43 頁論文《Scaling Vision with Sparse Mixture of Experts》嗎?他們推出了史上最大規模的視覺模型 V-MoE,實現了接近 SOTA 的 Top-1 準確率。如今,谷歌大腦開源了訓練和微調模型的全部程式碼。

在過去幾十年裡,深度學習的進步是由幾個關鍵因素推動的:少量簡單而靈活的機制、大型資料集、更專業的硬體配置,這些技術的進步使得神經網路在影象分類、機器翻譯、蛋白質預測等任務中取得令人印象深刻的結果。

然而,大模型以及資料集的使用是以大量計算需求為代價的。最近的研究表明,增強模型的泛化能力以及穩健性離不開大模型的支援,因此,在訓練大模型的同時協調好與訓練資源的限制是非常重要的。一種可行的方法是利用條件計算,該方法不是為單個輸入啟用整個網路,而是根據不同的輸入啟用模型的不同部分。這一正規化已經在谷歌提出的 pathway(一種全新的 AI 解決思路,它可以克服現有系統的許多缺點,同時又能強化其優勢)願景和最近的大型語言模型研究中得到了重視,但在計算機視覺中還沒有得到很好的探索。

稀疏門控混合專家網路 (MoE) 在自然語言處理中展示了出色的可擴充套件性。然而,在計算機視覺中,幾乎所有的高效能網路都是密集的,也就是說,每個輸入都會轉化為引數進行處理。

去年 6 月,來自谷歌大腦的研究者提出了 V-MoE(Vision MoE ),這是一種基於專家稀疏混合的新視覺架構。當應用於影象識別時,V-MoE 在推理時只需要一半的計算量,就能達到先進網路效能。此外,該研究還提出了對路由演算法的擴充套件,該演算法可以在整個 batch 中對每個輸入的子集進行優先順序排序,從而實現自適應影象計算。這允許 V-MoE 在測試時能夠權衡效能和平滑計算。最後,該研究展示了 V-MoE 擴充套件視覺模型的潛力,並訓練了一個在 ImageNet 上達到 90.35% 的 150 億引數模型。

150億引數,谷歌開源了史上最大視覺模型V-MoE的全部程式碼

論文地址:https://arxiv.org/pdf/2106.05974.pdf

程式碼地址:https://github.com/google-research/vmoe

V-MoE

谷歌大腦在 ViT 的不同變體上構建 V-MoE:ViT-S(mall)、ViT-B(ase)、ViT-L(arge) 和 ViTH(uge),其超引數如下:

150億引數,谷歌開源了史上最大視覺模型V-MoE的全部程式碼

ViT 已被證明在遷移學習設定中具有良好的擴充套件性,在較少的預訓練計算下,比 CNN 獲得更高的準確率。ViT 將影象處理為一系列 patch,輸入影象首先被分成大小相等的 patch,這些 patch 被線性投影到 Transformer 的隱藏層,在位置嵌入後,patch 嵌入(token)由 Transformer 進行處理,該 Transformer 主要由交替的自注意力和 MLP 層組成。MLP 有兩個層和一個 GeLU 非線性。對於 Vision MoE,該研究用 MoE 層替換其中的一個子集,其中每個專家都是一個 MLP,如下圖所示:

150億引數,谷歌開源了史上最大視覺模型V-MoE的全部程式碼

為了大規模擴充套件視覺模型,該研究將 ViT 架構中的一些密集前饋層 (FFN) 替換為獨立 FFN 的稀疏混合(稱之為專家)。可學習的路由層為每個獨立的 token 選擇對應的專家。也就是說,來自同一影象的不同 token 可能會被路由到不同的專家。在總共 E 位專家(E 通常為 32)中,每個 token 最多隻能路由到 K(通常為 1 或 2)位專家。這允許擴充套件模型的大小,同時保持每個 token 計算的恆定。下圖更詳細地顯示了 V-MoE 編碼器塊的結構。

150億引數,谷歌開源了史上最大視覺模型V-MoE的全部程式碼

V-MoE Transformer 編碼器塊

實驗結果

谷歌大腦首先在大型影象資料集 JFT-300M 上對模型進行一次預訓練。

下圖左展示了模型在所有大小(從 small s/32 到 huge H/14)時的預訓練結果。然後,使用一個新的 head(一個模型中的最後一層)將模型遷移至新的下游任務(如 ImageNet)。他們探索了兩種遷移設定:在所有可用的新任務示例上微調整個模型或者凍結預訓練網路並使用少量示例僅對新 head 調整(即所謂的小樣本遷移)

下圖右總結了模型遷移至 ImageNet 的效果,其中每個影象類別僅在 5 張影象上訓練(叫做 5-shot transfer)。

150億引數,谷歌開源了史上最大視覺模型V-MoE的全部程式碼

左為 JFT-300M 資料集上的 Precision@1 曲線圖;右為 ImageNet 5-shot 的準確率曲線圖。

對於這兩種情況,谷歌大腦發現,在給定訓練計算量時,稀疏模型顯著優於密集模型或者更快地實現相似效能。為了探索視覺模型的極限,他們在 JFT-300M 擴充套件資料集上訓練了一個具有 150 億引數、24 個 MoE 層(出自 48 個塊)的模型。這個迄今為止最大的視覺模型在 ImageNet 上實現了 90.35 的 Top-1 準確率。

150億引數,谷歌開源了史上最大視覺模型V-MoE的全部程式碼

優先路由

在實踐中,由於硬體限制,使用動態大小的緩衝區(buffer)效率不高,因此模型通常為每個專家使用預定義的緩衝區容量。一旦專家變「滿」,超出此容量的分配 token 將被丟棄並不會被處理。因此,更高的容量會產生更高的準確性,但它們的計算成本也更高。

谷歌大腦利用這種實現約束來使 V-MoE 在推理時更快。透過將總組合緩衝區容量降低到要處理的 token 數量以下,網路被迫跳過處理專家層中的一些 token。該模型不是以某種任意方式選擇要跳過的 token(就像以前的工作那樣),而是學習根據重要性分數對它們進行排序。這樣可以保持高質量的預測,同時節省大量計算。他們將這種方法稱為批次優先順序路由(Batch Priority Routing, BPR) ,動態示意圖如下所示:

150億引數,谷歌開源了史上最大視覺模型V-MoE的全部程式碼

在高容量下,Vanilla 和優先路由都可以很好地處理所有 patch。但是,當減小緩衝區大小以節省計算時,Vanilla 路由選擇處理任意 patch,通常導致預測不佳;BPR 智慧地優先選擇處理重要 patch,使得以更低的計算成本獲得更佳的預測。

事實證明,適當地刪除 token 對於提供高質量和更有效的推理預測至關重要。當專家容量減少時,Vanilla 路由機制的效能會迅速下降。相反,BPR 對低容量更為穩健。

150億引數,谷歌開源了史上最大視覺模型V-MoE的全部程式碼

總體而言,谷歌大腦觀察發現,V-MoE 在推理時非常靈活:例如,可以減少每個 token 選擇的專家數量以節省時間和計算,而無需對模型權重進行任何進一步的訓練。

探索 V-MoE

由於關於稀疏網路的內部工作原理還有很多待發現,谷歌大腦還探索了 V-MoE 的路由模式。一種假設是,路由器會根據某些語義背景(如「汽車」專家、「動物」專家等)學會區分並分配 token 給專家。

為了測試這一點,他們在下面展示了兩個不同 MoE 層的圖,一個非常早期(very early-on),另一個更靠近 head。x 軸對應 32 個專家中的每一個,y 軸顯示影象類別的 ID(從 1 到 1000)。圖中每個條目都顯示了為與特定影象類對應的 token 選擇專家的頻率,顏色越深表示頻率越高。

結果顯示,雖然在早期層幾乎沒有相關性,但在網路後期,每個專家只接收和處理來自少數幾個類別的 token。因此,可以得出結論,patch 的一些語義聚類出現在網路的更深層。

150億引數,谷歌開源了史上最大視覺模型V-MoE的全部程式碼

更高的路由決策與影象類別相關。

谷歌大腦相信這只是計算機視覺大規模條件計算的開始。異構專家架構和條件可變長度路由也是有潛力的研究方向。稀疏模型尤其有益於資料豐富的領域,例如大規模影片建模。他們希望開源的程式碼和模型能夠吸引更多研究人員關注該領域。

原文連結:

https://ai.googleblog.com/2022/01/scaling-vision-with-sparse-mixture-of.html?continueFlag=b96fa8ed72dfc82b777e51b7e954c7dc

分類: 旅遊
時間: 2022-01-14

相關文章

冬日裡的暖陽,開啟詩意美學

冬日裡的暖陽,開啟詩意美學
時間已經進入深秋,沿路呈現出遠離喧囂的茂密景象.屋主夫婦平日在市區工作,也時常在各大城市穿梭,而這裡則成為他們遠離喧鬧,款待朋友的愜意居所.既要親近自然,又兼顧實用功能,呈現出對生活的理解,還不失藝術 ...

貝克曼“三把火”燒出WB最佳陣容,暖陽衝上MVP榜首,救贖立大功
KPL秋季賽第二輪的比賽開打,首日的一場B組焦點戰落下帷幕,北京WB3比1擊敗了上海RNGM,成功拿到了開門紅.這場勝利對於WB來說至關重要,現在已經是常規賽第二輪了,如果這一輪結束之後他們還無法衝上 ...

你是我的暖陽
第三章以後就是鄰居了 開門進來的林音若張開雙臂喊道:"寶貝,媽媽回來了." 秦暖撲進林音若的懷裡,帶點小哭腔的說到:"媽媽,暖暖好想你啊~" 聽著女兒軟軟糯糯的 ...

曾黎,秋日暖陽的午後,簡約優雅的穿搭,真是太愜意了

曾黎,秋日暖陽的午後,簡約優雅的穿搭,真是太愜意了
這氣質太好,喜歡曾黎的優雅美膩,喜歡這樣閒適溫柔的調調,這樣舒適的穿搭很好看. [鼓掌]

冬日暖心!林內暖咕咚臺式淨熱一體機初體驗

冬日暖心!林內暖咕咚臺式淨熱一體機初體驗
都說老小區的自來水管道老化.生鏽水質會變差,需要安裝淨水器,其實新小區有同樣的問題.網上有業主爆料稱,自家新小區水管裡就有泥沙,燒開後也有一股鐵鏽味兒. 當人們越來越注重健康時,老舊小區安裝淨水機已成 ...

當你讀懂了《城南舊事》,所有的苦難都會過去

當你讀懂了《城南舊事》,所有的苦難都會過去
每到初冬時節,總會有賣煤的駝隊從門頭溝來到椿樹衚衕的林家門口. 大女兒林海音站在父親身後,看他買下兩麻袋"烏金墨玉". 30多年後的一天,林海音偶然聽到了駝鈴聲,思緒也隨之飛向了遙 ...

很有包容心的三大星座,睡前原諒一切,醒來不問過往

很有包容心的三大星座,睡前原諒一切,醒來不問過往
文/葉子 有些星座是非常有包容心的,他們會在睡前原諒一切,把今天發生不愉快的事情都忘掉,他們能夠理解他人.體諒他人.他們會在第二天睜開眼睛之後,享受美好的青春,然後開啟一天的生活!他們在這個生活中,不 ...

旅遊產品陸續推出,海南做好旺季迎客準備
據海南日報客戶端丨記者趙優 實習生陳夢馨 中秋佳節已至,國慶假期將到,樂遊海南享不停.記者瞭解到,7月至9月期間,為重振海南旅遊行業新動能,培育研學旅遊市場,海南省旅文廳在旅遊市場回暖中強勢推出多個旅 ...

國風開明,盛世胸襟?淺析唐初時期的“胡風文化”及其影響

國風開明,盛世胸襟?淺析唐初時期的“胡風文化”及其影響
在煙塵掩埋下的敦煌,藏著一份獨屬於唐朝人的體面與浪漫,泛黃的紙張上沒有貶低與嘲諷而是體面的一字一句: "解怨釋結,更莫相憎.一別兩寬,各生歡喜." 相比於其他朝代的休書以及丈夫對妻 ...

2021年平臺Q4季度劇集預排

2021年平臺Q4季度劇集預排
作者 / 逍遙子 2019年已過審未播的電視劇有: <我們正年輕><南煙齋筆錄><三生有幸遇上你><父親的草原母親的河><奮鬥吧!青春>&l ...

夜讀 | 不評價他人的人生,是基本的尊重

夜讀 | 不評價他人的人生,是基本的尊重
名家畫廊 | 陸抑非,江蘇常熟人,是中國現當代傑出的畫家和卓越的美術教育家.擅花鳥畫,尤以牡丹為長,著有<非翁畫語錄>. 發自己的光就好,不要吹滅別人的燈. 聽過這樣一句話,"並 ...

是什麼原因導致你一事無成?

是什麼原因導致你一事無成?
<成都愛情故事>連載(二十六) 今日導讀 我一天比一天相信,人性都是見異思遷的.我們不能憑著某人表面上一點點長處或見解,就去相信他. --<傲慢與偏見> 見異思遷,是人性的弱點 ...

大美太行·通天峽

大美太行·通天峽
山西長治·壯美太行網上影展之通天峽 通天峽位於平順縣東南部虹梯關鄉和東寺頭鄉境內,主峽谷長約26公里,海拔1600多米,有通天湖.千尺澗.仙人峰等峽谷奇觀,有虹梯古關.明惠大師塔等歷史遺存,有崖上古村 ...

散文:人生,在孤獨中修煉自己

散文:人生,在孤獨中修煉自己
作者:子墨 孤獨的詩行裡,少談道德,多談規則!繁華大道上人品可能是裝的,孤獨時,人性才是真實的. --題記 當遠離了喧囂,隔絕了噪雜,在一個人的世界裡,獨孤或者寂寞,恍然覺得,原來,這種感覺令人如此安 ...

一個姑娘的“露臺花房”改造:一個自己的空中花園

一個姑娘的“露臺花房”改造:一個自己的空中花園
有一天早上醒來睜開眼,有一縷冬日暖陽從窗簾的縫隙中穿越到臥室裡,隱約能看見窗外的小花架.突然一個念頭湧上心頭,我要一個可以種花的露臺!! 那時,這個房子的露臺是這樣的.... 雖然破破爛爛...但足也 ...

原創師德師風演講稿:傳承榜樣精神,不負育人使命
尊敬的領導,親愛的同事們: 大家好!今天我演講的題目是<傳承榜樣精神,不負育人使命>. "捧著一顆心來,不帶半根草去",這是我國教育前賢陶行知先生的教育信條.這短短的十 ...

9—10月取得發行許可證的十部待播劇集

9—10月取得發行許可證的十部待播劇集
哪一部讓你最期待,其中宋祖兒有兩部劇 ●李易峰.陳鈺琪.鄭業成<鏡雙城> 該劇由遊達志執導,李易峰.陳鈺琪領銜主演,鄭業成.楊志雯.劉海寬.葉盛佳.劉暢等主演,根據滄月同名小說改編,講述了 ...

今又重陽丨溫茶待故人,執杯敬摯友

今又重陽丨溫茶待故人,執杯敬摯友
"九日山僧院,東籬菊也黃.俗人多泛酒,誰解助茶香."--<九日與陸處士羽飲茶>皎然 千年前,某個重陽,詩人皎然在寺院眺望,滿眼菊花已泛黃,想執一盞敬友人,才覺杯中是茶非 ...

化野 | 人生理想之地,院子、生活與有趣的靈魂

化野 | 人生理想之地,院子、生活與有趣的靈魂
日式原木風 DESIGN LIFE 暖色系的原木風,既居家,又休閒 業主夫妻二人都是紋身師 ,經常要連續工作數十小時 整體空間的動線合理和舒適放鬆就尤為重要 . 戶型分析 Space :216㎡ Ma ...

油茶花兒開

油茶花兒開
圖片來源:影像中國 那是去年冬天,朋友約我去黃蓋湖觀鳥. 湖南省臨湘市聶市鎮大星村的鴨雀咀是黃蓋湖的最佳觀鳥點.我們站在湖邊,縱目遠望,但見湖面空闊,水天一色,陽光在粼浪之上閃爍,發出金子般的光芒.沒 ...