sponsored links

一個模型處理多種模態和任務,商湯等提出Uni-Perceiver

機器之心專欄

商湯、西安交通大學等

來自商湯、西安交通大學等機構的研究者提出了一種通用感知架構 Uni-Perceiver ,該方法可以更好地將預訓練中學到的知識遷移到下游任務中。

人腦可以整合不同模態的資訊,並同時處理各項任務來感知世界。相比之下,當前機器學習研究者多是為不同的任務開發不同的模型和演算法,並在特定於任務的資料上進行訓練。然而,這種特定於任務的方法會大大增加為新任務開發模型的邊際成本,無法滿足快速增長的應用場景的需求。

本文的研究者們希望提出一種通用感知架構,透過在多模態大規模資料上進行預訓練得到良好的表徵,並對不同下游任務使用同一套預訓練引數;在應用於下游任務時,模型無需額外資料,或僅需少量的資料即可達到良好的效果。研究者們的核心想法是將不同模態的資料編碼到統一的表示空間中,並將不同任務統一為相同的形式。這種統一的設計鼓勵了不同模態和任務在表示學習中的協作,並且可以更好地將預訓練中學到的知識遷移到下游任務中。由於任務形式的統一,該模型甚至可以對預訓練階段沒有見過的新任務進行 zero-shot 推理。

基於此想法,來自商湯、西安交通大學等機構的研究者們提出了 Uni-Perceiver

一個模型處理多種模態和任務,商湯等提出Uni-Perceiver

論文地址:https://arxiv.org/pdf/2112.01522.pdf

圖 1 對比了 Uni-Perceiver 和現有的為特定任務設計和訓練的模型。Uni-Perceiver 以統一的模型處理各種模態和任務,在各種單模態任務以及多模態任務上進行了預訓練。在下游任務上,由於對不同任務使用了統一的建模,模型顯示了沒有見過的新任務的 zero-shot 推理能力,不經任何額外訓練也能達到合理的效能。此外,透過使用 1% 的下游任務資料進行 prompt tuning,模型效能可以提升到接近 SOTA 的水平。使用 100% 的目標資料對預訓練模型進行微調時,Uni-Perceiver 在幾乎所有任務上都達到了與 SOTA 方法相當或更好的結果。

一個模型處理多種模態和任務,商湯等提出Uni-Perceiver

圖 1 現有的特定於任務的感知模型和 Uni-Perceiver 的比較

方法

1. 統一的通用感知模型

Uni-Perceiver 的統一模型架構如圖 2 所示。模型首先將文字、影象、影片不同模態的資料使用對應的 tokenizer 轉換為具有同一特徵維度的 token 序列,並將不同模態的資訊拼接起來,使用一個統一的 Transformer 編碼器提取特徵。

對於不同的感知任務,Uni-Perceiver 使用相同的模型和共享的一套引數進行建模。相比於傳統 backbone + prediction head 的正規化,Uni-Perceiver 不包括對每個任務單獨設計的 head,而是將不同的任務建模為統一的形式。具體而言,對於每個任務,可以定義其輸入集合

和候選目標集合

一個模型處理多種模態和任務,商湯等提出Uni-Perceiver

。對於給定的輸入

一個模型處理多種模態和任務,商湯等提出Uni-Perceiver

,任務被定義為尋找x在候選目標集合

一個模型處理多種模態和任務,商湯等提出Uni-Perceiver

中最相似的目標

一個模型處理多種模態和任務,商湯等提出Uni-Perceiver

,即

一個模型處理多種模態和任務,商湯等提出Uni-Perceiver

其中,p ( x , y ) 表示輸入和候選目標的聯合機率分佈。Uni-Perceiver 使用特徵的餘弦相似度建模聯合機率分佈,即

一個模型處理多種模態和任務,商湯等提出Uni-Perceiver

其中,

一個模型處理多種模態和任務,商湯等提出Uni-Perceiver

表示 Transformer 編碼器,

一個模型處理多種模態和任務,商湯等提出Uni-Perceiver

表示一個可學習的溫度係數。

Uni-Perceiver 適用於任意由影象 / 影片 / 文字組成輸入和候選目標集合的任務。例如,分類任務中的目標集合

一個模型處理多種模態和任務,商湯等提出Uni-Perceiver

可以是一組類別名(如 dog)、一組類別描述(如 a kind of fish living in deep sea),甚至可以是一組手寫的類別編號的影象。除此之外,作者在文中提到,這篇論文專注於文字、影象和影片模態,但 Uni-Perceiver 也可拓展到更多模態上。

一個模型處理多種模態和任務,商湯等提出Uni-Perceiver

圖 2 統一模型架構

2. 多模態預訓練

為了學習多模態的通用 representation,Uni-Perceiver 使用一系列單模態或跨模態任務進行了預訓練。值得一提的是,在影象和影片分類任務中,作者將類別名稱視作文字內容,這為連線起影象、影片和文字多個模態的 representation 提供了一定的監督。

圖 3 展示了不同預訓練任務的 input 和 target 的序列格式。圖中,上標I、V、T分別代表來自影象、影片和文字模態的 token。

一個模型處理多種模態和任務,商湯等提出Uni-Perceiver

圖 3 預訓練任務格式

3. 應用於下游任務:Zero-shot, Prompt Tuning 和 Fine-tuning

相比於額外增加 prediction head 並 finetune 的方式,Uni-Perceiver 可將預訓練模型更高效地遷移到下游任務上。本文中,作者考慮三種不同場景:零樣本(Zero-shot),少樣本(Few-shot)和全量資料,並對三種情況分別介紹。

在新任務上的 Zero-shot 推理:Uni-Perceiver 可以對預訓練階段沒有見過的全新任務進行零樣本推理,在不經過任何額外訓練和調整的情況下取得合理的效果。

Prompt Tuning:在下游任務資料量有限的場景下,透過 Prompt Tuning,Uni-Perceiver 可以在僅調整小部分模型引數的情況下取得接近全資料 SOTA 的結果。

Fine-tuning:當下遊任務資料量足夠時,Uni-Perceiver 的預訓練模型可以透過 fine-tuning 取得超過 SOTA 或與 SOTA 不相上下的結果。

實驗

Uni-Perceiver 在表 1 所示的大規模單模態和多模態資料集上進行了訓練。實驗中,作者使用與 BERT-base 相同配置的 Transformer 編碼器。在每次迭代中,每個 GPU 獨立取樣任務和資料集,並在梯度反向傳播之後同步不同 GPU 之間的梯度。該模型在 128 個 Tesla V100 GPU 上以分散式方式進行了 50 萬次迭代的預訓練。

一個模型處理多種模態和任務,商湯等提出Uni-Perceiver

表 1 預訓練資料集

研究者接下來在多項任務上對預訓練模型進行了評估,包括預訓練中出現過的任務(Image Classification, Image-Text Retrieval, Image Caption)以及與預訓練不同的任務(Video Caption, Video-Text Retrieval, VQA)。表 2 – 表 8 展示了這些結果。實驗表明,和具有相似模型尺寸的 task-specific SOTA 方法相比:

  • 在不經任何調整的情況下,Uni-Perceiver 即可以達到合理的精度。值得注意的是,對於預訓練中不存在的任務,由於 task-specific head 的限制,現有的其他工作無法執行這種型別的 zero-shot 推理。
  • 透過 1% 的資料對少量模型引數進行 Prompt Tuning,Uni-Perceiver 即可以接近 SOTA 的效果。
  • 進一步全資料 Fine-tune 可以使模型在某些任務上超過 SOTA 結果,並在其他任務上取得與 SOTA 相媲美的精度。

一個模型處理多種模態和任務,商湯等提出Uni-Perceiver

表 2 Image Classification 效能

一個模型處理多種模態和任務,商湯等提出Uni-Perceiver

表 3 Image-Text Retrieval 效能

一個模型處理多種模態和任務,商湯等提出Uni-Perceiver

表 4 Image Caption 效能

一個模型處理多種模態和任務,商湯等提出Uni-Perceiver

表 5 新任務 - Video Caption 效能

一個模型處理多種模態和任務,商湯等提出Uni-Perceiver

表 6 新任務 - Video-Text Retrieval 效能

一個模型處理多種模態和任務,商湯等提出Uni-Perceiver

表 7 新任務 - VQA 效能

一個模型處理多種模態和任務,商湯等提出Uni-Perceiver

表 8 新任務 - GLUE 效能

分類: 數碼
時間: 2021-12-14

相關文章

盤點女明星代言的機圈旗艦,周迅楊冪掉咖,機圈頂流是這9位

盤點女明星代言的機圈旗艦,周迅楊冪掉咖,機圈頂流是這9位
在數碼界裡,手機品牌邀請請明星代言不僅能快速提升產品的知名度.提升品牌形象,同時也能快速建立明星背書的品牌效應.今年釋出的眾多旗艦裡,都請了哪些女明星代言呢,一起看看吧. 一加9系列 周迅 一加作為一 ...

這臺車16年12月出廠,咋電腦檢測為17年呢?【二手車檢測案例】

這臺車16年12月出廠,咋電腦檢測為17年呢?【二手車檢測案例】
大家好,我是驗車幫的驗車師傅小常,大家都說二手車的水深,什麼事故車,泡水車,火燒車,調錶車這些大家都見怪不怪了,那麼套牌車大家見過嗎?即使見到了你能往這上面去想嗎? 今天給大家分享一個特別有意思的案例 ...

2021年10月8日至12月30日,德吉羅布兒童遊樂園免門票
近日,記者從拉薩市德吉羅布遊樂園相關負責人處瞭解到,2021年10月8日至2021年12月30日期間,德吉羅布兒童遊樂園免門票,2021年10月8日開始,營業時間調整為每日11:00-18:00. 德 ...

華為Mate50將首發驍龍898 4G;iPhone SE3或12月開始生產

華為Mate50將首發驍龍898 4G;iPhone SE3或12月開始生產
iPhone SE3或12月開始生產 10月9日,星期六,歡迎收看今天的「科技V報」,我是@龍二Pro,對於蘋果來說,一直有一個非常奇怪的產品線,那就是iPhone SE系列,第一代iPhone SE ...

快看 | 抹茶交易所將於12月31日前清退大陸使用者
記者 | 司林威 10月10日凌晨,抹茶交易所釋出公告稱為響應當地監管政策要求,已於9月28日起暫停中國大陸使用者註冊,同時計劃於2021年12月31日24點前,在保證使用者資產安全的前提下,對身份認 ...

無人船、水下機器人……海事界最新技術和產品悉數亮相!中國國際海事會展將於12月舉辦
作為全球最具規模和影響力的兩大海事展之一,2021年中國國際海事會展將於今年12月7日至10日在上海舉辦.屆時,預計將有26個國家和地區的1400多家企業現場參展,集中展示海事界最新技術和產品.其中, ...

今起至12月31日 福建人遊南靖土樓門票民宿均五折
好訊息!10月14日-12月31日,福建人遊南靖土樓,門票五折!民宿五折! 活動物件為福建省全省人民(憑福建省各地有效身份證件):福建土樓(南靖)景區所有旅遊片區享五折優惠(含雲水謠景區.田螺坑景區. ...

又一顆“超級地球”!距地僅26光年,NASA將於12月前往探索

又一顆“超級地球”!距地僅26光年,NASA將於12月前往探索
地球之外的生命究竟長什麼樣?如果一切順利的話,大約今年年底之前,我們就有機會得到答案了. 因為NASA如今已經選中了一個非常適合尋找地外生命的"超級地球",它和地球之間的距離,僅有 ...

簡恩塔羅:金牛座10/11/12月整體運勢:完成課題,擁有走向未來

簡恩塔羅:金牛座10/11/12月整體運勢:完成課題,擁有走向未來
大家好,這裡是簡恩的塔羅占卜頻道,我是你們的心靈療愈師簡恩,那今天的占卜主題是10/11/12月整體運勢,適用於對生活有疑問的,也適用於分手斷聯感情有疑惑的金牛,那大眾占卜僅供參考僅供參考 並且和我們 ...

最後3個月超強複習規劃表,考研人最後的逆襲機會
距離考研初試滿打滿算,剛好3個月多幾天,22考研的寶寶們千萬不要懈怠了,在這爭分奪秒的90多天當中,儘量查漏補缺,把複習狀態提到最佳! 當然還有下個月考研正式報名,也要提前去了解清楚一些注意事項,報名 ...

“以嶺健康杯”首屆河北省鄉村振興消費幫扶大學生營銷大賽9月-12月舉辦

“以嶺健康杯”首屆河北省鄉村振興消費幫扶大學生營銷大賽9月-12月舉辦
9月18日,"以嶺健康杯"首屆河北省鄉村振興消費幫扶大學生營銷大賽新聞釋出會在石家莊以嶺健康城舉行. 本次活動由河北省教育廳學生就業創業指導中心指導,河北政法職業學院主辦,政法學院 ...

星空有約|金星迎來觀測季,12月4日將達全年最亮

星空有約|金星迎來觀測季,12月4日將達全年最亮
海報製作:馮娟 近日,在晴朗的黃昏時分,西南方低空有一顆異常明亮的星星熠熠生輝,惹人注目,它就是大名鼎鼎的金星.天文科普專家提醒說,9月至12月,金星迎來觀測季,其中12月4日,金星將達全年最亮. 陝 ...

林皇再臨!林加德自2018年12月以來首次為曼聯連場英超破門

林皇再臨!林加德自2018年12月以來首次為曼聯連場英超破門
直播吧9月19日訊 剛剛結束的英超第五輪,憑藉林加德第88分鐘的絕殺進球,曼聯客場2-1力克西漢姆.在上輪曼聯主場4-1大勝紐卡的比賽中,林加德也有進球入賬.據天空體育統計,這是林加德自2018年12 ...

2022年全國碩士研究生招生考試時間為2021年12月25日至26日

2022年全國碩士研究生招生考試時間為2021年12月25日至26日
考研在即 高校通宵自習教室人氣旺,本報資料圖片 根據<2022年全國碩士研究生招生工作管理規定>,現將2022年全國碩士研究生招生考試有關事項公告如下: 一.初試時間 2022年全國碩士研 ...

民主黨人宣佈將暫停債務上限併為聯邦政府提供資金至12月
[僑報特約記者嚴添9月20日華盛頓報道]眾議院議長佩洛西(Nancy Pelosi)與參議院多數黨領袖舒默(Chuck Schumer)週一釋出聯合宣告,宣佈民主黨人將在本週推動國會透過一項暫停聯邦債 ...

美國眾議院投票決定暫停債務上限至2022年12月,參議院共和黨人料將阻止

美國眾議院投票決定暫停債務上限至2022年12月,參議院共和黨人料將阻止
由民主黨控制的美國眾議院透過一項議案,將把美國政府的債務上限暫停到2022年12月,並向政府提供資金維持其運作.共和黨人誓言將在參議院就舉債上限條款阻撓該議案. 這項議案週二晚間以220比211的分黨 ...

豐田Prius有望2022年12月面世 或於2025年搭載氫燃料內燃機

豐田Prius有望2022年12月面世 或於2025年搭載氫燃料內燃機
[佰咖汽車·進口新車資訊]近日,我們從外媒處獲悉,2022款豐田Prius有望於2022年12月面世.新車搭載1.8升發動機加上電動機的混合動力系統.根據計劃,豐田Prius將在2025年推出全新氫動 ...

美國眾議院投票決定暫停債務上限至2022年12月
美國眾議院投票決定暫停債務上限至2022年12月:眾議院投票把債務上限.權宜支出法案送交參議院.

俄媒:俄兩顆“快車”通訊衛星的發射推遲到12月
據俄羅斯衛星通訊社9月23日報道,據俄羅斯火箭航天業兩位訊息人士透露,用"質子-M"運載火箭從拜科努爾航天發射場發射一顆"快車AMU-3"(Express-AM ...

《巫師》第二季12月17日開播 第三季和新動畫製作中

《巫師》第二季12月17日開播 第三季和新動畫製作中
在網飛的首次TDUM直播活動上,該公司公開了一系列與巫師相關的影視作品,其中包括確定製作劇集<巫師>的第三季.面向兒童觀眾的<巫師>劇以及新的<巫師>改編動畫電影. ...