sponsored links

打破GANs“壟斷”|OpenAI新研究:Diffusion Models 圖文轉換效果超越DALL-E

打破GANs“壟斷”|OpenAI新研究:Diffusion Models 圖文轉換效果超越DALL-E


作者 | 莓酊、杏花

編輯 | 青暮

以前,當我們想擁有一副影象時,首先會做的就是找專業畫師,將我們對圖畫的要求逐一描述,畫師再根據需求醉墨淋漓一番。但這種方式需要耗費一定的時間和人力成本,且成果不一定盡如人意。

如今,基於自然語言生成逼真影象的工具使我們能夠以一種全新的方式輕鬆建立大量的高質量影象。使用自然語言編輯影象的能力進一步允許迭代細化和細粒度控制,這兩者對於現實世界的應用程式都至關重要。

目前,GANs(對抗生成網路)在大多數影象生成任務上擁有最先進的技術,這些技術是透過樣本質量來衡量的,例如FID,Inception Score 和 Precision等指標。

然而,其中一些指標不能完全捕獲生成影象的多樣性,且與最先進的基於似然度的模型相比,GANs捕獲的多樣性較少。此外,如果沒有精心選擇的超引數和正則化器,GANs在訓練中經常翻車。

針對這些問題,OpenAI的兩位研究人員Prafulla Dhariwal和Alex Nichol便著眼於其他體系架構。2021年5月,這兩名學者發表了名為《Diffusion Models Beat GANs on Image Synthesis》的論文,證明了擴散模型在影象合成上優於目前最先進的生成模型的影象質量。

打破GANs“壟斷”|OpenAI新研究:Diffusion Models 圖文轉換效果超越DALL-E


論文地址:https://openreview.net/pdf?id=AAWuCvzaVt

半年多的時間,Alex Nichol 和Prafulla Dhariwal再度攜手,帶領團隊於2021年12月20日釋出了最新研究《GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models 》

打破GANs“壟斷”|OpenAI新研究:Diffusion Models 圖文轉換效果超越DALL-E


論文地址:https://arxiv.org/pdf/2112.10741v1.pdf

以文字“薩爾瓦多·達勒(salvador daĺı)的超現實主義夢幻油畫,畫的是一隻貓在跳棋”為例,GLIDE模型生成如下具有陰影和反射的逼真影象,並以正確的方式組合多個概念,產生新穎概念的藝術效果圖。



文章一出即在推特上引起廣泛關注,收穫了無數業內人士的鮮花和掌聲。

名為Kyle的網友表示,他覺得這項研究跨越了“漸進式增長GAN”到“StyleGAN”的界限。從滿是笨拙的機器學習人工偽造物,到現在突然變得與它模仿的真實物體幾乎無法分辨。

打破GANs“壟斷”|OpenAI新研究:Diffusion Models 圖文轉換效果超越DALL-E


連GLIDE的失敗案例都透著滿滿的優秀感:它不會畫有 8 條腿的貓......

打破GANs“壟斷”|OpenAI新研究:Diffusion Models 圖文轉換效果超越DALL-E


有網友提問:如果對它提出指令“沒人見過的東西”會生成什麼?



Em......結果是沒見過,但也不是完全沒見過。



1

生成能力超越DALL-E

實驗證明,擴散模型(Diffusion Models)可以生成高質量的合成影象,尤其在與引導技術結合使用時,能夠在保真度上權衡多樣性。

作者們為文字條件下的影象合成問題的擴散模型,對比了兩種不同的指導策略:CLIP guidance 和classifier-free guidance。而後發現,在寫實度和主題相似度方面,後者更受人類評估參與者的青睞,並且經常獲得逼真的樣本。

使用classifier-free guidance的35億引數文字條件擴散模型的樣本收到的評價更高,令來自DALL-E的樣本完全“黯然失色”。GLIDE模型微調後還可以修復影象,出色完成文字驅動的影象編輯任務。

已有的最新文字條件影象模型已經可以做到根據格式多樣的文字中合成影象,甚至可以“理解”語義,按照合理的邏輯組合毫不相關的客體。但在捕捉相應文字並生成逼真影象方面,還略遜一籌。

毋庸置疑,擴散模型是前景大為可觀的生成模型系列,在諸多影象生成任務上達到了最先進的樣本質量基準。

為了在類條件設定中實現真實感,作者們利用分類器指導增強擴散模型,擴散模型以分類器的標籤作為條件。分類器首先在有噪聲的影象上進行訓練,在擴散取樣過程中,使用分類器提供的梯度引導樣本朝向標籤。Salimans等人曾透過使用無分類器的指導,未單獨訓練的分類器中獲得了類似結果,這給研究者們帶來了靈感,在有標籤擴散模型和無標籤擴散模型的預測之間進行插值。

受引導擴散模型生成逼真樣本的能力以及文字到影象模型處理自由形式提示的能力的啟發,研究人員將引導擴散應用於文字條件影象合成問題。首先,作者們訓練了一個 35 億引數擴散模型,該模型使用文字編碼器以自然語言描述為條件。接下來,他們比較了兩種將擴散模型引導至文字提示的技術:CLIP 引導和無分類器引導。使用人工和自動評估,發現無分類器的指導產生更高質量的影象。

研究人員發現GLIDE模型中,無分類器指導生成的樣本栩栩如生,影象還蘊涵著廣泛的世界知識。由人類參與者評估後,普遍給出評價:GLIDE“創造”的效果優於 DALL-E。



2

擴散模型的潛力

在論文《Diffusion Models Beat GANs on Image Synthesis》中,研究人員透過一系列的消融實驗,以找到更好的擴散模型架構,實現無條件的影象合成。對於條件影象合成,則使用分類器指導(利用分類器的梯度以來權衡樣本質量-多樣性)進一步提高了樣本質量。

論文的作者們分別在ImageNet 128×128上達到2.97的FID,在ImageNet 256×256上達到4.59的FID,在ImageNet512×512上達到7.72的FID,並且即使每個樣本只有25次正向傳遞,其生成影象質量依然可以匹配BigGAN-deep,同時保持了更好的分佈覆蓋率(多樣性)。

最後,作者團隊發現分類器指導與上取樣擴散模型可以很好地結合在一起,從而將ImageNet512×512上的FID進一步降低到3.85。

DeepMind曾於2018年在一篇 ICLR 2019 論文中提出了BigGAN,當時一經發表就引起了大量關注, 很多學者都不敢相信AI竟能生成如此高質量的影象,這些生成影象的目標和背景都相當逼真,邊界也很自然。

打破GANs“壟斷”|OpenAI新研究:Diffusion Models 圖文轉換效果超越DALL-E


由BigGAN模型生成的512x512解析度影象

如今,Alex Nichol和Prafulla Dhariwal兩位學者提出的擴散模型,終於可在影象合成上匹敵BigGAN。

打破GANs“壟斷”|OpenAI新研究:Diffusion Models 圖文轉換效果超越DALL-E


從最佳ImageNet512×512模型(FID3.85)中選擇的樣本

擴散模型是一類基於似然度的模型,最近被證明可用於生成高質量影象,同時保留理想的屬性,如更高的分佈覆蓋率、穩定的訓練目標和更好的可擴充套件性。這些模型透過逐步去除訊號中的噪聲來生成樣本,其訓練目標可以表示為一個重新加權的變分下界。

Nichol和Dhariwal發現,隨著計算量的增加,這些模型不斷改進,即使在高難度ImageNet256×256資料集上也能生成高質量的樣本。

再來看看GLIDE的生成效果。下圖是GLIDE基於不同的文字提示生成的16個影象集,例如“使用計算器的刺蝟”、“戴著紅色領帶和紫色帽子的柯基”等等,如圖所示,生成的影象基本符合文字描述。

打破GANs“壟斷”|OpenAI新研究:Diffusion Models 圖文轉換效果超越DALL-E


美中不足的是,這項研究釋出的較小模型的準確性不如全尺寸模型那麼完美。下圖是由“刺蝟”文字提示生成的16個樣本。



除了圖文轉換,該論文還包括一個互動式系統的原型,用於逐步細化影象的選定部分。這些影象中的一切都是自動生成的,從整個房間開始,對綠色區域進行迭代細化。

打破GANs“壟斷”|OpenAI新研究:Diffusion Models 圖文轉換效果超越DALL-E


在下圖中,研究人員將他們的模型與之前最先進的基於MS-COCO字幕的文字條件影象生成模型進行了比較,發現其模型在無需CLIP 重新排序或挑選的情況下生成了更逼真的影象。對於XMC-GAN,從用於文字到影象生成的跨模態對比學習採集了樣本。對於DALL-E,在溫度0.85下生成樣本,並使用CLIP重新排序從256個樣本中選擇最好的。對於GLIDE,使用2.0刻度的CLIP引導和3.0刻度的無分類器引導。作者沒有為GLIDE執行任何CLIP重新排序或挑選。



研究人員使用人類評估協議將GLIDE與DALL-E進行比較(如下表所示)。請注意,GLIDE使用的訓練計算與DALL-E大致相同,但模型要小得多(35億對120億引數)。此外,它只需要更少的取樣延遲,並且沒有CLIP 重新排序。



研究人員在DALL-E和GLIDE之間執行三組比較。首先,當不使用CLIP重新排序時,比較兩種模型。其次,只對DALL-E使用CLIP重新排序。最後,對DALL-E使用CLIP重新排序,並透過DALL-E使用的離散VAE投影GLIDE樣本。後者允許研究者評估DALLE模糊樣本如何影響人類的判斷。他們使用DALL-E模型的兩個溫度來進行所有的評估,其模型在所有設定中都受到人類評估人員的青睞,即使在非常支援DALL-E的配置中,也允許它使用大量的測試時間計算(透過CLIP重新排序)同時降低GLIDE樣本質量(透過VAE模糊)。

推薦閱讀

GAIR 2021大會首日:18位Fellow的40年AI歲月,一場技術前沿的傳承與激辯

2021-12-10

打破GANs“壟斷”|OpenAI新研究:Diffusion Models 圖文轉換效果超越DALL-E


致敬傳奇:中國並行處理四十年,他們從無人區探索走到計算的黃金時代 | GAIR 2021

2021-12-09



時間的力量——1991 人工智慧大辯論 30 週年紀念:主義不再,共融互生|GAIR 2021

2021-12-12



未來已來,元宇宙比你想象中來得更早丨GAIR 2021

2021-12-12

打破GANs“壟斷”|OpenAI新研究:Diffusion Models 圖文轉換效果超越DALL-E


雷峰網

分類: 娛樂
時間: 2021-12-22

相關文章

美加州阿里薩山火蔓延逾5400公頃 上千消防員出動
中新網10月14日電 據外媒報道,美國加州當局表示,阿里薩(Alisal Fire)山火自11日延燒以來,過火面積達到約5400公頃,當局已下達疏散令,當地上千名消防隊員正與迅速擴大的火勢搏鬥. 據報 ...

祝賀!汪順在第十四屆全運會男子400米混合泳決賽中奪冠
都市快報訊 浙江運動員汪順在第十四屆全運會男子400米混合泳決賽中以4分12秒76獲得冠軍.

阿聯酋裁判組執法中越之戰 哈桑出任主裁

阿聯酋裁判組執法中越之戰 哈桑出任主裁
12強賽 中越裁判 中國男足目前正在阿聯酋沙迦備戰10月7日主場對陣越南隊的世預賽亞洲區12強賽第三輪的比賽,記者從國際足聯與亞足聯獲悉,未來執法中越之戰的將是來自阿聯酋的裁判組,從主裁判到助理裁判. ...

薩達姆8個月的逃亡生活是怎麼度過的?每天很恐慌,3天換次藏身地

薩達姆8個月的逃亡生活是怎麼度過的?每天很恐慌,3天換次藏身地
"伊拉克戰爭"爆發後,不到20天,伊拉克首都巴格達淪陷.4月9日,美軍佔領巴格達,薩達姆政權正式倒臺.隨後,薩達姆帶著"薩達姆敢死隊"和家人逃到了老家.直到20 ...

在歷屆全運會中奪下女乒單打冠軍的名將

在歷屆全運會中奪下女乒單打冠軍的名將
中國乒乓的實力遙遙領先世界,考慮到要照顧世界各地乒乓協會外加推進專案普及,中國奧運單打名額目前僅有兩個,所以實際上很難說雲集奧運賽事代表著平均水平最高的舞臺,反之包括球迷球員媒體在內的群體都普遍認可中 ...

第三次全運會決賽之旅,浙江足球不想再讓遺憾重演

第三次全運會決賽之旅,浙江足球不想再讓遺憾重演
特約記者徐毅報道 在守門員王曉峰撲出了四川隊的第7個點球后,所有隊友瘋狂的衝向他,與球隊的晉級功臣緊緊相擁.全運會男子足球U20組半決賽中,浙江隊在90分鐘內和四川隊踢成1比1,最終浙江隊透過點球大戰 ...

1990世界盃決賽——一場被裁判毀掉的糟糕決賽

1990世界盃決賽——一場被裁判毀掉的糟糕決賽
之前分析了多場往屆阿根廷取勝的世界盃比賽,現在來說說曾經的一場慘痛失利,90年世界盃決賽. 說到這場比賽,可以說是歷屆世界盃決賽中場面最為一邊倒的,儘管比分差距並不懸殊.首先來看看雙方的出場陣容. 西 ...

深圳自動駕駛公司獲阿里領投3億美元,晉升獨角獸,開啟貨運落地

深圳自動駕駛公司獲阿里領投3億美元,晉升獨角獸,開啟貨運落地
雷剛 發自 副駕寺 智慧車參考 報道 | 公眾號 AI4Auto 阿里出手,又一家自動駕駛創業公司晉升獨角獸序列. 還是從深圳創業走出的公司. 元戎啟行,官宣完成B輪3億美元融資. 此輪融資由阿里巴巴 ...

黑馬!十四運柔道專案,黑龍江小將王木子驚喜摘銅丨龍江拳王拳後雙雙晉級十四運決賽

黑馬!十四運柔道專案,黑龍江小將王木子驚喜摘銅丨龍江拳王拳後雙雙晉級十四運決賽
9 月 18 日,十四運柔道比賽在陝西韓城進行.在女子 -78 公斤級的銅牌爭奪賽中,來自黑龍江的王木子戰勝廣東選手趙雪彤,奪得銅牌. " 第一次參加全運會,我對拿到銅牌的表現比較滿意.雖然 ...

中國男排不敵伊朗隊無緣亞洲錦標賽決賽

中國男排不敵伊朗隊無緣亞洲錦標賽決賽
新華社日本千葉9月18日電(記者王子江)中國男排18日在日本千葉舉行的第21屆亞洲男排錦標賽半決賽中,以1:3不敵衛冕冠軍伊朗隊,未能實現十年內首次躋身亞錦賽決賽的夢想. 9月18日,中國隊球員於垚辰 ...

全運會 | 男足U20決賽浙江力克新疆隊史首次奪冠

全運會 | 男足U20決賽浙江力克新疆隊史首次奪冠
18日晚,2021全運會男足U20組別的決賽在咸陽奧體中心體育場結束 最終新疆U20代表隊1比2不敵浙江U20代表隊,首次晉級全運會決賽的新疆隊遺憾沒能站到最高領獎臺上,也成全了對手的首次加冕.雖然輸 ...

國服第一迦南轉型玩其他?Zx訓練賽玩火男上癮,錦鯉杯決賽有好戲

國服第一迦南轉型玩其他?Zx訓練賽玩火男上癮,錦鯉杯決賽有好戲
經過半個月的比賽錦鯉杯的決賽終於敲定要在國慶開始,從三排到單排終於是要決定誰是最後的冠軍,從幾個階段來看,三排和單排中有直接保送的種子選手,有一路艱難打進決賽的黑馬,而距離決賽還有半個月,這段時間大家 ...

這兩位超級巨星在週三在密爾沃基舉行的第四場比賽中表現出色,

這兩位超級巨星在週三在密爾沃基舉行的第四場比賽中表現出色,
Giannis Antetokounmpo,克里斯保羅在他們的比賽中處於領先地位 這兩位超級巨星在週三在密爾沃基舉行的第四場比賽中表現出色,他們各自的球隊都表現出色. 克里斯保羅場均得到 24.7 分 ...

28名教師進入決賽

28名教師進入決賽
9月17日,2021年遼寧省高職高專院校思想政治理論課教學大賽半決賽在瀋陽舉行. 本次大賽由省委教育工委.省教育廳主辦,遼寧金融職業學院承辦,來自省內高職高專院校的49名進入半決賽的思政課教師參加比賽 ...

談東京奧運會中表現最震撼最具話題性的五大中國運動員
延遲一年舉辦的東京奧運在8月份落下了帷幕.在這一屆奧運會中我國奧運健兒取得了38枚奧運金牌以及多枚銀牌銅牌的優異成績!金牌榜位列全球第二位!許多運動專案成績取得重大突破!五星紅旗在日本東京的各大運動場 ...

遭遇改判!無緣全運會決賽 牟海鵬:為下一個冠軍全力以赴

遭遇改判!無緣全運會決賽 牟海鵬:為下一個冠軍全力以赴
東北網9月19日訊(記者 安澤)9月18日,第十四屆全運會男子拳擊+91公斤級半決賽在陝西省榆林職業技術學院體育館結束.黑龍江名將牟海鵬獲得了該專案的銅牌. 這場半決賽中,牟海鵬表現穩健,步伐和技術的 ...

海南沙排將創全運會最好成績 將在1/4決賽上演“海南德比”

海南沙排將創全運會最好成績 將在1/4決賽上演“海南德比”
新海南客戶端.南海網.南國都市報9月19日訊息(記者 陳望)9月19日,第十四屆全國運動會沙灘排球女子U17組淘汰賽抽籤儀式舉行,海南青年一隊的楊佳佳/高紫娜將在1/4決賽中對陣海南青年二隊的範丹妮/ ...

全運會體操男子預賽結束 廣西男隊晉級團體決賽

全運會體操男子預賽結束 廣西男隊晉級團體決賽
廣西新聞網-廣西日報西安電(記者 玉智威 鍾文昌)9月19日晚,第十四屆全運會男子體操預賽第三場在陝西奧體中心體育館結束.經過3場角逐,在上午第一場出戰的廣西隊以329.527分排名團體預賽第四,晉級 ...

他為什麼能成為蘇炳添心目中的“蘇神”?

他為什麼能成為蘇炳添心目中的“蘇神”?
來源:中國新聞網 記者:任思雨 "大家都叫我'蘇神',在我心目中也有一個'蘇神'!"東京殘奧會開幕時,運動員蘇炳添發過這樣一條微博. "蘇神"心目中的" ...

全運會-柔道混合團體決賽:山東隊奪冠

全運會-柔道混合團體決賽:山東隊奪冠
來源:新華網 9月19日,山東隊選手在頒獎儀式上. 當日,在陝西省韓城市舉行的第十四屆全運會柔道比賽混合團體決賽中,山東隊戰勝北京隊,奪得冠軍. 新華社記者 邵瑞 攝 9月19日,北京隊選手在決賽中入 ...