sponsored links

我,谷歌AI編舞師,能聽音樂來10種freestyle,想看爵士or芭蕾?

豐色 發自 凹非寺
量子位 報道 | 公眾號 QbitAI

Transformer又又接新活了——

這次谷歌用它搞了一個會根據音樂跳舞的AI

話不多說,先讓它給大家來幾段freestyle(原影片見文末地址):

我,谷歌AI編舞師,能聽音樂來10種freestyle,想看爵士or芭蕾?

我,谷歌AI編舞師,能聽音樂來10種freestyle,想看爵士or芭蕾?

我,谷歌AI編舞師,能聽音樂來10種freestyle,想看爵士or芭蕾?

我,谷歌AI編舞師,能聽音樂來10種freestyle,想看爵士or芭蕾?

嗯,動作還挺美觀,各種風格也駕馭住了。

看著我都想跟著來一段。

你pick哪個?

而這個AI也憑藉著對音樂和舞蹈之間的關聯的深刻理解,打敗了3個同類模型取得SOTA,登上了ICCV 2021。

我,谷歌AI編舞師,能聽音樂來10種freestyle,想看爵士or芭蕾?

另外,除了程式碼開源,研究團隊還隨之一起公開了一個含有10種類型的3D舞蹈動作資料集。

我,谷歌AI編舞師,能聽音樂來10種freestyle,想看爵士or芭蕾?

心動的,搞起來搞起來!

這個freestyle怎麼來?

前面咱們不是說,這個AI用了Transformer嗎?

但這裡的Transformer不是普通的Transformer,它是一個基於完全注意力機制(Full-Attention)的跨模態Transformer,簡稱FACT

為什麼要搞這麼複雜?

因為研究人員發現,光用單純的Transformer並不能讓AI理解音樂和舞蹈之間的相關性

我,谷歌AI編舞師,能聽音樂來10種freestyle,想看爵士or芭蕾?

所以,這個FACT是怎麼做的呢?

總的來說,FACT模型採用了獨立的動作和音訊transformer

首先輸入2秒鐘的seed動作序列和一段音訊,對其進行編碼。

我,谷歌AI編舞師,能聽音樂來10種freestyle,想看爵士or芭蕾?

然後將embedding(從語義空間到向量空間的對映)連線起來,送入跨模態transformer學習兩種形態的對應關係,並生成n個後續動作序列。

這些序列再被用來進行模型的自監督訓練。

其中3個transformer一起學習,採用的是不用預處理和特徵提取,直接把原始資料扔進去得到最終結果的端到端的學習方式。

另外就是在自迴歸框架中進行模型測試,將預期運動作為下一代階段的輸入。

最終,該模型可以逐幀地生成一段(long-range)舞蹈動作。

下圖則展示了該模型透過同一段種子動作(嘻哈風格)、不同音樂生成了四種舞蹈作品(霹靂舞、爵士芭蕾、Krump和Middle Hip-hop)。

有沒有懂行的點評一下?

我,谷歌AI編舞師,能聽音樂來10種freestyle,想看爵士or芭蕾?

而為了讓AI生成的舞蹈生動且和音樂風格保持一致,這個模型設計裡面有3個關鍵點

1、模型內部token可以訪問所有輸入,因此三個transformer都使用一個完全注意力mask。這使得它比傳統的因果模型更具表現力。

2、不止預測下一個,該模型還預測N個後續動作。這有助於模型關注上下文,避免在幾個生成步驟後出現動作不銜接和跑偏的情況。

3、此外,在訓練過程的前期還用了一個12層深的跨模態transformer模組來融合兩個embedding(音訊和動作)。研究人員表示,這是訓練模型傾聽分辨輸入音樂的關鍵。

下面就用資料來看看真實效能。

打敗3個SOTA模型

研究人員根據三個指標來評估:

1、動作質量:用FID來計算樣本(也就是他們自己釋出的那個資料集,後面介紹)和生成結果在特徵空間之間的距離。一共用了40個模型生成的舞蹈序列,每個序列1200幀(20秒)。

FID的幾何和動力學特性分別表示為FIDg和FIDk。

2、動作多樣性:透過測量40套生成動作在特徵空間中的平均歐氏距離(Euclidean distance)得出。

分別用幾何特徵空間Distg和動力學特徵空間k來檢驗模型生成各種舞蹈動作的能力。

3、動作與音樂的相關性:沒有好的已有指標,他們自己提出了一個“節拍對齊分數”來評估輸入音樂(音樂節拍)和輸出3D動作(運動節拍)之間的關聯。

下面是FACT和三種SOTA模型(Li等人的、Dancenet、Dance Revolution)的對比結果:

我,谷歌AI編舞師,能聽音樂來10種freestyle,想看爵士or芭蕾?

可以看到,FACT在三項指標上全部KO了以上三位。

*由於Li等人的模型生成的動作不連續,所以它的平均動力學特徵距離異常高,可以忽略。

看了資料,咱們再看個更直觀的:

我,谷歌AI編舞師,能聽音樂來10種freestyle,想看爵士or芭蕾?

emmm,相比動作靈活的FACT,其他兩位看起來都有點“不太聰明”的亞子……

我,谷歌AI編舞師,能聽音樂來10種freestyle,想看爵士or芭蕾?

舞蹈動作資料集AIST++

最後,再來簡單介紹一下他們自己打造的這個3D舞蹈動作資料集AIST++

看名字你也發現了,這是基於現有的舞蹈資料集AIST的“加強版”,主要是在原有基礎上加上了3D資訊。

最終的AIST++一共包含5.2小時、1408個序列的3D舞蹈動作,跨越十種舞蹈型別,包括老派和新派的的霹靂舞、Pop、 Lock、Waack,以及Middle Hip-Hop、LA-style Hip-Hop、House、Krump、街頭爵士和爵士芭蕾,每種舞蹈型別又有85%的基本動作和15%的高階動作

(怎麼感覺全是街舞啊?)

每個動作都提供了9個相機視角,下面展示了其中三個。

它可以用來支援以下三種任務:多視角的人體關鍵點估計;人體動作預測/生成;人體動作和音樂之間的跨模態分析。

團隊介紹

一作李瑞龍,UC伯克利一年級博士生,UC伯克利人工智慧研究室成員,Facebook Reality Labs學生研究員。

研究方向是計算機視覺和計算機圖形學的交叉領域,主要為透過2D影象資訊生成和重建3D世界。

讀博之前還在南加州大學視覺與圖形實驗室做了兩年的研究助理。

本科畢業於清華大學物理學和數學專業、碩士畢業於計算機專業,曾在Google Research和位元組AI Lab實習。

共同一作Yang Shan,就職於Google Research。

研究方向包括:應用機器學習、多模態感知、3D計算機視覺與物理模擬。

博士畢業於北卡羅來納大學教堂山分校(UNC,美國8所公立常春藤大學之一)。

David A. Ross,在Google Research領導Visual Dynamics研究小組。

加拿大多倫多大學機器學習和計算機視覺專業博士畢業。

Angjoo Kanazawa,馬里蘭大學博士畢業,現在是UCB電氣工程與計算機科學系的助理教授,在BAIR領導旗下的KAIR實驗室,同時也是Google Research的研究員。

最最後,再來欣賞一遍AI編舞師的魅力吧:

我,谷歌AI編舞師,能聽音樂來10種freestyle,想看爵士or芭蕾?

論文:
https://arxiv.org/abs/2101.08779
GitHub:
https : //github.com/google-research/mint
資料集:
https://google.github.io/aistplusplus_dataset/
專案主頁:
https://google.github.io/aichoreographer/

參考連結:
[1]https://www.marktechpost.com/2021/09/15/google-ai-introduces-full-attention-cross-modal-transformer-fact-model-and-a-new-3d-dance-dataset-aist/
[2]https://ai.googleblog.com/2021/09/music-conditioned-3d-dance-generation.html

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們,第一時間獲知前沿科技動態

分類: 科技
時間: 2021-09-20

相關文章

汕頭貓王新捷達音響改裝先鋒兩分頻,雙升級帶來全新聽音體驗

汕頭貓王新捷達音響改裝先鋒兩分頻,雙升級帶來全新聽音體驗
新捷達車主平時在車上待的時間比較多,長時間的駕駛需要音樂來緩衝疲倦感,由於原車的音響系統採用的是低成本的劣質喇叭,加上某些部位的噪音困擾,導致聲音渾濁不清,小音量時音樂細節無法表現,大音量時又容易失真 ...

賓士GLK300音響改裝勁浪兩分頻,發燒改裝提升聽音快感

賓士GLK300音響改裝勁浪兩分頻,發燒改裝提升聽音快感
對自己的愛車根據自己的愛好進行改裝,體會的不僅是好器材帶來的享受,更可以體會每一次升級後那種感受到明顯變化的樂趣.本次主角賓士GLK300車主來到泉州海林,就是為了感受改裝帶來提升的快感. 改裝車型- ...

搭載谷歌自研晶片,谷歌 Pixel 6 系列官宣,10月20日釋出

搭載谷歌自研晶片,谷歌 Pixel 6 系列官宣,10月20日釋出
近日,備受關注的谷歌 Pixel 6 系列正式官宣.這款手機將會搭載谷歌自主研發的Tensor移動晶片,將於北京時間10月20日釋出.從渲染圖來看,它的機身正面採用主流的居中挖孔屏設計,而機身背面則採 ...

家庭隔音,環保隔音棉吸音棉哪種效果最好?
隔音棉,也叫吸音棉,主要作用是吸音. 選擇吸音棉,主要從環保.材質.容重.厚度這4點來考慮. [環保] 工程級的岩棉.玻璃棉.石棉等,有害物質釋放.粉塵.掉渣.汙染很重.扎手.時間久了會鬆垮下沉,只能 ...

邢臺10種特色美食,您吃過幾種?聽名字都饞人

邢臺10種特色美食,您吃過幾種?聽名字都饞人
邢臺,又名"牛城",區號0319,郵編05400,車牌冀E,地處石家莊以南,古城邯鄲以北,是一座名副其實的歷史古城. 邢臺城市規模不大,但絲毫不影響這裡的老百姓喜歡她,愛戴她.邢臺 ...

我把星辰大海裝進了眼鏡裡 | 雷柏 Z1 Sport 智慧音訊眼鏡
本文作者為體驗師@阿凱,首發於糖紙眾測 配合影片食用更佳哦 我的眼鏡可以裝下星辰大海|雷柏Z1音訊眼鏡 #分享休閒好時光#_騰訊影片 這幾年智慧佩戴裝置越來越成熟,也越來越被廣大消費者接受.但是大部分 ...

京劇泰斗周信芳良言相勸,迷戀“轉音”的單依純能聽得進去嗎?

京劇泰斗周信芳良言相勸,迷戀“轉音”的單依純能聽得進去嗎?
京劇行曾出過一種現象,"耍腔".一些演員為了給唱段加點花活,秀秀唱功,吸引觀眾而搞起的巧腔技術活.說實話,"耍腔"要耍得好真能博取喝彩,否則就是喝倒彩,直至被轟 ...

售價399元,一加發布降噪最強的TWS耳機,聽歌觀影全方位沉浸

售價399元,一加發布降噪最強的TWS耳機,聽歌觀影全方位沉浸
今晚,一加在公佈手機9RT的時候,還介紹了TWS藍芽耳機BudsZ2,銷售價399元. 這款藍芽耳機將於10月19日上市開售,今晚20:40打開發售. 官方網站稱一加BudsZ2可能是500元之內降噪 ...

原音重現,點亮“中國範”,比亞迪漢無損升級德國進口RS能量音響

原音重現,點亮“中國範”,比亞迪漢無損升級德國進口RS能量音響
比亞迪漢從"漢"這個車型徽章開始就在傳遞著深刻的內涵,其左半部設計取自漢初篆書漢字,右半部設計將現代簡體漢字與漢初篆書字型相融.這寓意著融合與新生,也在表達著中華文化對於汽車文化的 ...

貴族之音讓純電動車王者歸來,蔚來ES8無損升級德國RS貴族音響

貴族之音讓純電動車王者歸來,蔚來ES8無損升級德國RS貴族音響
蔚來ES8是蔚來汽車量產的一款新能源SUV車型,它的車身和底盤由全鋁合金打造而成,這讓汽車的整備質量更輕,安全性更高.蔚來ES8全系標配主動空氣動力懸掛,採用四輪驅動,保證整車操控性和駕乘舒適性.這臺 ...

改裝超高性價比摩雷聽寶兩分,汕頭長安CS75汽車音響升級

改裝超高性價比摩雷聽寶兩分,汕頭長安CS75汽車音響升級
今天給大家分享的是長安汽車. 喜歡音樂到一定程度,會是怎樣的?今天的長安CS75車主就是一個音樂發燒友,他認為每一段音樂都應該讓人感到享受,所以會對音響裝置精益求精,無論是家中的音響,還是愛車的音響系 ...

聽什麼都好聽成都大眾寶來音響改裝升級

聽什麼都好聽成都大眾寶來音響改裝升級
大眾寶來原車普通音響,更好聽的音質是無法提供,但是我們可以透過音響改裝升級的方案來獲得達到自己要求的聆聽要求的音響系統,而對於寶來音響改裝來說這一切都是可以原裝位置安裝,升級完成之後看不見有改裝音響的 ...

飽滿聽感著重細膩人聲,奧迪Q5無損升級德國原裝進口RS系列音響

飽滿聽感著重細膩人聲,奧迪Q5無損升級德國原裝進口RS系列音響
眾所周知,奧迪Q5是一款動感而全能的SUV,它完美融合了運動型轎車的車身設計.高效動力和靈敏操控.SUV的越野安全,奧迪Q5效能以及旅行車的出色舒適性和靈活多變的內部空間,得到很多車友的青睞.但是一輛 ...

復讀機怎麼選?傳統傾聽者與智慧AI超記牛對比測試

復讀機怎麼選?傳統傾聽者與智慧AI超記牛對比測試
今年的教育教學變化還是挺大的,在雙減政策之後,更多的孩子有了足夠的時間來進行自我學習,不過,對於自我學習,除了講究毅力外,有效的輔導資源加入肯定會讓學習效率達到事半功倍的效果.關於這個問題,不少父母對 ...

天津這套威風八面的霍家嘴平音法鼓,原來與閩浙媽祖文化有關

天津這套威風八面的霍家嘴平音法鼓,原來與閩浙媽祖文化有關
天津北運河畔的北辰區天穆鎮是一塊傳統文化和民俗的沃土.歷史上漕運興盛的時期,天穆鎮的霍家嘴渡口成為南北政治.經濟.文化的交流交匯之地.在閩浙媽祖文化的影響下,這裡誕生了獨具特色的民俗活動--霍家嘴平音 ...

聽音質效果好的音樂成都斯巴魯傲虎音響改裝升級

聽音質效果好的音樂成都斯巴魯傲虎音響改裝升級
想聽音質好的音樂效果,想聽環繞立體的音樂聲?對於斯巴魯傲虎來講如果是透過原車音響來聽的話恐怕會讓你很失望,不過我們可以透過音響改裝升級的方案來獲得搞品質的音樂聆聽效果,讓你中駕乘中能有一個開心快樂分享 ...

上海音豪大眾朗逸汽車音響改裝德國彩虹EL-C6.2兩分頻

上海音豪大眾朗逸汽車音響改裝德國彩虹EL-C6.2兩分頻
很多車主在開車時都有聽歌的習慣,尤其是當一個人駕車時,音樂更是必不可少的調味劑.這臺大眾朗逸的車主就是如此,不過隨著對音樂品質的要求越來越高,原車簡單的音響配置,已無法滿足車主的聽音需求,因而車主來到 ...

《這就是街舞4》第六期,編舞師的天堂

《這就是街舞4》第六期,編舞師的天堂
齊舞環節,一直是得編舞師得天下,這期王一博算吃了大虧了,以他的喜好,估計後面搶人環節首先就要對馬曉龍下手,拭目以待. 首先來說張藝興和韓庚組的隊長齊舞對決,張藝興隊的齊舞整齊,但總體來說中規中矩,沒有 ...

日產軒逸音響改裝詩芬尼S62兩分頻,原車僅4個喇叭怎夠聽?

日產軒逸音響改裝詩芬尼S62兩分頻,原車僅4個喇叭怎夠聽?
軒逸原車搭配了4個揚聲器,但聲音解析不足,中音渾濁,高音不準,整車聲場效果表現讓車主極為不滿,此次車主來到泉州海林,想透過簡單的改裝,改變現狀. 改裝車型--日產軒逸 日產軒逸音響改裝配置: 前聲場: ...