sponsored links

Google釋出帶有 AIST++ 的人工智慧,可以利用不同的音樂生成3D舞蹈

Google釋出的一款人工智慧,可以利用不同的音樂生成不同的3D舞蹈影片

舞蹈是幾乎在所有文化中都能找到的通用語言,也是當今許多人用來在當代媒體平臺上表達自己的一種方式。透過組合與音樂節拍一致的運動模式來提升跳舞的能力是人類行為的一個基本方面。然而,舞蹈是一種需要練習的藝術形式。事實上,通常需要專業的訓練來為舞者配備豐富的舞蹈動作,以創造富有表現力的編舞。雖然這個過程對人們來說很困難,但對於機器學習 (ML) 模型來說更具挑戰性,因為該任務需要能夠生成具有高運動學複雜性的連續運動,同時捕捉運動與運動之間的非線性關係

Google釋出帶有 AIST++ 的人工智慧,可以利用不同的音樂生成3D舞蹈

在ICCV 2021 上發表的“ AI Choreographer: Music-Conditioned 3D Dance Generation with AIST++ ”中,Google提出了一種 全注意力跨模態Transformer (FACT) 模型可以模仿和理解舞蹈動作,甚至可以增強一個人的編舞能力。與模型一起,Google釋出了一個大規模的多模態 3D 舞蹈動作資料集AIST++,其中包含 1408 個序列中 5.2 小時的 3D 舞蹈動作,涵蓋 10 種舞蹈型別,每種型別都包括具有已知相機姿勢的多檢視影片。透過對 AIST++ 的廣泛使用者研究,Google發現 FACT 模型在定性和定量上都優於最近的最先進方法。

Google釋出帶有 AIST++ 的人工智慧,可以利用不同的音樂生成3D舞蹈

Google釋出帶有 AIST++ 的人工智慧,可以利用不同的音樂生成3D舞蹈

Google提出了一種新穎的全注意力跨模態轉換器 (FACT) 網路,該網路可以生成以音樂為條件的逼真 3D 舞蹈動作(右)和新的 3D 舞蹈資料集AIST++(左)。

Google從現有的AIST 舞蹈影片資料庫生成建議的 3D 運動資料集——一組帶有音樂伴奏的舞蹈影片,但沒有任何 3D 資訊。AIST 包含 10 種舞蹈流派:Old School(Break、Pop、Lock和Waack)和New School(Middle Hip-Hop、LA-style Hip-Hop、House、Krump、Street Jazz和Ballet Jazz)。雖然它包含舞者的多檢視影片,但這些攝像機沒有經過校準。

Google釋出帶有 AIST++ 的人工智慧,可以利用不同的音樂生成3D舞蹈

Google根據廣泛使用的SMPL 3D 模型使用的引數恢復了相機校準引數和 3D 人體運動。生成的資料庫 AIST++ 這是一個大規模的 3D 人類舞蹈動作資料集,其中包含與音樂搭配的各種 3D 動作。每個框架都包含大量註釋:

9個相機內參和外參檢視;

17 個COCO 格式的2D 和 3D 人體關節位置;

24 個 SMPL 姿勢引數以及全域性縮放和平移。

動作均勻分佈在所有 10 種舞蹈型別中,涵蓋每分鐘節拍 ( BPM ) 的各種音樂節奏。每種舞蹈型別都包含 85% 的基本動作和 15% 的高階動作(更長的編舞由舞者自由設計)。

AIST++ 資料集還包含多檢視同步影象資料,使其可用於其他研究方向,例如 2D/3D 姿態估計。據Google所知,AIST++ 是最大的 3D 人類舞蹈資料集,包含 1408 個序列、30 個主題和 10 個舞蹈流派,並具有基本和高階編舞。

Google釋出帶有 AIST++ 的人工智慧,可以利用不同的音樂生成3D舞蹈

AIST++ 資料集中的 3D 舞蹈序列示例。 左:來自AIST 舞蹈影片資料庫的舞蹈影片的三個檢視。右:在 3D 網格(頂部)和骨架(底部)中視覺化的重建 3D 運動。

因為 AIST 是一個教學資料庫,所以它記錄了多個舞者按照相同的編舞為不同的音樂以不同的 BPM,這是舞蹈中的常見做法。由於模型需要學習音訊和運動之間的一對多對映,因此這在跨模態序列到序列生成中提出了獨特的挑戰。Google在 AIST++ 上仔細構建了不重疊的訓練和測試子集,以確保在子集之間既不共享編排也不共享音樂。

Full Attention Cross-Modal Transformer (FACT) 模型

使用此資料,Google訓練 FACT 模型以從音樂生成 3D 舞蹈。該模型首先使用單獨的運動和音訊轉換器對種子運動和音訊輸入進行編碼。然後將嵌入連線起來併發送到跨模態轉換器,該轉換器學習兩種模態之間的對應關係並生成N 個未來的運動序列。然後使用這些序列以自我監督的方式訓練模型。所有三個變壓器都是端到端共同學習的。在測試時,Google將此模型應用於自迴歸框架,其中預測的運動作為下一代步驟的輸入。因此,FACT 模型能夠逐幀生成長距離舞蹈動作。

Google釋出帶有 AIST++ 的人工智慧,可以利用不同的音樂生成3D舞蹈

FACT 網路接收音樂作品 (Y) 和 2 秒的種子運動序列 (X),然後生成與輸入音樂相關的長期未來運動。

FACT 涉及三個關鍵設計選擇,這些選擇對於從音樂中產生逼真的 3D 舞蹈動作至關重要。

所有轉換器都使用全注意掩碼,它比典型的因果模型更具表現力,因為內部令牌可以訪問所有輸入。

Google訓練模型來預測當前輸入之外的N 個未來,而不僅僅是下一個動作。這鼓勵網路更多地關注時間上下文,並有助於防止模型在幾個生成步驟後運動凍結或發散。

Google早期融合了兩個嵌入(運動和音訊),並採用了一個深的 12 層跨模態轉換器模組,這對於訓練一個真正關注輸入音樂的模型至關重要。

Google根據三個指標評估效能

運動質量:Google計算了AIST++ 測試集中的真實舞蹈運動序列與 40 個模型生成的運動序列之間的Frechet 起始距離(FID),每個序列具有 1200 幀(20 秒)。Google將基於幾何和動力學特徵的 FID 分別表示為 FID g和 FID k。

生成多樣性:與之前的工作類似,為了評估模型生成潛水員舞蹈動作的能力,Google計算了 AIST++ 測試集上 40 個生成動作的特徵空間中的平均歐幾里德距離,再次比較幾何特徵空間 (Dist g ) 和動力學特徵空間 (Dist k )。

Google釋出帶有 AIST++ 的人工智慧,可以利用不同的音樂生成3D舞蹈

四種不同的舞蹈編排(右)使用不同的音樂生成,但相同的兩秒種子動作(左)。調節音樂的流派是:Break、Ballet Jazz、Krump 和 Middle Hip-hop。種子運動來自嘻哈舞蹈。

Motion-Music Correlation:由於沒有精心設計的指標來衡量輸入音樂(音樂節拍)和生成的 3D 運動(運動節拍)之間的相關性,Google提出了一種新的指標,稱為節拍對齊分數 (BeatAlign)。

Google釋出帶有 AIST++ 的人工智慧,可以利用不同的音樂生成3D舞蹈

生成的舞蹈動作的運動速度(藍色曲線)和運動節拍(綠色虛線),以及音樂節拍(橙色虛線)。透過從運動速度曲線中找到區域性最小值來提取運動節拍。

定量評估

Google將 FACT 在每個指標上的效能與其他最先進方法的效能進行比較。

與最近的三種最先進的方法(Li等人、Dancenet和Dance Revolution)相比,FACT 模型生成的動作更逼真,與輸入音樂的相關性更好,並且在以不同的音樂為條件時更多樣化。*請注意,Li等人。生成的運動是不連續的,使得平均運動特徵距離異常高。

Google還透過使用者研究從感知上評估了運動與音樂的相關性,其中要求每個參與者觀看 10 個影片,顯示Google的一個結果和一個隨機對應的結果,然後選擇與音樂更同步的舞者。該研究由 30 名參與者組成,從專業舞者到很少跳舞的人。與每個基線相比,81% 的人更喜歡 FACT 模型輸出而不是 Li 等人的輸出,71% 的人更喜歡 FACT 而不是 Dancenet,77% 的人更喜歡 Dance Revolution。有趣的是,75% 的參與者更喜歡未配對的 AIST++ 舞蹈動作,而不是 FACT 生成的動作,這並不奇怪,因為原始舞蹈捕捉具有很強的表現力。

定性結果

與DanceNet(左)和Li等先前方法相比。艾爾。(中),使用 FACT 模型生成的 3D 舞蹈(右)更逼真,並且與輸入音樂的相關性更好。

Google釋出帶有 AIST++ 的人工智慧,可以利用不同的音樂生成3D舞蹈

使用 FACT 模型生成更多 3D 舞蹈。

Google釋出帶有 AIST++ 的人工智慧,可以利用不同的音樂生成3D舞蹈

Google釋出帶有 AIST++ 的人工智慧,可以利用不同的音樂生成3D舞蹈

Google提出了一個模型,它不僅可以學習音訊-運動對應關係,還可以生成以音樂為條件的高質量 3D 運動序列。由於從音樂生成 3D 運動是一個新興的研究領域,Google希望Google的工作將為未來跨模態音訊到 3D 運動生成鋪平道路。Google還發布了迄今為止最大的 3D 人類舞蹈資料集AIST++。這個提出的、多檢視、多流派、跨模態的3D運動資料集不僅可以幫助研究條件 3D 運動生成研究,還可以幫助人類理解研究。Google將在GitHub 儲存庫中釋出程式碼,並在此處釋出經過訓練的模型。

Google釋出帶有 AIST++ 的人工智慧,可以利用不同的音樂生成3D舞蹈

雖然Google的結果顯示了這個以音樂為條件的 3D 運動生成問題的有希望的方向,但還有更多的東西需要探索。首先,Google的方法是基於運動學的,Google不考慮舞者和地板之間的物理互動。因此全域性平移會導致偽像,例如腳滑動和浮動。其次,Google的模型目前是確定性的。探索如何為每首音樂生成多個逼真的舞蹈是一個令人興奮的方向。

分類: 科技
時間: 2021-10-01

相關文章

美國安全與新興技術研究中心釋出《小資料人工智慧的巨大潛力》報告

美國安全與新興技術研究中心釋出《小資料人工智慧的巨大潛力》報告
科技戰略 美國安全與新興技術研究中心釋出<小資料人工智慧的巨大潛力>報告 據國防科技要聞9月16日訊息,美國安全與新興技術研究中心釋出<小資料人工智慧的巨大潛力>報告.報告針對 ...

“公車上書”發生地、《狂人日記》誕生地……西城第二批10個文物建築活化利用計劃釋出

“公車上書”發生地、《狂人日記》誕生地……西城第二批10個文物建築活化利用計劃釋出
探索建立文物活化利用"揭榜掛帥"機制,努力讓更多文物"活起來".9月20日,繼首批文物建築活化利用專案簽約落地後,西城區釋出第二批文物建築活化利用計劃,面向社會 ...

信也科技王春平:價值觀在前的人工智慧演算法發展
9月27日,由瑪娜資料基金會主辦的"促進人工智慧演算法性別平等"報告發佈會暨政策研討會在上海舉行,聯合國婦女署駐華辦公室高階專案官員馬雷軍.上海市浦東新區婦女聯合會副主席國雲丹.瑪 ...

Google 地圖新功能!優先指引最節能的「環保路線」

Google 地圖新功能!優先指引最節能的「環保路線」
科技巨頭 Google 宣佈,Google 地圖今年將運用人工智慧科技和整合資訊,針對不同國家陸續推出 3 項新功能,讓使用者能選擇更低碳的方式通勤或旅行. 3 項新功能包括: 一.在美國,預設最節能 ...

人工智慧賦能新藥研發,這次跨行對醫藥行業帶來什麼?

人工智慧賦能新藥研發,這次跨行對醫藥行業帶來什麼?
隨著人們健康生活水平的提高,新藥研發的需求日益迫切.目前,由於新藥物靶點和作用機制越來越少以及研發成本提升,醫藥公司研發新藥難以克服"高成本.高風險.長週期"仍是國內外藥物研發的沉 ...

北京突破“卡脖子”技術 重大創新成果釋出引關注

北京突破“卡脖子”技術 重大創新成果釋出引關注
原標題:[中關村論壇]北京突破"卡脖子"技術 重大創新成果釋出引關注 長壽命超導量子位元晶片.本報記者 王海欣攝 向絕對零度邁進的無液氦稀釋製冷機長什麼樣?長壽命超導量子位元晶片究 ...

我,谷歌AI編舞師,能聽音樂來10種freestyle,想看爵士or芭蕾?

我,谷歌AI編舞師,能聽音樂來10種freestyle,想看爵士or芭蕾?
豐色 發自 凹非寺 量子位 報道 | 公眾號 QbitAI Transformer又又接新活了-- 這次谷歌用它搞了一個會根據音樂跳舞的AI. 話不多說,先讓它給大家來幾段freestyle(原影片見 ...

Lightbits Labs為 VMware提供業界首款軟體定義的NVMe/TCP儲存解決方案
" 基於NVMe的可擴充套件軟體定義彈性塊儲存方案領導者Lightbits Labs (Lightbits) 日前宣佈,公司已成功完成了LightOS針對VMware vSphere 7 U ...

《報告》:各地掀起智算中心“落地潮”須警惕重複建設

《報告》:各地掀起智算中心“落地潮”須警惕重複建設
中國青年報客戶端訊(中青報·中青網記者王林)國家工業資訊保安發展研究中心最近釋出的<新一代人工智慧算力基礎設施發展研究報告>(以下簡稱<報告>)指出,隨著人工智慧的發展,各地正 ...

高中生提前瞭解:未來十年最有可能消失的十二大職業

高中生提前瞭解:未來十年最有可能消失的十二大職業
隨著當今科學技術的飛速發展,除了給人們生活帶來便利外,也使不少人生活受到威脅,就好比人工智慧的異軍突起,在其高效完成任務的同時,一些職業也因人工智慧的發展而逐漸退出歷史舞臺. 雖然對於備戰高考的同學們 ...

9月22日股市內參
一.投資資訊 1.國際鋯英砂大廠大幅上調產品報價.鋯英砂價格望突破歷史高點 據報道,國際領先的優質鋯英砂生產商PYX資源有限公司(NSX:PYX)日前宣佈,其優質鋯英砂今年將進行第四次漲價.新價格立即 ...

揭秘到美國“法輪功”老巢求職經歷:一個教科書式的邪教

揭秘到美國“法輪功”老巢求職經歷:一個教科書式的邪教
文中介紹了4位"法輪功"老巢龍泉寺尋職或工作的洋打工仔的親身經歷,揭露了李洪志及其"法輪功"在內部推行拒醫拒藥.種族主義等歪理邪說,以及控制信徒思想和日常活動等 ...

構建貫通培養體系——日本創新人才教育面面觀

構建貫通培養體系——日本創新人才教育面面觀
[世界教育之窗] 作者:田輝(中國教育科學研究院副教授) 伴隨新技術革命的全球展開,科技創新的重要性日漸凸顯,人力資源已上升為國家經濟和社會發展最重要的戰略資源.日本"第四期科學技術基本計劃 ...

小米註冊小愛女友商標

小米註冊小愛女友商標
企查查 APP 顯示,近日,小米科技有限責任公司申請註冊小愛女友商標,國際分類涉 9 類科學儀器,目前商標狀態為註冊申請中. 據悉,小愛同學為小米公司於 2017 年 7 月 26 日釋出的首款人工智 ...

為AI而生!這隻“熊貓”,技能滿點…

為AI而生!這隻“熊貓”,技能滿點…
人民網 近日,一隻特別的"熊貓"在2021世界機器人大會上全球首發. 這隻來自優必選科技的熊貓機器人優悠身高1米3.體重63公斤,不僅外觀憨態可掬,更是集太極.書寫.畫畫等技能於一 ...

決策參考:蘋果Facebook押注智慧眼鏡;6G將在2030年左右投向市場

決策參考:蘋果Facebook押注智慧眼鏡;6G將在2030年左右投向市場
1.蘋果Facebook押注智慧眼鏡 <失控玩家>離現實更近了 事件:Facebook週四推出了該公司的第一款智慧眼鏡,這是該公司繼收購Oculus VR頭顯裝置以來,釋出的又一款重磅硬體 ...

從入門到應用,打造高水平的無人駕駛教學資源

從入門到應用,打造高水平的無人駕駛教學資源
▍大市場,人才荒 據麥肯錫公開發布的研究顯示,到2030年全球自動駕駛相關產業創收將超5000億美元.面對市場的"誘惑",全球的車企.網際網路巨頭等企業加快了佈局的動作,尤其是在網 ...

​《掃黑風暴》或將下架?部分鏡頭違反廣電禁令,張藝興可太慘了

​《掃黑風暴》或將下架?部分鏡頭違反廣電禁令,張藝興可太慘了
如果說在2021年下半年,有哪一部電視劇堪稱國民級的封神作品,那麼"華強哥"孫紅雷時隔近20年後再次出演的同類型電視劇<掃黑風暴>,絕對是目前網友心目中當之無愧的第一名 ...

09-22早盤主題前瞻

09-22早盤主題前瞻
09-22早盤主題前瞻 一,[大盤] 這個中秋期間,大A股民最慶幸的事,自己休市躲過一"劫",等到我們開盤,外圍就開始反彈了.雖然可能要"補跌",但市場沒那麼恐 ...