sponsored links

李飛飛團隊建立深度學習「遊樂場」:AI也在自我進化,細思極恐

來源:Stanford

編輯:好睏 瘦瘦

【新智元導讀】近日,斯坦福李飛飛教授等人的研究「深度進化強化學習」登上nature子刊,首次證明了「鮑德溫效應」。或許,機器人形態的設計也可以透過一波「進化」來搞定?

動物的智慧是在和環境互動的過程中與身體形態同步進化的。

例如,倉鼠透過「進化」出長了好多腿的倉鼠球來逃避貓的追捕(doge)。

李飛飛團隊建立深度學習「遊樂場」:AI也在自我進化,細思極恐

好吧,言歸正傳,AI也相當聰明,但與動物不同的是,AI通常是在矽基的晶片上實現的,並沒有實體。

那麼,如果給AI一個「身體」,這對於智慧的進化是否重要?如果是的話,又該如何利用來創造更聰明的人工智慧?

在李飛飛的帶領下,斯坦福大學的研究小組建立了一個計算機模擬的「遊樂場」——DERL(深度進化強化學習),其中被稱為「Unimals」(通用動物)的智慧體在經歷不斷變異和自然選擇。論文刊登在《自然通訊》雜誌上。

李飛飛團隊建立深度學習「遊樂場」:AI也在自我進化,細思極恐

https://www.nature.com/articles/s41467-021-25874-z

研究結果顯示,虛擬生物的身體形狀影響了它們學習新任務的能力,在更具挑戰性的環境中學習和進化的形態,或者在執行更復雜的任務時,比那些在更簡單的環境中學習和進化的形態學習進化得更快、更好。

在這項研究中,具有最成功的形態的Unimal也比前幾代更快地掌握了任務,儘管它們最初的基線智力水平與前代相同。也就是說,「具身化」是智慧進化的關鍵。

「我們通常專注於AI是如何實現人類大腦中神經元的功能,」研究小組成員、斯坦福大學HAI的聯合主任李飛飛表示,「然而將AI看作是具有物理實體的東西是一種完全不同的正規化。」

研究報告的共同作者、人文與科學學院應用物理學副教授、HAI副主任Surya Ganguli說:「據我們所知,這是第一次相關的模擬實驗,其結果表明可以透過改變形態來加快學習的速度。」

「Unimal」宇宙

團隊設定了一個虛擬空間,並將簡單的模擬生物放入其中。當然,這些生物只是一些透過「隨機方式」進行移動的「幾何圖形」(Unimal)。

在學習階段中,有平坦的地形,有更具挑戰性的地形,包括塊狀山脊、階梯和光滑的山丘。Unimal必須在多變的地形上將一個塊狀物移動到目標位置。

訓練結束後,每個Unimal與其他三個在相同環境/任務組合中訓練過的Unimal進行比賽。勝者將產生一個單一的後代,該後代在面對與父母相同的任務之前,經歷了一次涉及肢體或關節變化的突變。

最終,在訓練了4000種不同的形態後,團隊結束了模擬。此時,倖存的Unimal平均經歷了10代的進化,其形態令人驚訝地多樣化,包括兩足動物、三足動物以及有手臂和無手臂的四足動物。

李飛飛團隊建立深度學習「遊樂場」:AI也在自我進化,細思極恐

而最初,「幾乎圖形」只有一個「腦袋」和發達的「四肢」,他們有許多奇形怪狀的姿勢,「有些人蹣跚前行,有些如蜥蜴般的行走姿勢。其他人揮舞著十分逗趣的行為風格,讓人聯想到「八爪魚」。

李飛飛團隊建立深度學習「遊樂場」:AI也在自我進化,細思極恐

咦?看起來似乎與舊實驗沒區別,別急,進化才剛剛開始。

這些Unimal生長在不同的星球中,星球中充滿了「起伏的山丘」和「低矮的障礙物」,他們在更加激烈的環境中展開競爭。看看是否如大家所說,「逆境是成功之母」。

每個環境中的前 10 名Unimal被安排在了新任務中,從「新障礙」到將球移動到目標位置、將盒子推上山或在兩點之間巡邏。這些「角鬥士」真正展示了他們的虛擬勇氣。

最終,那些能在「複雜的地形中」行走的 Unimal 比在「平地上的表親」更快地學習新任務,並且完成的更好。

換句話說,它們透過「生存」而「進化」,但並不是「邊做邊學」。而是在複雜的環境中同時進行「進化」和「學習」,比如有臺階、丘陵、山脊和移動的地形,以便在這些複雜環境中進行操作。

李飛飛團隊建立深度學習「遊樂場」:AI也在自我進化,細思極恐

在平坦的地形上,「章魚flop」可能會以相同的時間到達終點線,但「適應山丘和山脊的身體配置」往往是更快速、更穩定和能力最強的。他們多才多藝的身體能夠更好的利用他們的經驗教訓 - 很快他們就將競爭對手拋在了腦後。

都交給「進化」去做吧

李飛飛團隊建立深度學習「遊樂場」:AI也在自我進化,細思極恐

通用計算框架DERL利用兩個相互作用的適應過程來製造具身的智慧體

進化的外迴圈透過變異操作最佳化智慧體的形態(b),內部強化學習迴圈優化了神經控制器的引數(c)。在可變地形的操縱中,智慧體必須從初始位置(綠色球體)開始,將一個盒子移動到目標位置(紅色方塊)。

在每個環境完成三次進化執行後(每次有4000種形態),團隊從每個環境中挑選出表現最好的10個Unimal,並從頭開始訓練它們完成8項全新的任務,如繞過障礙物、操縱一個球或將一個箱子推上斜坡。

最成功的Unimal在個體(透過較少的訓練獲得更好的表現)和跨代的學習方面也更快。團隊發現,在早期祖先生命後期習得的行為能夠在他們的後代生命早期表達出來。

此外,在10代之後,最成功的Unimal形態在學習同一任務的時間是其最早祖先的一半。

這也驗證了美國心理學家James Mark Baldwin在19世紀末提出的假設:「學習具有適應性優勢的事物的能力」可以透過達爾文的自然選擇來傳承。

人類不一定知道如何為奇怪的任務設計機器人的身體,例如爬過核反應堆提取廢物,在地震後提供救災,引導奈米機器人穿過人體,甚至做洗碗或疊衣服等家務。

或許,設計這些機器人的唯一出路就是交給「進化」去實現。

參考資料:

https://www.nature.com/articles/s41467-021-25874-z

https://hai.stanford.edu/news/how-bodies-get-smarts-simulating-evolution-embodied-intelligence

https://techcrunch.com/2021/10/06/simulated-ai-creatures-demonstrate-how-mind-and-body-evolve-and-succeed-together/

分類: 科技
時間: 2021-10-07

相關文章

細思極恐漫畫「電梯中的盲人」

細思極恐漫畫「電梯中的盲人」
你,看懂了嗎? 點贊畫手歌者

細思極恐漫畫「樓頂的餐廳」

細思極恐漫畫「樓頂的餐廳」
你,看懂了嗎? 點贊畫手歌者

王凱團隊發表解析遺傳變異的深度學習演算法——NanoCaller

王凱團隊發表解析遺傳變異的深度學習演算法——NanoCaller
單核苷酸多型性(SNP)和插入/缺失(InDel)是人類基因組中最常見的兩種遺傳變異型別.在利用新一代高通量測序資料研究基因組變異和基因組功能時,SNP和InDel的檢測基本檢測專案.目前,已有多種不 ...

美國宇航局採用李熙團隊成果製作新一代夜光遙感標準產品

美國宇航局採用李熙團隊成果製作新一代夜光遙感標準產品
本文內容轉載自微信公眾號:測繪遙感國家重點實驗室,版權歸原作者及刊載媒體所有,所刊載內容僅供交流參考使用. 近期,美國宇航局(NASA)釋出了新一代夜光遙感影像產品(英文:Black Marble:中 ...

十大值得關注的深度學習演算法
預測未來不是魔法,而是人工智慧.毋庸置疑,人工智慧的風頭正勁,每個人都在談論它,無論他們是否理解這個術語. 據研究人員和分析師稱,到 2024 年,數字助理的使用率預計有望達到 84 億.超個性化.聊 ...

國外AI工程師講述:深度學習與目標檢測,理論和實踐果然兩碼事

國外AI工程師講述:深度學習與目標檢測,理論和實踐果然兩碼事
背景故事 2018 年,當時我在工廠實習,我開始研究目標檢測技術,因為我需要解決視覺檢測問題. 這個問題需要在來自工業相機的影象流中檢測許多不同的物體目標. 為了應對這一挑戰,我首先嚐試將分類與滑窗法 ...

電力系統深度學習的技術,量子蟻群網路的特高壓輸電線損預測方法

電力系統深度學習的技術,量子蟻群網路的特高壓輸電線損預測方法
隨著電力系統的規模迅速擴大,其網路的結構趨於複雜,給理論電網損耗計算帶 來了困難:同時電網計量自動化系統的應用增強了電網的監控能力,電網公司可以較方便 地採集到用於電網損耗理論計算的各種資料.目前所使 ...

百度公開“高精地圖的生產方法”專利,涉及AI自動駕駛和深度學習

百度公開“高精地圖的生產方法”專利,涉及AI自動駕駛和深度學習
北京百度網訊科技有限公司日前公開"高精地圖的生產方法.裝置.裝置和計算機儲存介質"專利,申請日期為2021年6月8日,申請公佈號CN113409459A. 天眼查App顯示,該專利 ...

教師善用策略促進幼兒深度學習
專案式學習雖然是實現幼兒深度學習的有效策略,但並非所有的專案式學習都能達到深度學習的效果.在開展專案式學習的過程中,教師常常遇到以下問題:找不到專案的問題線索怎麼辦?幼兒提出了這麼多問題,如何選擇?活 ...

2021秋季網上新品耳機展「二」

2021秋季網上新品耳機展「二」
二十三.山靈 山靈EM5 桌面級安卓播放器 介紹 山靈EM5桌面級安卓播放器,融合了山靈33年臺機調教功力與開發經驗,帶來全新的聆聽使用體驗.EM5採用深度定製安卓系統,配置4.7英寸高畫質夏普屏,支 ...

數字時代的「 局外人 」

數字時代的「 局外人 」
圖源:抖音公益微電影<局外人> " 隨著<中國網際網路絡發展狀況統計報告>顯示:60歲及以上的非網民約1.91億,約佔73.4%.父母輩成為了數字生活的局外人. 不會 ...

「翡翠」創匯期飄陽綠“連年有餘”翡翠圓佩

「翡翠」創匯期飄陽綠“連年有餘”翡翠圓佩
我是@田地裡的甲殼蟲!超級喜歡翡翠,深深陷入其中 ,不能自拔!藉助"今日頭條"這個平臺,和同好們學習,分享翡翠的知識和美圖! 讀書筆記 連年有餘是由蓮花和鯉魚組成的中國傳統的吉祥圖 ...

36氪獨家丨戶外家居品牌「Outer」完成5000萬美元B輪融資,估值較上一輪漲近10倍

36氪獨家丨戶外家居品牌「Outer」完成5000萬美元B輪融資,估值較上一輪漲近10倍
36氪獲悉,戶外家居品牌「Outer」近期已完成5000萬美元B輪融資,本輪融資由今日資本領投,Tribe Capital.C資本.Upfront Ventures以及老股東紅杉資本中國基金.Muck ...

糟滷拼盤 | 糟了!整個冰箱都不夠我拿來「滷」

糟滷拼盤 | 糟了!整個冰箱都不夠我拿來「滷」
夏將盡,秋已至.一晃神,今日就已經立秋了. 聽起來雖說是秋季的頭一個節氣,但暑氣還是不講道理賴著不散.何以解暑熱?唯有下酒菜! 對北方人民來說,「糟貨」可能有些陌生.不過對於包郵區來說,糟貨可是夏季必 ...

「生氣」如何一步步誘發心梗?《歐洲心臟雜誌》找到了真兇

「生氣」如何一步步誘發心梗?《歐洲心臟雜誌》找到了真兇
影視劇中常出現這樣的鏡頭:人在盛怒之時,突然捂緊胸口,倒地不起-- 這並沒有誇大「生氣」的可怕,現代醫學已經證實,生氣的確是心梗.冠心病的重要誘因. 近日,<歐洲心臟雜誌>發表的一項研究解 ...

奶爸如何「迎戰」家庭負面情緒?”——禾一母嬰

奶爸如何「迎戰」家庭負面情緒?”——禾一母嬰
☊ 每晚22:35分,我在酒館和你說晚安 不知新手爸爸們是否有這樣的經歷,辛辛苦苦在外工作了一天回到家,開啟家門面對的卻是哭鬧不停的寶寶和不斷埋怨的妻子,本以為家是休憩的港灣,卻難以得到期望的平和與寧 ...

監房生活有排捱,黃之鋒終於學懂「適應」

監房生活有排捱,黃之鋒終於學懂「適應」
監房生活有排捱,黃之鋒終於學懂「適應」 2021年9月21日,農曆八月十五日,中秋節正日,黃之鋒在獄中書寫了一封信,旨在與其他人分享一下如何在苦難中自處.據悉,信中直指:「人生處於低潮會有各式各樣嘅念 ...

新能源汽車的電池安全焦慮,有「良藥」可解嗎?

新能源汽車的電池安全焦慮,有「良藥」可解嗎?
當純電動汽車續航里程痛點得到解決,安全開始成為消費者拒絕純電動汽車的又一因素.安全之所以成為焦點,在於新能源汽車追求更長續航.更強效能而採用了一些相對激進的策略,比如應用能量密度更大的電池.採用更激進 ...

四川恐龍新物種叫「大雄」,學者是哆啦A夢粉絲

四川恐龍新物種叫「大雄」,學者是哆啦A夢粉絲
中國地質大學(北京)的研究團隊,在四川瀘州市發現了一批恐龍腳印化石, 其中最重要的發現是肉食性恐龍實雷龍足跡(Eubrontes)家族多了一個新物種.有趣的是,負責的古生物學家邢立達自小是<哆啦 ...