AI已經成為許多電子遊戲的關鍵元素,它讓非人類玩家的盟友和對手能夠根據玩家的行動進行智慧決策和行動,從而讓人類玩家能夠體驗更精彩的遊戲感覺。
但隨著遊戲變得越來越複雜——融入了越來越逼真的物理效果,複雜的遊戲機制,以及玩家對非人類的人工智慧的高期望——AI已經很難跟上那些更真實場景和行為的遊戲世界。這個問題對於像《Gran Turismo》系列這樣的遊戲來說尤其嚴重(這是一款賽車遊戲系列,標榜自己是一款“逼真的駕駛模擬器”,並且是最暢銷的PS遊戲。)
現在,索尼和Polyphony Digital(《GT賽車》系列的開發者)釋出了一款經過深度強化學習訓練的複雜人工智慧“索菲”(Sophy),經過兩年的練習,它可以超越世界上最熟練的人類《GT賽車》車手。
電子賽車遊戲的困難之處是什麼?
與《馬里奧賽車》這類卡通遊戲相比,強調真實性的《Gran Turismo》給AI帶來了特別的困難。在GT中,從基本的物體互動到道路狀況,再到汽車和輪胎型別,真實世界駕駛的精確物理過程都被精心複製。這就給GT的AI帶來了問題,這與我們在現實世界中設計AI時所面臨的問題如出一轍。
賽車本質上是控制邊緣駕駛汽車。估計制動點,找到最佳路線,尋找賽道上的抓地力以最大化速度和控制本身都是非常有趣的機器學習問題,但比賽意味著你不是一個人在賽道上飛馳。其他司機影響汽車的動力學,讓情況更加複雜。
還有戰術上的問題:在賽道上找到超越對手的路線,並考慮對手可能的反應。賽車手還需要遵守關於滑出賽道和碰撞的規則(如果個別選手被發現有過錯,他們可能會受到計時處罰)。在賽車比賽中有一個公平競爭的概念——碰撞不應該被用作贏得比賽的工具,但這一原則必須與贏得比賽所必需的侵略性水平相權衡。找到正確的平衡是一個真正的挑戰。
AI必須在整個比賽過程中做出那些實時決定。
該專案始於2020年4月,當時索尼成立了人工智慧部門,目的是“加快人工智慧的基礎研究和開發,提高人類的想象力和創造力,特別是在娛樂領域。”從一開始,索尼AI就與Polyphony Digital合作開發AI驅動程式。
索尼人工智慧研究人員在登上《自然》雜誌封面的一篇論文中解釋說:“我們使用一種新的深度RL(強化學習)演算法。這種方法學習了一個策略,該策略根據情況觀察選擇一個行動,並評估每個可能行動的未來回報的價值函式。根據在跑道上前進的速度得到一份進度獎勵,如果越界、撞牆或失去牽引力就會受到處罰。這些成形的獎勵讓AI能夠快速地收到積極的反饋,保持在賽道上並快速駕駛。“
但“索菲“一開始並不是一名優秀的駕駛員——事實上,索尼表示,一開始人工智慧幾乎不能保持在賽道上的直線。不過,隨著時間的推移,人工智慧能夠了解軌跡曲率、速度、車輪旋轉和其他變數的組合會帶來更好的結果。研究人員寫道:“值得注意的是,‘索菲’在短短几個小時內就學會了繞跑道跑,而且比我們參考資料集裡95%的人類都快。”
這一過程在數千個模擬中反覆進行。這些模擬是在索尼的硬體上執行的,這些硬體通常用於雲遊戲(使用者透過訪問極低延遲的資料中心來玩遊戲,而不是在本地硬體上運行遊戲)。
研究人員寫道:“每個GT‘索菲’在PlayStation上控制多達20輛汽車,這加快了資料收集。我們通常使用10-20臺playstation從頭開始訓練‘索菲’,使用相同數量的計算例項和一臺GPU機器來非同步更新神經網路。”
由於任務的複雜性,訓練過程出現了一些問題。“僅靠程序獎勵不足以激勵AI贏得比賽。如果對手足夠快,就需要學會跟隨,也能積累大量的獎勵,而不會有潛在災難性碰撞的風險。”
研究人員還必須引入不可預測的駕駛員——索菲不能只和自己比賽,否則它就無法應對不可預測的人類對手。例如,當一個人進入一個困難的彎道時,他們可能會比AI提前幾分之一秒剎車。即使是在錯誤的時刻的一個小碰撞,也會導致對手失去對汽車的控制。
遇到困難
最終,是時候讓“索菲”面對它的目標——人類了。2021年7月,索菲的研發開始一年多後,索菲與人類駕駛員之間舉行了第一場比賽。在單人訓練中,它已經表現出了超常的圈速——它就會超越它後面的人類。但當比賽越來越激烈時,人工智慧難以處理與其他車手頻繁互動的複雜性,總的來說,四人人類車隊以86比70擊敗了索菲車隊。
在第一場比賽之後,研究人員改進了訓練機制,增加了網路的規模,修改了特徵和獎勵。
幾個月後,又進行了一場比賽。這一次,結果大不相同——學習的成果得到了回報,索菲擊敗了對手,獲得了兩倍的分數(人類52分,人工智慧104分)。Polyphony團隊指出,AI在一場比賽中取得了驚人的成就:徹底擊敗對手。這與7月的比賽相比是一個巨大的進步。
當然,Sophy仍然面臨著挑戰。儘管Sophy展示了足夠的戰術技能,可以在面對面的比賽中擊敗人類專家,但仍有許多方面有待改進,尤其是在戰略決策方面。
這有什麼意義呢?
Polyphony謹慎地強調,Sophy並不是為了取代人類玩家,而是為了引導人類玩家,提升玩家與非玩家之間的競賽,目標最終還是娛樂大眾。
索尼互動娛樂設想,在未來,人工智慧可以向開發者和創造者展示更多創新,並開啟未被想象的機遇之門。使用者粘性也會提升,並帶來更好的遊戲體驗,吸引新一代玩家進入遊戲世界。例如一名人類車手曾談起觀看“索菲”的比賽是如何激勵她在賽道上嘗試她之前沒有考慮過的新策略的。
