sponsored links

DeepMind打造AI遊戲王!挑戰各種最強棋牌AI,戰鬥力驚人

DeepMind打造AI遊戲王!挑戰各種最強棋牌AI,戰鬥力驚人


智東西(公眾號:zhidxcom)

編譯 | ZeR0

編輯 | 漠影

智東西12月9日訊息,谷歌母公司Alphabet旗下頂尖AI實驗室DeepMind曾因其AI系統AlphaGo擊敗頂尖人類圍棋選手、AlphaStar贏得星際爭霸2而爆紅全球。本週,它又披露新的遊戲AI系統。

與此前開發的遊戲系統不同,DeepMind的AI新作Player of Games是第一個在完全資訊遊戲以及不完全資訊遊戲中都能實現強大效能的AI演算法。完全資訊遊戲如中國圍棋、象棋等棋盤遊戲,不完全資訊遊戲如撲克等。

這是向能夠在任意環境中學習的真正通用AI演算法邁出的重要一步。

Player of Game在象棋、圍棋這兩種完全資訊遊戲和德州撲克、蘇格蘭場這兩種不完全資訊遊戲中與頂尖AI智慧體對戰。

從實驗結果來看,DeepMind稱Player of Games在完全資訊遊戲中的表現已經達到了“人類頂級業餘選手”水平,但如果給予相同資源,該演算法的表現可能會明顯弱於AlphaZero等專用遊戲演算法。

在兩類不完全資訊遊戲中,Player of Games均擊敗了最先進的AI智慧體。

DeepMind打造AI遊戲王!挑戰各種最強棋牌AI,戰鬥力驚人


論文連結:https://arxiv.org/pdf/2112.03178.pdf

一、深藍、AlphaGo等AI系統僅擅長玩一種遊戲

計算機程式挑戰人類遊戲選手由來已久。

20世紀50年代,IBM科學家亞瑟·塞繆爾(Arthur L. Samuel)開發了一個跳棋程式,透過自對弈來持續改進其功能,這項研究給很多人帶來啟發,並普及了“機器學習”這個術語。

此後遊戲AI系統一路發展。1992年,IBM開發的TD-Gammon透過自對弈在西洋雙陸棋中實現大師級水平;1997年,IBM深藍DeepBlue在國際象棋競賽中戰勝當時的世界棋王卡斯帕羅夫;2016年,DeepMind研發的AI系統AlphaGo在圍棋比賽中擊敗世界圍棋冠軍李世石……

DeepMind打造AI遊戲王!挑戰各種最強棋牌AI,戰鬥力驚人


IBM深藍系統vs世界棋王卡斯帕羅夫

這些AI系統有一個共同之處,都是專注於一款遊戲。比如塞繆爾的程式、AlphaGo不會下國際象棋,IBM的深藍也不會下圍棋。

隨後,AlphaGo的繼任者AlphaZero做到了舉一反三。它證明了透過簡化AlphaGo的方法,用最少的人類知識,一個單一的演算法可以掌握三種不同的完全資訊遊戲。不過AlphaZero還是不會玩撲克,也不清楚能否玩好不完全資訊遊戲。

實現超級撲克AI的方法有很大的不同,撲克遊戲依賴於博弈論的推理,來保證個人資訊的有效隱藏。其他許多大型遊戲AI的訓練都受到了博弈論推理和搜尋的啟發,包括Hanabi紙牌遊戲AI、The Resistance棋盤遊戲AI、Bridge橋牌遊戲AI、AlphaStar星際爭霸II遊戲AI等。

DeepMind打造AI遊戲王!挑戰各種最強棋牌AI,戰鬥力驚人


2019年1月,AlphaStar對戰星際爭霸II職業選手

這裡的每個進展仍然是基於一款遊戲,並使用了一些特定領域的知識和結構來實現強大的效能。

DeepMind研發的AlphaZero等系統擅長國際象棋等完全資訊遊戲,而加拿大阿爾伯特大學研發的DeepStack、卡耐基梅隆大學研發的Libratus等演算法在撲克等不完全資訊遊戲中表現出色。

對此,DeepMind研發了一種新的演算法Player of Games(PoG),它使用了較少的領域知識,透過用自對弈(self-play)、搜尋和博弈論推理來實現強大的效能。

二、更通用的演算法PoG:棋盤、撲克遊戲都擅長

無論是解決交通擁堵問題的道路規劃,還是合同談判、與顧客溝通等互動任務,都要考慮和平衡人們的偏好,這與遊戲策略非常相似。AI系統可能透過協調、合作和群體或組織之間的互動而獲益。像Player of Games這樣的系統,能推斷其他人的目標和動機,使其與他人成功合作。

要玩好完全的資訊遊戲,需要相當多的預見性和計劃。玩家必須處理他們在棋盤上看到的東西,並決定他們的對手可能會做什麼,同時努力實現最終的勝利目標。不完全資訊遊戲則要求玩家考慮隱藏的資訊,並思考下一步應該如何行動才能獲勝,包括可能的虛張聲勢或組隊對抗對手。

DeepMind稱,Player of Games是首個“通用且健全的搜尋演算法”,在完全和不完全的資訊遊戲中都實現了強大的效能。

Player of Games(PoG)主要由兩部分組成:1)一種新的生長樹反事實遺憾最小化(GT-CFR);2)一種透過遊戲結果和遞迴子搜尋來訓練價值-策略網路的合理自對弈。

DeepMind打造AI遊戲王!挑戰各種最強棋牌AI,戰鬥力驚人


Player of Games訓練過程:Actor透過自對弈收集資料,Trainer在分散式網路上單獨執行

在完全資訊遊戲中,AlphaZero比Player of Games更強大,但在不完全的資訊遊戲中,AlphaZero就沒那麼遊刃有餘了。

Player of Games有很強通用性,不過不是什麼遊戲都能玩。參與研究的DeepMind高階研究科學家馬丁·施密德(Martin Schmid)說,AI系統需考慮每個玩家在遊戲情境中的所有可能視角。

雖然在完全資訊遊戲中只有一個視角,但在不完全資訊遊戲中可能有許多這樣的視角,比如在撲克遊戲中,視角大約有2000個。

此外,與DeepMind繼AlphaZero之後研發的更高階MuZero演算法不同,Player of Games也需要了解遊戲規則,而MuZero無需被告知規則即可飛速掌握完全資訊遊戲的規則。

在其研究中,DeepMind評估了Player of Games使用谷歌TPUv4加速晶片組進行訓練,在國際象棋、圍棋、德州撲克和策略推理桌遊《蘇格蘭場》(Scotland Yard)上的表現。

DeepMind打造AI遊戲王!挑戰各種最強棋牌AI,戰鬥力驚人


蘇格蘭場的抽象圖,Player of Games能夠持續獲勝

在圍棋比賽中,AlphaZero和Player of Games進行了200場比賽,各執黑棋100次、白棋100次。在國際象棋比賽中,DeepMind讓Player of Games和GnuGo、Pachi、Stockfish以及AlphaZero等頂級系統進行了對決。

DeepMind打造AI遊戲王!挑戰各種最強棋牌AI,戰鬥力驚人


不同智慧體的相對Elo表,每個智慧體與其他智慧體進行200場比賽

在國際象棋和圍棋中,Player of Games被證明在部分配置中比Stockfish和Pachi更強,它在與最強的AlphaZero的比賽中贏得了0.5%的勝利。

儘管在與AlphaZero的比賽中慘敗,但DeepMind相信Player of Games的表現已經達到了“人類頂級業餘選手”的水平,甚至可能達到了專業水平。

DeepMind打造AI遊戲王!挑戰各種最強棋牌AI,戰鬥力驚人


Player of Games在德州撲克比賽中與公開可用的Slumbot對戰。該演算法還與Joseph Antonius Maria Nijssen開發的PimBot進行了蘇格蘭場的比賽。

DeepMind打造AI遊戲王!挑戰各種最強棋牌AI,戰鬥力驚人


不同智慧體在德州撲克、蘇格蘭場遊戲中的比賽結果

結果顯示,Player of Games是一個更好的德州撲克和蘇格蘭場玩家。與Slumbot對戰時,該演算法平均每hand贏得700萬個大盲注(mbb/hand),mbb/hand是每1000 hand贏得大盲注的平均數量。

同時在蘇格蘭場,DeepMind稱,儘管PimBot有更多機會搜尋獲勝的招數,但Player of Games還是“顯著”擊敗了它。

三、研究關鍵挑戰:訓練成本太高

施密德相信Player of Games是向真正通用的遊戲系統邁出的一大步。

實驗的總體趨勢是,隨著計算資源增加,Player of Games演算法以保證產生更好的最小化-最優策略的逼近,施密德預計這種方法在可預見的未來將擴大規模。

“人們會認為,受益於AlphaZero的應用程式可能也會受益於遊戲玩家。”他談道,“讓這些演算法更加通用是一項令人興奮的研究。”

當然,傾向於大量計算的方法會讓擁有較少資源的初創公司、學術機構等組織處於劣勢。在語言領域尤其如此,像OpenAI的GPT-3這樣的大型模型已取得領先效能,但其通常需要數百萬美元的資源需求,這遠超大多數研究小組的預算。

即便是在DeepMind這樣財力雄厚的公司,成本有時也會超過人們所能接受的水平。

對於AlphaStar,公司的研究人員有意沒有嘗試多種構建關鍵元件的方法,因為高管們認為訓練成本太高。根據DeepMind披露的業績檔案,它在去年才首次盈利,年收入達到8.26億英鎊(摺合約69億人民幣),獲得4380萬英鎊(摺合約3.67億人民幣)的利潤。從2016年~2019年,DeepMind共計虧損13.55億英鎊(摺合約113億人民幣)。

DeepMind打造AI遊戲王!挑戰各種最強棋牌AI,戰鬥力驚人


據估計,AlphaZero的訓練成本高達數千萬美元。DeepMind沒有透露Player of Games的研究預算,但考慮到每個遊戲的訓練步驟從數十萬到數百萬不等,這個預算不太可能低。

結語:遊戲AI正助力突破認知及推理挑戰

目前遊戲AI還缺乏明顯的商業應用,而DeepMind的一貫理念是借其去探索突破認知和推理能力所面臨的獨特挑戰。近幾十年來,遊戲催生了自主學習的AI,這為計算機視覺、自動駕駛汽車和自然語言處理提供了動力。

隨著研究從遊戲轉向其他更商業化的領域,如應用推薦、資料中心冷卻最佳化、天氣預報、材料建模、數學、醫療保健和原子能計算等等,遊戲AI研究對搜尋、學習和博弈推理的價值愈發凸顯。

“一個有趣的問題是,這種水平的遊戲是否可以用較少的計算資源實現。”這個在Player of Games論文最後中被提及的問題,還沒有明確的答案。

來源:VentureBeat,arVix

DeepMind打造AI遊戲王!挑戰各種最強棋牌AI,戰鬥力驚人

分類: 健康
時間: 2021-12-09

相關文章

易長肉主食“清單”,米飯不在列,這四種食物才應該少吃

易長肉主食“清單”,米飯不在列,這四種食物才應該少吃
每個女性都十分愛美,她們愛美的同時也希望自己能夠擁有讓人羨慕的好身材,但是隨著年齡的不斷增長,我們人體的新陳代謝率會逐漸下降,如果再像以前那樣吃,很容易就會長胖.所以女性在飲食方面一定要多注意,少吃會 ...

經常胃酸的人,除了服用抗酸藥物以外,9種食物或可適當吃一些

經常胃酸的人,除了服用抗酸藥物以外,9種食物或可適當吃一些
導語:在日常生活中,胃酸會給患者造成燒心.反酸等問題,情況嚴重的話,還會發生胃潰瘍問題,所以如果出現胃酸問題,請及時治療,不僅要吃抗酸藥物,還要注意飲食,可以吃很多有助於緩解胃酸的食物,那麼經常胃酸的 ...

骨質疏鬆的人不能吃豆腐?提醒:這3種食物,儘量少吃

骨質疏鬆的人不能吃豆腐?提醒:這3種食物,儘量少吃
導語:一直以來骨質疏鬆都是困擾著中老年人身體健康的一個非常重大的因素,有一些人認為骨質疏鬆不過就是骨骼質量不好而已,肯定不會給身體健康造成太大的影響. 如果你出現了這樣的想法,那就是大錯特錯了,一旦患 ...

想要保養頭髮不那麼“禿”然,這四種食物一定要少吃

想要保養頭髮不那麼“禿”然,這四種食物一定要少吃
頭髮越來越少 髮際線越來越高 一眼看過去就顯老 記住 平時這四種食物 一定要少吃 不然會加重你的禿 首先就是甜食 容易導致體內炎症 引起脫髮 還有就是高油高脂的食物 會造成身體 免疫平衡紊亂 也會影響 ...

想養胃的人注意了,這4種食物,建議少吃,醫生的話儘量放在心上

想養胃的人注意了,這4種食物,建議少吃,醫生的話儘量放在心上
生活中可能大多數人都聽說過這樣一個詞,那就是"發物",發物實際上是對我們身體有炎症的人不適合食用的一些食物,而發物只是一些食物的統稱. 收到發物可能在我們生活當中比較常見,比如香腸 ...

吃早餐時不僅要少喝大米粥,醫生:下面3種食物也儘量少吃

吃早餐時不僅要少喝大米粥,醫生:下面3種食物也儘量少吃
導語:一說到早餐不得不說到早起這件事,現在的工作,早上上班時間大約都在上午8點半到9點開始,這讓很多年輕人養成睡懶覺的習慣,因此吃早餐的時間大大縮短. 而且生活中很多人養成不吃早餐或者隨意應付的習慣. ...

吃早餐時不僅要少喝大米粥,醫生建議:這3種食物也要少吃

吃早餐時不僅要少喝大米粥,醫生建議:這3種食物也要少吃
導語:人需要透過飲食為人體補充營養,一天三頓飯缺一不可,早餐是補充營養的最佳時期,吃早餐時儘量選擇有利於人體吸收的營養食物,才有助於身體健康. 早餐是人體一天中補充營養的重要時刻,因為人體在經過晚上的 ...

想讓孩子長得高,除了喝牛奶,這幾種食物也要多吃

想讓孩子長得高,除了喝牛奶,這幾種食物也要多吃
帶女兒去鄰居家裡玩,客廳裡,廚房裡和遊戲室隨處可見牛奶的影子,我對孩子把牛奶當水喝的質疑講鄰居聽說,鄰居很專業地告訴我,咱們國內的牛奶是要多喝的,一天三盒五盒都沒問題,孩子要想長得高,牛奶是最好的補鈣 ...

飯菜沒吃完,第二天熱一熱再吃?注意了,有4種食物不適合隔夜吃

飯菜沒吃完,第二天熱一熱再吃?注意了,有4種食物不適合隔夜吃
面對家裡的剩菜,老一輩人大多覺得熱一熱再吃,不浪費.但年輕人卻覺得隔夜的菜不新鮮,選擇直接丟掉.為此,可能不少家庭都曾對"隔夜飯菜能不能吃"進行了激烈的討論.為了解答人們心裡的疑惑 ...

不能二次加熱的6種食物,提前瞭解一下,下次可別再吃錯了

不能二次加熱的6種食物,提前瞭解一下,下次可別再吃錯了
隨著冰箱的發明,人們的生活也變得越來越便利,不少人都會將吃不完的食物暫時儲存在冰箱中,等到想吃的時候拿出來加熱一下即可食用,特別是逢年過節家裡來親戚朋友時,大魚大肉是必不可少的,吃不完的食物直接丟掉, ...

秋季記得多給孩子吃這5種食物,不管有錢沒錢,家中都要常備一些

秋季記得多給孩子吃這5種食物,不管有錢沒錢,家中都要常備一些
本期導讀:秋天給孩子吃什麼好,這5種食物不可缺少,常吃孩子身體棒少生病! 秋季氣候乾燥,晝夜溫差很大,我們的身體在這段時期更需要特別保護,以防止疾病的發生.而孩子在這個季節抵抗力更容易下降,所以在飲食 ...

秋分過後,5種食物要多吃,營養滋補防秋燥,全家安穩過深秋

秋分過後,5種食物要多吃,營養滋補防秋燥,全家安穩過深秋
秋分過後,5種食物要多吃,營養滋補防秋燥,全家安穩過深秋 秋分的到來,也代表著秋天過完一半了,後面也就正式進入深秋,更寒冷的季節馬上來臨啦.秋分之後,就很少能遇到比較熱的高溫天氣了,大家在這段時間一定 ...

不能二次加熱的4種食物,提前瞭解一下,下次別吃錯

不能二次加熱的4種食物,提前瞭解一下,下次別吃錯
勤儉節約是中華民族的優良傳統,在平時我們工作都比較忙碌,只有到了晚上才是空閒時間比較多的一個時間段,所以很多人到了晚上就喜歡做美食,然而晚上又要吃少,所以一大桌子的菜沒吃幾口,剩下一大半. 如果將這些 ...

不能二次加熱的4種食物,提前瞭解一下,下次儘量別吃錯了

不能二次加熱的4種食物,提前瞭解一下,下次儘量別吃錯了
勤儉節約是中華民族的優良傳統,平時我們的工作都比較忙碌,只有到了晚上才是空閒比較多的一個時間段,所以很多人到了晚上就喜歡做各種美食,然而晚上吃的又少,導致一大桌子飯菜沒吃幾口,剩下一大半. 如果將這些 ...

不能二次加熱的5種食物,提前瞭解一下,下次可別再吃錯了

不能二次加熱的5種食物,提前瞭解一下,下次可別再吃錯了
導語:"由於現在生活條件的逐漸變好.許多人都特別喜歡大魚大肉的食物,吃飯的時候剩菜剩飯是經常的.所以現在大幅度的提倡勤儉節約.這也是我們中華民族一直的傳統美德." 許多食物都是可以 ...

所有“隔夜食物”都不能吃嗎?這3種食物,第二天味道可能更好

所有“隔夜食物”都不能吃嗎?這3種食物,第二天味道可能更好
導語:針對隔夜菜大夥兒都有一定的瞭解,大部分人覺得過夜的飯食不是可以吃的,由於隔夜飯菜就會造成化合物而對自己的身體健康會形成一定的危害,與此同時也會提高癌症的機率,實際上隔夜菜並不一定說成隔了一夜的菜 ...

年齡越大,越要忌口?提示:50歲後,這些食物,儘量少吃或不吃

年齡越大,越要忌口?提示:50歲後,這些食物,儘量少吃或不吃
導語:人到中旬,身體衰老速度會隨之加快,同時消化功能下降,所以我們要做到管住嘴,邁開腿,透過合理的飲食正確運動,來避免身體受到傷害. 有一些中老年人的疾病和不良的飲食習慣有關,所以平時一定要遠離不利於 ...

四種食物發芽後營養或會倍增,有你愛吃的嗎?

四種食物發芽後營養或會倍增,有你愛吃的嗎?
如今的人們都十分看重自己的身體,於是會透過各種各樣的方式來讓自己的身體變得更好,更是會買各種各樣的保健品,人如果到了一定的歲數,心理上會對自己的身體格外的重視,畢竟誰都不想衰老,衰老對於每個人來說很可 ...

蝦皮和骨頭湯為啥不補鈣?真正補鈣的五種食物,很多人不愛吃

蝦皮和骨頭湯為啥不補鈣?真正補鈣的五種食物,很多人不愛吃
若問在日常飲食中有什麼話題是貫穿了幼年至老年時期的,那恐怕就要數"補鈣"了,不管你處於什麼年齡,身體都需要足夠的鈣質,才能保證骨骼.牙齒.肌肉.頭髮等組織健康生長,很多人意識到這一 ...

別再“黑”泡麵了,真正要少吃的是這5種食物,儘早知道為好

別再“黑”泡麵了,真正要少吃的是這5種食物,儘早知道為好
隨著人們生活質量的不斷提高,可供人們選擇的食物也更加多樣化.不過,在面對美食的誘惑時,很多人都無法把持住自己的想法,從而養成了不良的飲食習慣,對一些垃圾食品也比較喜歡.垃圾食品是很多人經常會提起的,但 ...