www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當(dāng)前位置:首頁 > 工業(yè)控制 > 工業(yè)控制
[導(dǎo)讀]過去二十年來,有許多人工智能被設(shè)計出來玩各種類型的撲克牌游戲,但所有這些人工智能都只能玩一對一的游戲,如 Libratus 就是二人德州撲克的高手。由此多人撲克游戲,毫無懸念地成為了下一個里程碑式的目標(biāo)。

 最近,美國卡內(nèi)基梅隆大學(xué) Noam Brown 和 Tuomas Sandholm 設(shè)計出了新的智能系統(tǒng) Pluribus,它能在六人無限注德州撲克中擊敗人類專業(yè)選手,相關(guān)研究發(fā)表在7月12日的Science 雜志上。

目前,很多超越人類的人工智能都是關(guān)于兩人零和游戲,如圍棋,游戲中只能有一方可以獲勝,用博弈論的術(shù)語來講,這些人工智能所做的都是在找到一個接近納什均衡的策略。所謂納什均衡策略就是指一系列能夠使自己預(yù)期收益最大化的策略,無論對手做什么行動,至少自己不會輸,另一個博弈者也會采取同樣的策略。

納什均衡由諾獎得主約翰·納什1951年提出

納什均衡已經(jīng)被證明存在于所有有限次博弈中以及大部分無限次博弈中。只不過,納什均衡策略并不是隨隨便便就能找到。第一,納什均衡策略可通過不斷觀察和利用對手的弱點來獲得,就好比見到一直出剪刀的對手,人工智能就一直出石頭。但對手也可根據(jù)你的策略來做調(diào)整,而且這種方法需要很多訓(xùn)練樣本;第二,目前還沒有足夠快的算法可以找到納什平衡;第三,在多人游戲中,就算每個玩家都獨自找到了納什均衡策略,這個總的策略集合也不一定是納什均衡策略。

 

上圖為四人檸檬水果攤游戲。玩家需要在圓環(huán)中找到一個位置,使自己與其他所有人的距離總和最遠(yuǎn)(左)。納什均衡策略是每個人都均勻分布在圓環(huán)上。但如果每個人都有自己的納什均衡策略,那么最終可能不會有納什均衡出現(xiàn)(右)。而如果是兩人游戲就不會有這樣的問題。

但 Pluribus 系統(tǒng)并不打算找到這個博弈論意義上的最優(yōu)策略,而是采用一種能夠經(jīng)常打敗人類選手的策略。首先,Pluribus 通過自我博弈計算出自己的策略。換句話說,Pluribus 不斷跟自己的分身玩德州撲克,期間沒有任何人類或其他人工智能的參與。最初,Pluribus 作為新手,行動完全隨機,但它會不斷改進自己的策略,逐漸提高自己的水平。自我訓(xùn)練得出的策略被稱為“藍(lán)圖”。然后,Pluribus 就和真實玩家對戰(zhàn),積累實戰(zhàn)經(jīng)驗,期間不斷改進自己的策略。

這其中涉及到哪些技術(shù)細(xì)節(jié)呢?在德州撲克中,由于每一回合可以采取的行動實在太多,為了減少問題的復(fù)雜度,研究者采用了行動抽象(Action abstraction)和信息抽象(Information abstraction)的簡化技術(shù)。所謂成敗在于細(xì)節(jié),Pluribus 因此只會將信息抽象用于對未來幾個回合的預(yù)想中,而不會用在當(dāng)前回合的決策上。

為了計算出“藍(lán)圖”策略,Pluribus 采用了蒙特卡洛虛擬遺憾最小化算法(MCCFR)。MCCFR 會隨機考慮一部分行動,而不是所有可選行動,來選擇應(yīng)該采取的決定。在MCCFR的每一次迭代中,人工智能會根據(jù)在場玩家的策略模擬一盤游戲,然后找出自己在模擬游戲中的最優(yōu)策略。每一回合,人工智能都會被加入一個虛擬遺憾值,使它會后悔上次沒有用其他更好的策略,那么下一輪人工智能就會有傾向選擇上次后悔沒選的策略。就這樣,Pluribus每局都在學(xué)習(xí)如何擊敗以前的自己,從而不斷提高自己的水平。

“藍(lán)圖”策略只是一個粗略的策略?;?ldquo;藍(lán)圖”,Pluribus 在跟真正對手博弈的時候,用實時搜索(real-time search)技術(shù)尋找更好的策略。不同于圍棋等完全信息博弈(perfect-information games),六人德州撲克是不完全信息博弈(imperfect-information games)。人工智能對其他玩家的特征、策略和對應(yīng)收益都沒有完整的了解。所以,研究者獨創(chuàng)了一種新的方法,他們假設(shè)每個玩家會有自己的4種策略,包括“藍(lán)圖”策略和它的三個變種,并且會在游戲中選擇其中一種。由于對手會變換策略,Pluribus 就會計算出比較平衡的策略,而不會偏向于只采取某些決定。另外,為了防止被對手看穿自己的策略,Pluribus 會先計算如果手上的牌跟現(xiàn)在不一樣時,會采取什么行動。Pluribus 得出一個可以平衡各種情況的策略后才開始該回合的行動。

訓(xùn)練完成后,就到測試階段了。實際運行中,Pluribus 平均每回合只需要20秒思考時間,足足比專業(yè)選手快一倍。如此快的速度,那實力如何呢?研究者設(shè)計了兩個比賽,分別是5H+1AI(H代表人類),以及1H+5AI,并且邀請世界各地的高手參加。結(jié)果發(fā)現(xiàn),在5H+1AI中,Pluribus 平均每局能贏 48mbb(milli big blinds),在六人德州撲克中是極好的成績;在1H+5AI中,Pluribus 以平均每局32mbb 的成績擊敗人類。

Pluribus 擊敗人類,說明人類的經(jīng)驗性策略并不是最優(yōu),或許人類可以從中學(xué)習(xí)到新的技巧。另外,從人工智能的研究來講,Pluribus 的成功表明即使理論上沒法保證人工智能在多人游戲上的表現(xiàn),我們也可以通過精巧的算法設(shè)計來訓(xùn)練出超越人類的人工智能。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: 驅(qū)動電源

在工業(yè)自動化蓬勃發(fā)展的當(dāng)下,工業(yè)電機作為核心動力設(shè)備,其驅(qū)動電源的性能直接關(guān)系到整個系統(tǒng)的穩(wěn)定性和可靠性。其中,反電動勢抑制與過流保護是驅(qū)動電源設(shè)計中至關(guān)重要的兩個環(huán)節(jié),集成化方案的設(shè)計成為提升電機驅(qū)動性能的關(guān)鍵。

關(guān)鍵字: 工業(yè)電機 驅(qū)動電源

LED 驅(qū)動電源作為 LED 照明系統(tǒng)的 “心臟”,其穩(wěn)定性直接決定了整個照明設(shè)備的使用壽命。然而,在實際應(yīng)用中,LED 驅(qū)動電源易損壞的問題卻十分常見,不僅增加了維護成本,還影響了用戶體驗。要解決這一問題,需從設(shè)計、生...

關(guān)鍵字: 驅(qū)動電源 照明系統(tǒng) 散熱

根據(jù)LED驅(qū)動電源的公式,電感內(nèi)電流波動大小和電感值成反比,輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字: LED 設(shè)計 驅(qū)動電源

電動汽車(EV)作為新能源汽車的重要代表,正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動汽車的核心技術(shù)之一是電機驅(qū)動控制系統(tǒng),而絕緣柵雙極型晶體管(IGBT)作為電機驅(qū)動系統(tǒng)中的關(guān)鍵元件,其性能直接影響到電動汽車的動力性能和...

關(guān)鍵字: 電動汽車 新能源 驅(qū)動電源

在現(xiàn)代城市建設(shè)中,街道及停車場照明作為基礎(chǔ)設(shè)施的重要組成部分,其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進步,高亮度白光發(fā)光二極管(LED)因其獨特的優(yōu)勢逐漸取代傳統(tǒng)光源,成為大功率區(qū)域...

關(guān)鍵字: 發(fā)光二極管 驅(qū)動電源 LED

LED通用照明設(shè)計工程師會遇到許多挑戰(zhàn),如功率密度、功率因數(shù)校正(PFC)、空間受限和可靠性等。

關(guān)鍵字: LED 驅(qū)動電源 功率因數(shù)校正

在LED照明技術(shù)日益普及的今天,LED驅(qū)動電源的電磁干擾(EMI)問題成為了一個不可忽視的挑戰(zhàn)。電磁干擾不僅會影響LED燈具的正常工作,還可能對周圍電子設(shè)備造成不利影響,甚至引發(fā)系統(tǒng)故障。因此,采取有效的硬件措施來解決L...

關(guān)鍵字: LED照明技術(shù) 電磁干擾 驅(qū)動電源

開關(guān)電源具有效率高的特性,而且開關(guān)電源的變壓器體積比串聯(lián)穩(wěn)壓型電源的要小得多,電源電路比較整潔,整機重量也有所下降,所以,現(xiàn)在的LED驅(qū)動電源

關(guān)鍵字: LED 驅(qū)動電源 開關(guān)電源

LED驅(qū)動電源是把電源供應(yīng)轉(zhuǎn)換為特定的電壓電流以驅(qū)動LED發(fā)光的電壓轉(zhuǎn)換器,通常情況下:LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: LED 隧道燈 驅(qū)動電源
關(guān)閉