中搜網(wǎng)絡(luò)總裁陳沛:從“人機(jī)大戰(zhàn)”看人工智能的崛起
中搜網(wǎng)絡(luò)董事長(zhǎng)、總裁陳沛,是著名人工智能專家、中國(guó)計(jì)算機(jī)協(xié)會(huì)常務(wù)理事、第三代搜索主設(shè)計(jì)師,也是北京圍棋業(yè)余冠軍。
各位朋友大家晚上好,我是陳沛。今晚為大家分享的主題是《機(jī)器會(huì)否統(tǒng)治人類?從人機(jī)大戰(zhàn)看人工智能的崛起》。
我們都知道,2017年的人機(jī)大戰(zhàn)已開幕,柯潔和AlphaGo比賽的第一局,我們也都已經(jīng)看到了結(jié)果,是AlphaGo1/4子贏了柯潔。其實(shí)1/4子在圍棋上是最小的一個(gè)輸贏單位,沒有更小的勝負(fù)差別,但比賽在我看來其實(shí)是一面倒的。實(shí)際上AlphaGo一直占據(jù)著優(yōu)勢(shì),雖然柯潔在官子階段步步緊逼,竭盡全力,但是最后還是輸?shù)袅吮荣悺?/p>
在這之前,媒體問我“柯潔勝算幾何?”,我很抱歉地預(yù)測(cè)說“柯潔三戰(zhàn)皆負(fù)”。今天這是第一盤,我們還有機(jī)會(huì)看第二盤和第三盤。但這個(gè)比賽本身是非常有意思的,在我看來它已經(jīng)超出了圍棋的范疇,它不是一個(gè)簡(jiǎn)單的圍棋比賽,而是人類和我們?nèi)祟愒斐鰜淼臋C(jī)器之間的競(jìng)爭(zhēng),只不過這個(gè)競(jìng)爭(zhēng)是在一個(gè)非常獨(dú)特的領(lǐng)域就是圍棋中展開的。
由我來分享這個(gè)主題,我個(gè)人覺得是挺合適的。因?yàn)槲冶救藦牧邭q開始學(xué)圍棋,拿過浙大的圍棋冠軍,也拿過總參謀部的冠軍,還拿過北京市業(yè)余圍棋的冠軍,所以我對(duì)圍棋有自己的一些理解,應(yīng)該說在業(yè)余里下的比較好的人了。另一方面我也做過很多人工智能的項(xiàng)目,包括專家系統(tǒng),特別是我自己還寫過一個(gè)五子棋博奕程序,把人的知識(shí)用計(jì)算機(jī)語言的方式去表達(dá)和使用,然后再和人類進(jìn)行比賽。所以AlphaGo和柯潔的大戰(zhàn)引起世界的關(guān)注,也引起了我的個(gè)人興趣,我覺得通過這件事情,我們可以更好的來看看人工智能的崛起。
復(fù)盤幾次“人機(jī)大戰(zhàn)”
人工智能是時(shí)下熱點(diǎn),也成為了刷屏的關(guān)健詞。其實(shí)機(jī)器和圍棋的比賽并不是第一次發(fā)生,在很早就有這種機(jī)器和人對(duì)戰(zhàn)的圍棋軟件,每年甚至有計(jì)算機(jī)的圍棋比賽,但是都沒有像現(xiàn)在這樣引起轟動(dòng)。我覺得最大的一個(gè)原因是人工智能的崛起帶來了圍棋軟件的大幅度提升,開始挑戰(zhàn)人類的頂尖高手。
1997年,IBM的深藍(lán)戰(zhàn)勝過人類的國(guó)際象棋冠軍卡斯帕羅夫,應(yīng)該說機(jī)器挑戰(zhàn)了人類的棋類游戲,并且戰(zhàn)勝了人類頂尖高手,但是那時(shí)候并沒有特別大地引起整個(gè)人類的轟動(dòng)和關(guān)注。當(dāng)時(shí)是IBM的一個(gè)小型機(jī)IS6000和人類的世界冠軍卡斯帕羅夫的對(duì)弈,這個(gè)比賽確實(shí)使用了機(jī)器,但是并沒有大量采用人工智能技術(shù),更多的采用了一些硬件加速,暴力計(jì)算的方式,戰(zhàn)勝了人類的冠軍。而象棋和國(guó)際象棋在變化量的數(shù)量級(jí)上比圍棋差了很多,以至于機(jī)器通過自己強(qiáng)力的運(yùn)算就有機(jī)會(huì)戰(zhàn)勝人類的世界冠軍。
這次不同,這次挑戰(zhàn)的是圍棋,圍棋變化的復(fù)雜量,有人形容說它是原子的個(gè)數(shù)總和,大概是120位以上的數(shù)字,變化極其復(fù)雜,復(fù)雜到我們?nèi)祟悘膩硪膊荒軌蛩闱宄?,未來也不可能算清楚。過分的復(fù)雜以至于機(jī)器也算不清楚,因此在圍棋中我們必須使用一些分析、判斷、決策等人類特定的智慧,而不是機(jī)器的運(yùn)算能力。
很多人開始說:“機(jī)器能算那么快,人當(dāng)然下不過他了。”其實(shí)機(jī)器雖然算得比較快,但并不是完全靠計(jì)算來戰(zhàn)勝人類的。它有自己的神經(jīng)網(wǎng)絡(luò),有自己的深度學(xué)習(xí),它把人類當(dāng)成老師,然后不斷的學(xué)習(xí)和提高,包括左右互搏。這個(gè)過程中機(jī)器積累了人類對(duì)圍棋大量的知識(shí),這時(shí)候它才能真正戰(zhàn)勝人類。所以這次AlphaGo戰(zhàn)勝人類具有里程碑式的意義,它可能在人類所有的智力游戲上占到了一個(gè)制高點(diǎn)上,以至于下完這次比賽以后,可能人類已經(jīng)沒有機(jī)會(huì)再去挑戰(zhàn)機(jī)器,按柯潔的話說:“這是我和機(jī)器下的最后三盤棋”。
當(dāng)年IBM的IS6000,就是“更深的藍(lán)”,戰(zhàn)勝了卡斯帕羅夫的第二天就宣布退役了。換句話說,“如果我現(xiàn)在能贏了你,你以后再也沒有機(jī)會(huì)贏我了,再跟你下沒有意義,所以不跟你們玩了。”這次為什么跟柯潔還有機(jī)會(huì)做一次這樣的人機(jī)大戰(zhàn)呢?是因?yàn)槿ツ?月份的時(shí)候,AlphaGo和李世石進(jìn)行了第一次“人機(jī)大戰(zhàn)”,那場(chǎng)比賽機(jī)器4:1戰(zhàn)勝了人類,而李世石在第四盤的時(shí)候下出了所謂“神之一手”,打亂了整個(gè)機(jī)器的系統(tǒng),后面的邏輯產(chǎn)生了紊亂,我本人是現(xiàn)場(chǎng)參與解說的,我發(fā)現(xiàn)機(jī)器在這個(gè)過程中犯了一些非常規(guī)的錯(cuò)誤,應(yīng)該不是知識(shí)也不是能力。
從棋的內(nèi)容上來說,去年的比賽機(jī)器確實(shí)比人類頂尖高手像李世石這樣的人下得更好,但是好的依然非常有限。我們?nèi)祟惪赡懿惶猓?ldquo;你雖然贏了我,我也沒有覺得你有多厲害”。特別比賽剛開始的時(shí)候,人類一邊倒的認(rèn)為機(jī)器下棋下不過人類,包括我本人也誤判了,但是事實(shí)上機(jī)器在上次的比賽中已經(jīng)戰(zhàn)勝了人類的代表李世石。
李世石榮獲了人類的14個(gè)世界冠軍,應(yīng)該統(tǒng)治了人類棋手十年的歷史,代表人類也是當(dāng)之無愧的,但是客觀來說他已經(jīng)過了自己的巔峰期,不是最佳的競(jìng)技狀態(tài),所以不一定能夠代表人類現(xiàn)在最高的圍棋水平。而柯潔是現(xiàn)在的世界第一,所以安排現(xiàn)在人類的世界第一和AlphaGo再進(jìn)行一次比賽,依然具有挑戰(zhàn)的意義,只不過這次挑戰(zhàn)看起來不像是機(jī)器挑戰(zhàn)人類,更像是人類挑戰(zhàn)機(jī)器。
除圍棋領(lǐng)域,前不久也有“冷撲大師”和人類進(jìn)行了德州撲克比賽,后來也戰(zhàn)勝了人類。其實(shí)更早一些的時(shí)候,實(shí)際上IBM的深藍(lán)戰(zhàn)勝卡斯帕羅夫以后,沒有繼續(xù)在圍棋上去研究,而是去參加了人類的一些知識(shí)競(jìng)賽的比賽,那個(gè)系統(tǒng)叫沃森,后來也戰(zhàn)勝了人類知識(shí)問答的冠軍,所以機(jī)器是在不同的場(chǎng)合,以不同的方式挑戰(zhàn)人類的智慧。
AlphaGo是怎樣與人類比賽的?
有很多人來問我AlphaGo到底是怎么下棋的。AlphaGo應(yīng)用了哪些技術(shù)呢?
云計(jì)算
跟大家想的一樣,它確實(shí)要鎖定在計(jì)算,這次的AlphaGo我不知道情況是什么,但上一次跟李世石的比賽,AlphaGo動(dòng)用了2000臺(tái)的服務(wù)器,同時(shí)進(jìn)行運(yùn)算,應(yīng)該說它使用的云計(jì)算技術(shù),集中了相當(dāng)一部分通過網(wǎng)絡(luò)連接起來的計(jì)算資源。比較而言的話,如果只用一臺(tái)服務(wù)器做運(yùn)算需要一秒鐘的話,2000臺(tái)的話就可以大大降低它每次判斷的時(shí)間,甚至使整個(gè)比賽得以進(jìn)行,所以利用云計(jì)算谷歌應(yīng)該可以動(dòng)用大量的服務(wù)器,不光2000臺(tái),需要兩萬臺(tái)的時(shí)候也可以,所以現(xiàn)在應(yīng)該是用兩千臺(tái)服務(wù)器同時(shí)進(jìn)行運(yùn)算參與這樣的頂級(jí)比賽。
大數(shù)據(jù)
應(yīng)該說AlphaGo的上一個(gè)版本是1.0版本,它大量錄入了人類頂尖棋手的圍棋棋譜,可以說它繼承和學(xué)習(xí)了人類圍棋史上可以學(xué)習(xí)的圍棋知識(shí),然后通過深度學(xué)習(xí)的方式,變成它能夠理解的知識(shí),然后應(yīng)用到它自己的實(shí)戰(zhàn)當(dāng)中,所以很顯然這也是一個(gè)大數(shù)據(jù)的成果。
當(dāng)然很多人可能不一定都會(huì)下圍棋,很多人也不是都是懂得人工智能的。所以AlphaGo實(shí)際上是有一套非常好的人工智能技術(shù)來適應(yīng)圍棋的比賽,簡(jiǎn)單說有兩個(gè)網(wǎng)絡(luò)——一個(gè)是價(jià)值評(píng)判的網(wǎng)絡(luò),一個(gè)是搜索的網(wǎng)絡(luò),然后找到每次決策它認(rèn)為最好的一個(gè)點(diǎn),這個(gè)點(diǎn)是以勝利最高的點(diǎn)作為決策的依據(jù)。
我們可以這樣簡(jiǎn)單理解AlphaGo怎么去跟人下棋的。當(dāng)柯潔下了一步棋的時(shí)候,它會(huì)在所有可能的選點(diǎn)中作出一個(gè)基礎(chǔ)的判斷,判斷哪些棋可能是應(yīng)該思考的,但是什么樣的棋應(yīng)該思考的呢?它可能需要搜索的方法去驗(yàn)證,比如說,如果這個(gè)點(diǎn)是人類棋手經(jīng)常使用的,或者是這次可能采用它自己學(xué)習(xí)系統(tǒng)來產(chǎn)生的一個(gè)重要的推薦點(diǎn),根據(jù)這個(gè)推薦點(diǎn)會(huì)引發(fā)一系列的演變,而這些演變通過門特卡羅的搜索數(shù)不斷的去驗(yàn)證,雙方相當(dāng)于是左右互博的方式,雙方都按照對(duì)方最好的應(yīng)對(duì),去演變下面的一些變化。當(dāng)這些變化演變到一定的步數(shù)之后,比如說20步、25步這樣的步數(shù)的時(shí)候,它要對(duì)結(jié)果進(jìn)行評(píng)判,然后把結(jié)果反饋。
據(jù)說AlphaGo1.0版本的時(shí)候,它的學(xué)習(xí)過程是把人類的大量棋譜作為主要的依據(jù)。就是人類在這樣的情況下,選擇什么樣的點(diǎn)進(jìn)行思考和判斷,進(jìn)行去搜索和推演。這次AlphaGo2.0它實(shí)際上不再使用人類已有的棋譜,而是通過兩臺(tái)AlphaGo互相博奕互相學(xué)習(xí)的方式來產(chǎn)生知識(shí)推薦點(diǎn),我覺得這個(gè)過程是很容易理解的。因?yàn)樵缙贏lphaGo完全不具有人類的知識(shí),所以他需要大量的棋譜。那么等它經(jīng)過1.0的比賽以后,它本身已經(jīng)成為人類的頂尖高手了,所以兩臺(tái)AlphaGo自己的相互博奕就可以作為推薦的依據(jù)了,所以很可能這次采用的是它用自己方式來生產(chǎn)的圍棋知識(shí)。