谷歌施密特:機器學(xué)習(xí)系統(tǒng)將改變?nèi)斯ぶ悄茴I(lǐng)域
在用Android(安卓)開源系統(tǒng)改變移動世界后,Google希望用開源機器學(xué)習(xí)系統(tǒng)TensorFlow改變人工智能領(lǐng)域。“機器學(xué)習(xí)對我而言,是 為了讓人類能夠不用像機器那樣去做事。”11月10日,在Google公布開源第二代機器學(xué)習(xí)系統(tǒng)的第二天,Google母公司Alphabet董事長施密特(Eric Schmidt)通過視頻向包括《第一財經(jīng)日報》在內(nèi)的媒體表示。
面對在場媒體,施密特舉例稱:“你們都是記者,在會場還要不停地用電腦打字,而不只是聽和說。為什么不能讓機器去做比如制造業(yè)的重復(fù)工作、很多打字的工作?”他預(yù)計,在Google公布開源第二代機器學(xué)習(xí)系統(tǒng)之后,尤其是在醫(yī)療、游戲、教育等領(lǐng)域,機器學(xué)習(xí)將發(fā)揮巨大的價值。
機器學(xué)習(xí)背后的黑科技
機器具備學(xué)習(xí)能力究竟有多重要?Google科學(xué)研究員GregCorrado做了一個比喻:“機器學(xué)習(xí)就像火箭助推器,而大量的數(shù)據(jù)就是火箭的燃料。”
谷歌機器學(xué)習(xí)的原理是:用眾多的電腦模擬人腦中的“神經(jīng)元”,形成一個人的“神經(jīng)網(wǎng)絡(luò)”(ArtificialNeuralNetwork)。它不需要借助大批研究人員幫助電腦標(biāo)明事物之間的差異,只要為算法提供海量的數(shù)據(jù),“神經(jīng)元”與“神經(jīng)元”之間的關(guān)系將會發(fā)生變化,讓數(shù)據(jù)自己說話,讓組成“神經(jīng)網(wǎng)絡(luò)”的機器具備自動學(xué)習(xí)、識別數(shù)據(jù)的能力,在新的輸入中找出與學(xué)到的概念對應(yīng)的部分,達到機器學(xué)習(xí)的效果。
例如,當(dāng)人們需要計算機辨別圖片內(nèi)容的時候,各個人工神經(jīng)元就會把所抓取的信息傳遞給被設(shè)置為“決策者”的神經(jīng)元上,它們通過統(tǒng)觀其下層所有神經(jīng)元所呈現(xiàn)的信息,結(jié)合案例、數(shù)據(jù)的分析及算法最終得出結(jié)論。
事實上,谷歌對于機器學(xué)習(xí)的研究要追溯到7~8年前的語音技術(shù)開始。但施密特透露,機器學(xué)習(xí)這一技術(shù)取得突破性進展,是發(fā)生在計算機視覺領(lǐng)域。
三年前,Google科學(xué)家杰夫·狄恩(JeffDean)在接受《第一財經(jīng)日報》采訪時透露,“GoogleX”實驗室通過連接16000臺計算機處理器,創(chuàng)建了一個機器學(xué)習(xí)的神經(jīng)元網(wǎng)絡(luò)系統(tǒng)。結(jié)果發(fā)現(xiàn),這個系統(tǒng)自行創(chuàng)建了貓這個概念并且自學(xué)了對貓的辨認,這就是“自我學(xué)習(xí)”。
不過,當(dāng)時的谷歌機器學(xué)習(xí)還只是一個實驗項目,局限于認知類的簡單工作。幾年過后的今天,谷歌的機器學(xué)習(xí)已經(jīng)從識別谷歌應(yīng)用中的語言和圖片的第一代機器學(xué)習(xí)系統(tǒng)“DistBelief”更新到了第二代的TensorFlow系統(tǒng),并且應(yīng)用于Gmail、GooglePhotos、Google翻譯、YouTube等產(chǎn)品中。
Google研究員GregCorrado告訴記者,利用機器學(xué)習(xí)技術(shù),Gmail電子郵件服務(wù)的垃圾郵件攔截率提高到了99.9%,誤報率降低至0.05%。這背后的原因就是,在垃圾郵件過濾器中引入了機器學(xué)習(xí),這一技術(shù)能夠通過分析大量計算機上的電子郵件學(xué)習(xí)識別垃圾郵件和釣魚郵件。更重要的是,機器學(xué)習(xí)能夠適應(yīng)不斷變化的情況,而非只是利用預(yù)先設(shè)置好的規(guī)則攔截垃圾和釣魚郵件,它還能在運行過程中自己創(chuàng)建新的規(guī)則。
而另一個能代表這項技術(shù)的最新產(chǎn)品是,谷歌在Gmail上推出智能自動回復(fù)功能SmartReply。SmartReply是基于Google機器學(xué)習(xí)系統(tǒng),對海量郵件里的場景、郵件寫作風(fēng)格和寫作語氣進行分析,從而幫助用戶篩選適合語境的回復(fù)短句。
“一小步”與“一大步”
“在Google內(nèi)部,現(xiàn)在機器學(xué)習(xí)已經(jīng)是谷歌搜索中第三大重要的技術(shù)。”GregCorrado對記者說,人工智能是科學(xué)家希望機器變得更智能,從經(jīng)驗和數(shù)據(jù)中學(xué)習(xí)。“手動去編程機器顯然沒有讓它自己學(xué)習(xí)來得更有效。”
不過,實現(xiàn)機器學(xué)習(xí)的訓(xùn)練過程仍然漫長。在這個過程中,機器需要做大量測試、調(diào)整和適配工作,也很有可能犯一些人們不大可能犯的錯誤。
這也正是Google把機器學(xué)習(xí)系統(tǒng)的大門向業(yè)界工程師、學(xué)者和擁有大量編程能力的技術(shù)人員敞開的原因,希望業(yè)界將TensorFlow實現(xiàn)各種各樣的機器學(xué)習(xí)算法,同時也為其在各種場景下的應(yīng)用帶來改進。
“例如,計算機的視覺如果比人更好,為什么還要人去開車?應(yīng)該讓機器開車?,F(xiàn)在是醫(yī)生看X光,未來如果讓機器看是否會做出更準(zhǔn)確的診斷?”施密特說,“在開源之后,如果全世界的聰明人都將給Google很好的回饋,Google會有更好的發(fā)現(xiàn),讓產(chǎn)品和服務(wù)更完美。”
他同時提到,機器學(xué)習(xí)非常善于預(yù)測時間先后順序的事件的發(fā)生,自己尤為看好機器學(xué)習(xí)在醫(yī)療、游戲、教育等領(lǐng)域發(fā)揮的價值。“甚至我們競爭對手的團隊都會用它,這就是谷歌不同于別人的原因。”
對于目前Google機器學(xué)習(xí)的開放策略,GregCorrado表示,一方面,Google開放機器學(xué)習(xí),在于鼓勵大家從不同角度去研究,即使在Google內(nèi)部,也不只是一種方法去做機器學(xué)習(xí);另一方面,Google已經(jīng)和學(xué)術(shù)界、企業(yè)界、不同的實驗室合作,例如Facebook、百度等。
他同時認為,機器學(xué)習(xí)并不是魔術(shù),不要盲目地認為機器學(xué)習(xí)就一定比沒有機器學(xué)習(xí)的好,它只是工具,能夠讓研究人員轉(zhuǎn)化他們瘋狂的創(chuàng)意,而不需要他們重新編寫代碼。
不過,當(dāng)機器能夠像人類大腦一樣去思考時,究竟該如何看待機器學(xué)習(xí)的倫理問題?未來機器人是否會像電影《少數(shù)派報告》中那樣,充當(dāng)“壞人”的角色?
施密特給出的回答是,“只有電影里才會把機器人設(shè)定成壞人,在現(xiàn)實世界里,可以通過算法制定一些規(guī)則來保證它能夠正確地工作。”