在人們還在思考著人工智能將會給人類帶來什么挑戰(zhàn)時,人工智能卻已經(jīng)深入經(jīng)濟和產(chǎn)業(yè)的每個細分領(lǐng)域,我們每天使用的很多產(chǎn)品已經(jīng)具備了人工智能的能力。高通總裁克里斯蒂安諾·阿蒙表示,到2021年人工智能衍生的商業(yè)價值將達3.3萬億美元,人工智能將成為驅(qū)動所有行業(yè)變革的關(guān)鍵。
事實是,人工智能要實現(xiàn)規(guī)?;悄鼙仨毞植贾翢o線邊緣。高通正在研究加速人工智能在終端側(cè)的創(chuàng)新。但隨著人工智能的發(fā)展,消耗的能源越來越多。從統(tǒng)計數(shù)據(jù)上看,有數(shù)據(jù)預(yù)測到2025年,全球的數(shù)據(jù)中心將消耗全球所有可有電力的20%;另外,實現(xiàn)終端側(cè)人工智能還存在散熱的限制,如果手機里運行能耗過高的任務(wù),手機就會變得非常熱。
因此,不管無論是從經(jīng)濟效益還是熱效率的角度看,我們都必須要降低人工智能運行的能耗。阿姆斯特丹大學機器學習首席教授Max Welling認為目前深度學習能耗很高,算法非常低效,如何研發(fā)出更節(jié)能更高效的硬件,成為人工智能的下一個戰(zhàn)場。
受人類大腦的啟發(fā),高通十年前就開始了脈沖神經(jīng)網(wǎng)絡(luò)的研究,這是實現(xiàn)低功耗計算的一種方法。同樣受到人類大腦的啟發(fā),高通正在考慮利用噪音來實現(xiàn)深度學習方面的低功耗計算,也就是著名的“貝葉斯深度學習”。
“貝葉斯在高壓縮比的情況下尤其展現(xiàn)出了明顯的性能優(yōu)勢。”Max Welling總結(jié)道,“貝葉斯可以將網(wǎng)絡(luò)規(guī)模壓縮得更小、量化程度更高,同時不損失過多的準確性,這是非常好的一個方法。”
雖然在可用的壓縮算法技術(shù)相關(guān)學術(shù)著作可謂汗牛充棟,但侯紀磊認為,貝葉斯在訓練上難度更高,但取得的效果更深。而Max Welling也認為,在眾多技術(shù)流派中,以貝葉斯為主導的壓縮算法是最有效的。
以下是對韋靈思與侯紀磊的采訪實錄:
圖:侯紀磊(左一)與韋靈思(左二)正在接受采訪
問:阿蒙總裁在演講中提到,要把智能分布到無線邊緣,并且在最靠近數(shù)據(jù)的邊緣設(shè)備上完成訓練。我們知道各種人工智能應(yīng)用都需要大數(shù)據(jù)來進行訓練,如果訓練放在終端側(cè)完成,我們?nèi)绾未_認終端側(cè)訓練的完成?將智能分布到終端側(cè)的優(yōu)勢是什么?
韋靈思:我們首先談?wù)勥M行分布式計算的優(yōu)勢。一方面,當我們將計算任務(wù)分布在不同邊緣終端上完成,我們將獲得更多可用的計算力。另一方面,數(shù)據(jù)也可以分布于邊緣終端上。
至于在不同終端上完成人工智能模型的訓練,這其實不是零散的過程。分布式訓練的融合是個重要問題,我們正在開發(fā)新的算法,以保證在數(shù)據(jù)不變的情況下,在不同終端上完成的訓練得以融合。如果數(shù)據(jù)是持續(xù)變化的,那將是持續(xù)學習的過程。
侯紀磊:我對韋教授提到的模型訓練補充更多說明。首先,傳統(tǒng)上人工智能模型的訓練都是線下也就是在云端上實現(xiàn)。這種傳統(tǒng)方式的一種延伸是,我們可以通過私有云或邊緣計算來完成訓練。這里說的邊緣計算不一定是完全在終端側(cè)完成,也可以是在企業(yè)級網(wǎng)絡(luò)上開發(fā)私有的訓練設(shè)備(training facility),甚至在家庭中的一個接入點(AP)上完成。未來,只要我們在網(wǎng)絡(luò)邊緣擁有足夠的計算力,我們就可以進行模型的訓練,這是完全可行的。
其次,韋教授剛剛提到的分布式學習,這是另一種訓練的方式。這種方式會通過每一個終端節(jié)點去采集本地數(shù)據(jù),這里的終端可以是手機、物聯(lián)網(wǎng)設(shè)備或是其他形式,從每個終端上采集的本地數(shù)據(jù)量可能都不足以完成模型訓練。但分布式學習可以將訓練分成兩個部分,第一部分包括前面提到的本地數(shù)據(jù)采集,以及在終端側(cè)按照統(tǒng)一格式完成對本地數(shù)據(jù)的訓練預(yù)處理(pre-process training);第二部分則是將經(jīng)過預(yù)處理的訓練數(shù)據(jù)匯集到一個統(tǒng)一的節(jié)點上以完成最終的訓練,這個節(jié)點可以是云,也可以是像私有服務(wù)器這樣的邊緣計算。這就是分布式學習的一種模式。
舉個例子,假設(shè)我已經(jīng)部署了一個自動語音識別系統(tǒng)(ASR),但希望能進一步提高系統(tǒng)性能。我可以讓系統(tǒng)的100萬個用戶都分別向我提供1個小時的數(shù)據(jù),這相當于我擁有了100萬個小時的數(shù)據(jù)可以進行訓練,從而幫助我進一步完善模型。概括一下,這種方式通過分布式的數(shù)據(jù)采集完成模型的分布式訓練,以持續(xù)改善模型。
第三種模型訓練的方式我今天在大會上有介紹,是在終端層面上進行持續(xù)學習,并在持續(xù)學習的過程中通過終端側(cè)訓練的方式,來不斷改善模型。
這就是三種不同的模型訓練方式。第一種完全在線下完成;第二種結(jié)合線上和線下,在終端側(cè)完成數(shù)據(jù)采集及初步處理,然后匯集到總的節(jié)點去做更新;第三種完全在終端側(cè)完成。這三種方式都是可能的。
問:對于開發(fā)者來說,哪些功能比較適合放在終端側(cè),哪些比較適合放在云端?
侯紀磊:對開發(fā)者而言,無論是在終端側(cè)還是云端完成訓練,都是可行的。
更多是從消費者的角度看,從保護數(shù)據(jù)私密性考慮,我們認為在終端側(cè)完成訓練是很有意義的。舉個例子,消費者可以選擇分布式訓練的方式,也就是在終端側(cè)將數(shù)據(jù)處理到一定階段,甚至把訓練的預(yù)處理數(shù)據(jù)進行加密,然后才把這些數(shù)據(jù)發(fā)送到云端匯總。這樣的方式充分考慮了信息的私密性。此外,消費者也可以選擇進行個性化訓練,也就是在終端側(cè)完成訓練,不把任何數(shù)據(jù)發(fā)送到云端。這種方式能最好地保護信息的私密性。所以如果我們更多從考慮用戶數(shù)據(jù)私密性的角度出發(fā)的話,將來在終端側(cè)做訓練是有很大意義的。
韋靈思:除了紀磊上面提到的私密性外,我認為可靠性也是終端側(cè)處理的重要優(yōu)勢所在。像無人駕駛這樣的用例,對于網(wǎng)絡(luò)連接的可靠性有非常強的要求,因為連接一旦出現(xiàn)問題,會導致很嚴重的后果。因此,把一部分計算放在終端側(cè)完成是很重要的。低時延是終端側(cè)處理的另一個優(yōu)勢,很多用例對時延十分敏感,像是VR用例。最后,個性化也是終端側(cè)處理的優(yōu)勢之一。
問:Qualcomm一直強調(diào)異構(gòu)的計算架構(gòu),這樣的架構(gòu)可以為客戶提供更高的彈性。但我們也知道,系統(tǒng)的彈性越高,其復雜性也就相應(yīng)增加,Qualcomm如何應(yīng)對計算復雜性的挑戰(zhàn),以提供更好的開發(fā)和使用體驗?
韋靈思:目前我們正在進行一個研究項目,通過開發(fā)一個AI agent來實現(xiàn)對人工智能計算任務(wù)的全面自動化管理。這一AI agent可以監(jiān)測很多工作負載,同時不斷進行學習,將計算任務(wù)放在最合適的地方處理。這個AI agent有望為開發(fā)者和用戶自動完成復雜性管理。我們目前正在對這個算法進行持續(xù)優(yōu)化,讓它實現(xiàn)自動化的處理。
侯紀磊:我補充一下。雖然異構(gòu)計算的靈活性通常會帶來相應(yīng)的復雜度,但其實異構(gòu)計算一直是Qualcomm的強項。我們已經(jīng)將多個引擎通過異構(gòu)計算統(tǒng)一在同一框架下,并將靈活的集成方案提供給開發(fā)者。另外,我們也積極從業(yè)界獲得了很多反饋。比如說在智能手機和物聯(lián)網(wǎng)領(lǐng)域,根據(jù)具體應(yīng)用性質(zhì)的不同,業(yè)界也已經(jīng)有一些自然的選擇偏向。像是音頻用例,我們知道它其實更適合于低功耗DSP來處理;如果是視覺用例,那么采用GPU并行處理會更為合適。所以說,在初期應(yīng)用的角度,不管是Qualcomm的推薦還是行業(yè)的自然選擇,我們已經(jīng)能看到使用不同異構(gòu)計算引擎的一些趨勢。同時,我們還可以采取剛剛韋教授提到的方式,將來通過機器學習的算法來管理機器學習任務(wù),利用對工作負載的分析來自動判斷哪個內(nèi)核最合適進行處理。所以總體來說,我們一方面可以利用Qualcomm一貫的優(yōu)勢去管理復雜性,另一方面還可以通過自動映射的方式來進一步完善管理的過程。
問:韋靈思教授提到,未來人工智能算法將會以每瓦時所提供的智能的多少來衡量。Qualcomm一直利用貝葉斯深度學習來提高能效,有沒有一些具體的數(shù)據(jù)來說明貝葉斯學習對于降低算法能耗的效果?
韋靈思:在我的演講當中為大家展示了一個在圖像分類的實際用例中對比不同神經(jīng)網(wǎng)絡(luò)壓縮方法的示意圖(如下)。從這個示意圖中可以看到,貝葉斯在高壓縮比的情況下尤其展現(xiàn)出了明顯的性能優(yōu)勢。至于具體的數(shù)字,在不同實際用例中我們會得到不同的數(shù)據(jù)對比。除了圖像分類外,我們還在其他用例下做了對比實驗??偟膩碚f,貝葉斯可以將網(wǎng)絡(luò)規(guī)模壓縮得更小、量化程度更高,同時不損失過多的準確性,這是非常好的一個方法。
侯紀磊:在韋教授的例子中,貝葉斯通過2%左右的準確度損失來實現(xiàn)了3倍的壓縮比,3倍壓縮比大概可以等同于3倍的能耗降低,你可以以此作為一個參考。當然,3倍的壓縮比提升是在這一具體用例中實現(xiàn)的。在這個用例中,ResNet-18本身已經(jīng)是一個簡潔的網(wǎng)絡(luò)了,對這個網(wǎng)絡(luò)進行更多壓縮的難度很大。在這樣的情況下貝葉斯依然取得了3倍的壓縮比,這充分展現(xiàn)了貝葉斯的強大之處。我想強調(diào)的是,具體的壓縮比例與被壓縮網(wǎng)絡(luò)本身設(shè)計的冗余度、以及具體的應(yīng)用場景都有聯(lián)系。
問:除了貝葉斯算法外,Qualcomm是否還在開發(fā)其他類似的壓縮算法?在中國業(yè)內(nèi),像深鑒科技等公司開發(fā)的壓縮算法可以實現(xiàn)超過十倍、二十倍的壓縮比。Qualcomm是不是也有計劃開發(fā)壓縮比更高的算法?
韋靈思:我認為孤立地去看一個算法的壓縮比是沒有意義的。我曾經(jīng)在一個神經(jīng)網(wǎng)絡(luò)上實現(xiàn)過700倍的壓縮比,而且沒有損失任何準確率;但這個被壓縮的網(wǎng)絡(luò)本身就是過度冗余的,它是一種VGG網(wǎng)絡(luò),這種網(wǎng)絡(luò)從設(shè)計之初效率就很低,因此700倍的壓縮比其實不能說明什么。但正如紀磊剛才談到的,貝葉斯在ResNet-18這個本來已經(jīng)非常緊湊的網(wǎng)絡(luò)上實現(xiàn)了3倍壓縮比,這充分說明了它的性能。Gary在他的演講中展示過一個對比不同網(wǎng)絡(luò)的準確率和運算次數(shù)之比的示意圖(如下),在這個圖中ResNet-18已經(jīng)處于準確率/運算次數(shù)的最優(yōu)曲線上,所以說貝葉斯3倍的壓縮比已經(jīng)很強大。對于像VGG這類遠離最優(yōu)曲線的冗余網(wǎng)絡(luò)來說,完全可以實現(xiàn)非常高的壓縮比。
侯紀磊:我再跟大家解釋一下這張示意圖,因為理解這張圖很重要。橫軸是網(wǎng)絡(luò)的復雜度,縱軸是準確率。而圖上的這條曲線,指的是從設(shè)計網(wǎng)絡(luò)的角度看,我在任意一個既定的復雜度下能夠?qū)崿F(xiàn)的最高的準確率。這條曲線實際是條包絡(luò)線,所有的網(wǎng)絡(luò)都在它的右下方。
這張包絡(luò)線代表了當前網(wǎng)絡(luò)設(shè)計的最高境界,也代表了在復雜度恒定的情況下可以實現(xiàn)的最高的準確率,或者說是在準確率恒定的情況下可以實現(xiàn)的最低的復雜度。如果我們要談在某個網(wǎng)絡(luò)上實現(xiàn)了多少倍的壓縮比,首先我們需要先看這個網(wǎng)絡(luò)離包絡(luò)線也就是最佳曲線有多遠。如果這個網(wǎng)絡(luò)本身遠離了包絡(luò)線,那我們討論它能實現(xiàn)多少倍壓縮其實是沒有意義的。
韋靈思:目前其實存在著一系列可用的壓縮算法,其中一部分由我所在的大學實驗室所開發(fā),與這一系列算法技術(shù)相關(guān)的學術(shù)著作可謂汗牛充棟。我們對所有這些技術(shù)都進行過試驗和測試,結(jié)果表明,以貝葉斯為主導的壓縮算法是最有效的。
侯紀磊:深度剪枝其實是深鑒一位聯(lián)合創(chuàng)始人最早提出來的概念,在去年底NIPS大會結(jié)束后我們邀請他到Qualcomm做過一次分享,當時韋教授也在,雙方都有比較深的交流。從我們的角度看,我們認為韋教授提出的方法在數(shù)學第一原則的角度看是更為深刻的,往往當你從第一原則的角度去設(shè)計一個比較復雜的方法時,這個方法的潛力和最終得到的效率會更好。根據(jù)我們對數(shù)學和對深度學習體驗的了解,我們相信通過貝葉斯方法、從第一原則出發(fā)去設(shè)計的做法,相對來說它的效果會更好。
問:是否可以理解為貝葉斯算法在普適性和泛用性方面更卓越?
侯紀磊:其實貝葉斯在訓練上的難度更高,但它取得的效果會更深。深鑒的剪枝方法非常有啟發(fā)性,大家也很容易理解,然而這不意味著就是最優(yōu)的方法。我們相信,從數(shù)學的角度去接近最優(yōu)的方法,這是韋教授這套方法的優(yōu)勢之一。
問:我們知道AI的學習和計算需要收集很多數(shù)據(jù),包含個人數(shù)據(jù)和管理數(shù)據(jù)來進行模型的建立。歐盟近期即將頒布一項名為General Data Protection Regulation(GDPR)的法令,在此法令下,只要你沒有保護好那些有可能可以辨識出特定人物或地點的數(shù)據(jù),你就可能遭受嚴重懲罰。你對此有什么看法?
韋靈思:首先GDPR僅適用于歐盟,在中國和美國都沒有這樣的規(guī)定。從我個人的角度,我對GDPR持支持態(tài)度,因為我覺得保護隱私非常重要。同時,我相信GDPR這樣的約束將會驅(qū)動更多創(chuàng)新。從技術(shù)層面看,我們可以通過一些技術(shù)解決方案去應(yīng)對這樣的挑戰(zhàn),比如說是數(shù)據(jù)加密,或者在本地資源的范疇內(nèi)完成模型訓練。假設(shè)有兩家醫(yī)院,我可以要求他們從數(shù)據(jù)源上支持模型更新,我們可以創(chuàng)建一個協(xié)議,在這個協(xié)議之下所有發(fā)送給我的信息都是私密的,所有這些信息都無法提取出個人資料。這實際上是一種分布式的思路。對于Qualcomm來說,這思路非常有趣,因為全部模型的更新都不能在中心化的云上進行,邊緣計算就顯得更為重要了。另一種解決方案是加密模型,我們可以將模型的每次更新進行加密,這樣即使我們在云上更新了模型,也不能看到更新本身的詳情,更不能從云上獲取到具體信息。
問:高通分享了汽車和自動駕駛方面的規(guī)劃,從介紹看來還是以信息娛樂系統(tǒng)設(shè)計為主。這是因為Qualcomm在自動駕駛方面還沒有完整規(guī)劃嗎?還是與未完成的恩智浦收購案有關(guān)?
侯紀磊:一方面,我們今天更多強調(diào)的是Qualcomm在車載信息處理和信息娛樂市場取得了非常好的發(fā)展勢頭,這也給了我們信心,我們應(yīng)該繼續(xù)在汽車市場上加大投入。我還想要強調(diào)的是,在自動駕駛領(lǐng)域,對于如何通過整體的方式來發(fā)展面向自動駕駛的人工智能技術(shù),Qualcomm對此有非常深入的見解和看法。我們在大會上也特別強調(diào)了Qualcomm不僅只是構(gòu)建一個系統(tǒng)、把demo建起來,我們還更多地從能耗、成本和安全等多個角度來考慮這個事情。在一些具體方面,比如說傳感器的研發(fā)和傳感器融合,包括今天提到的利用攝像頭、雷達等主動式傳感器和C-V2X主動通信技術(shù),以幫助駕駛員規(guī)避危險、且進一步提高傳感器信息融合,在這些方面我們都有很多的投入。
問:你在大會上講了很多語音交互方面的內(nèi)容,請問是基于什么考慮?此外,目前除了智能音箱,語音交互技術(shù)還應(yīng)用到大量手機甚至PC終端上,你如何看待語音交互在終端側(cè)的應(yīng)用趨勢?
侯紀磊:先回答你的第一個問題。首先,對于手機來說,無論是輸入還是交互,兩個最重要的方式是通過攝像頭和通過音頻。因此,語音交互技術(shù)本身非常重要,可以說業(yè)界對這種技術(shù)存在一些剛需。
其次,阿蒙總裁在大會的演講上談到了推動終端側(cè)人工智能的兩個重要方向,一個是發(fā)展高能效的人工智能,這正是今天韋教授演講的主題,就是如何在終端上用能效最高的方式來運行算法。第二個方向是發(fā)展個性化的人工智能,這其中有幾個重要特性,包括情景式感知、始終開啟和通過持續(xù)學習實現(xiàn)自主適應(yīng)。這幾個特性有三個共通的重要元素——終端側(cè)、低功耗和個性化。這三個元素無論對于語音交互本身還是對于更寬泛的應(yīng)用而言,在推動終端側(cè)人工智能發(fā)展上都是非常重要的。
而語音交互剛好可以把這幾個元素綜合到一起,因此我認為這是展現(xiàn)終端側(cè)人工智能發(fā)展趨勢的一個很好的話題。
此外,你剛才也提到了在終端側(cè)完成訓練的問題。從模型適應(yīng)的角度看,語音交互實際上是持續(xù)在終端層面上完成模型更新,因此它也是終端側(cè)訓練的一個很好的用例。
再回答你關(guān)于趨勢的問題。其實我們非常高興看到OEM廠商和其他生態(tài)系統(tǒng)成員持續(xù)推動和拓展語音交互在不同終端上的應(yīng)用。我們的目標并不是要構(gòu)建一個完整的終端側(cè)語音交互系統(tǒng),我在大會的演講中有著重強調(diào),Qualcomm旨在構(gòu)建一個終端側(cè)的解決方案架構(gòu)。如果OEM廠商或獨立軟件開發(fā)商有比較好的解決方案,我認為Qualcomm和他們在生態(tài)系統(tǒng)內(nèi)相互補充會是一件非常好的事情。從另一個角度看,我們認為無關(guān)鍵字(keyword-less)、始終開啟的語音交互將會是未來非常重要的一個技術(shù)方向。這需要通過真正低功耗的硬件架構(gòu)作為支撐,在這方面我們還有大量的工作需要完成。
韋靈思:紀磊已經(jīng)談得十分全面了,我再稍微補充我的看法。這其實可以回到我們的第一個問題去看。計算可以在云端完成,也可以在邊緣或者說終端側(cè)完成,關(guān)鍵在于將計算任務(wù)分配到最合適的地方進行處理。我相信,我們將會采用組合式的方法來完成,比如將一部分對時延不敏感的計算放在云端處理,將時延敏感性任務(wù)放在終端側(cè)。實質(zhì)上,這還是一個對計算任務(wù)進行分配的管理問題。我相信生態(tài)系統(tǒng)中的不同部分都會被整合和利用。隨著5G的到來,我們可以更快地接入到云端,從而能更好地在整個生態(tài)系統(tǒng)中去分配計算任務(wù)。
問:Qualcomm在軟件方面已經(jīng)有曠視、商湯等合作伙伴,同時Qualcomm也在發(fā)展自己的算法,這是否會與合作伙伴形成競爭?
韋靈思:我們開發(fā)自己算法的最重要原因,是為了確保所有算法都可以在驍龍平臺上高效運行。一方面,我們可以通過開發(fā)自己的算法來對系統(tǒng)進行壓力測試,從而啟發(fā)我們對于下一代硬件系統(tǒng)的開發(fā)。另一方面,有的客戶會希望我們幫助他們對其網(wǎng)絡(luò)做壓縮或量化,以適應(yīng)在驍龍平臺上的運行。因為我們已經(jīng)有了算法開發(fā)的經(jīng)驗,我們就可以為他們提供很大的幫助??蛻粢部梢赃x擇使用我們開發(fā)的一些算法,主要面向的是一些沒有資源和能力做獨立算法開發(fā)的客戶。
侯紀磊:我補充一個方面。當Qualcomm看到一些技術(shù)發(fā)展的趨勢,我們可以通過自己的一些實現(xiàn)方式,包括開發(fā)原型機和技術(shù)展示等,去向業(yè)界展現(xiàn)這些重要的趨勢,同時影響甚至是引領(lǐng)業(yè)界向某些技術(shù)趨勢加速發(fā)展。我認為這也是我們跟合作伙伴合作的一種方式。