“當前人工智能(AI)的發(fā)展正處于從1.0到2.0的過渡期,從技術革命上去講,也就是從做單一的算法開發(fā)到體系架構搭建的過渡?!?/p>
3月7日,原騰訊杰出科學家、騰訊優(yōu)圖實驗室聯(lián)合負責人賈佳亞,向澎湃新聞記者分享了人工智能發(fā)展階段的思考,他認為,現(xiàn)在的AI技術基本上以單點突破為主,每一個細分的小領域都有很多的研究,算法是其中的重要組成部分。
賈佳亞是香港中文大學計算機科學與工程學系終身教授,是計算機視覺、人工智能、計算機圖形與計算影像學領域國際權威專家。
據(jù)媒體報道,賈佳亞培養(yǎng)出了多位在人工智能領域的新秀,其中包括商湯科技聯(lián)合創(chuàng)始人兼CEO徐立。
離開騰訊后,賈佳亞選擇創(chuàng)業(yè)之路,于2019年底設立AI公司思謀科技,主要方向為人工智能和5G技術在智能制造和高清視頻領域的應用,目前已獲Pre-A輪融資,并正進行全球范圍內(nèi)的招聘工作。
賈佳亞
在人工智能1.0階段,AI技術基本上以單點突破為主,每一個細分的小領域都有很多的研究,算法是其中的重要組成部分。AI的能力體現(xiàn)在“接受數(shù)據(jù)—研發(fā)人員設計算法—調(diào)試—得到結(jié)果—再反饋”的流程上。它的核心競爭力還是各類高效、創(chuàng)新的算法,通過不斷迭代,發(fā)展出新的“CPU”,但每一種“CPU”都只能做一種特定的運算。
而人工智能2.0階段,AI在架構上需要建立真正的完整系統(tǒng),而不是一個個孤立的“CPU”計算單元的單個算法。這個完整體系中的許多服務模塊不參與核心算法設計或者調(diào)試,但這些服務模塊可以作為短期或者長期存儲,加速運算、加快數(shù)據(jù)流,以實現(xiàn)僅需少量研發(fā)人員卻能取得他們以往需要耗費大量時間和工作量(如5倍以上)的結(jié)果。賈佳亞認為,這種系統(tǒng)性的方法與實踐是AI 2. 0的最核心要素。
舉例來說,當前工業(yè)所需要的AI是遠遠復雜過現(xiàn)有的單個算法,在人臉大領域,五官存在很多共性,但在工業(yè)領域,數(shù)據(jù)五花八門,采集方式多不勝數(shù),所以很難有一個算法或者一套數(shù)據(jù)是保證有效的。但賈佳亞認為,工業(yè)、農(nóng)業(yè)、流通和零售等行業(yè),才是拉動并評價AI更實質(zhì)、更廣域發(fā)展的“必考題”。
賈佳亞希望,帶領行業(yè)進入新的AI的構架時代,擺脫現(xiàn)在極重算法的模式,轉(zhuǎn)向體系化構建解決AI里面數(shù)據(jù)特征多種類,研發(fā)重復投入的核心問題。
“我們有信心在短期內(nèi)實現(xiàn)系統(tǒng)產(chǎn)出效果在投入不變的情況下有大的提升。”賈佳亞稱。
以下為賈佳亞文章《人工智能 2.0革命,技術究竟該如何變革?》
一場科技革命的發(fā)生,是科學理論、知識系統(tǒng)、方法應用、實踐迭代等各方面的巨大進步。當人們預言人工智能時代將是第四次工業(yè)革命時,人工智能似乎被定下了“無所不能”的基調(diào)。
對于一件事物的狂熱,經(jīng)過時間推移,會帶來理性回歸。如今對人工智能概念的認知由狂熱遐想回歸理性實踐。當群體和環(huán)境回歸理性后,國家、社會包括許許多多個體仍然選擇高度重視并看好人工智能的技術,正如近日國家又發(fā)出加快 5G 網(wǎng)絡、數(shù)據(jù)中心、人工智能等“新基建”的聲音。
人工智能之于各行各業(yè),如同計算機之于電子電器
如今與當年境況相似,人們肯定人工智能技術,但對人工智能的功能和應用不了解。如同早年第一次接觸計算機,我懷著敬畏心,但并知道它究竟能做什么。1984年的蘋果計算機,到現(xiàn)今30多年歷史,計算機從功能到形態(tài),每年都仍有非常顯著的變化。直到對其能力、功能和應用做到了如指掌,我才體會到它真正的能力和魅力。順勢,我也開發(fā)了適用需求的很多應用。
計算機是所有電子電器甚至是穿戴設備里的基本元素,硬件的能力范疇也有了無邊界的擴展。計算機之于現(xiàn)代電子設備,猶如人工智能之于各行各業(yè),AI也將在未來成為不可或缺的基石型技術。
AI技術變革從1.0到2.0,是單一算法到體系架構搭建
當前人工智能的發(fā)展正處于從1.0到2.0的過渡期,從技術革命上去講,也就是從做單一的算法開發(fā)到體系架構搭建的過渡?,F(xiàn)在的AI技術基本上以單點突破為主,每一個細分的小領域都有很多的研究,算法是其中的重要組成部分。當我們把每一個小而有效的算法看成是小的定制化計算單元(computing unit),它們便是為了完成某一項特定任務而存在。這些小的計算模塊就像是計算機里面的CPU,擁有計算能力,通常一個團隊手頭只有某一個或某幾個處理特定任務的“CPU”。所以當任務發(fā)生改變時,團隊就只能重新編寫和制造出一個新的“CPU”結(jié)構來應對新的任務,這便是現(xiàn)在AI的工作方式,也就是我們稱為的AI 1.0。所以這樣的工作方式下,AI的能力體現(xiàn)在“接受數(shù)據(jù)—研發(fā)人員設計算法—調(diào)試—得到結(jié)果—再反饋”的流程上。它的核心競爭力還是各類高效、創(chuàng)新的算法,通過不斷迭代,發(fā)展出新的“CPU”,但每一種“CPU”都只能做一種特定的運算。
那為什么我們的計算機在面對不同的任務時,卻僅有一個CPU就可以完成各類任務?這個區(qū)別在于計算機里面除了CPU,還有硬盤用于存儲,內(nèi)存用于快速存儲,緩存用于更快速的內(nèi)容累積和高效訪問等。除此之外,為了讓系統(tǒng)能運行起來還需要有總線和其它的職能部件。雖然它們看起來沒有像CPU那么重要,也不參與直接運算,但正是有了這些看似簡單卻不可缺少的部分,才使得一臺計算機真正成為一臺通用性的計算機,承擔并完成各類任務。
某種程度上,思謀在思考和實踐AI的整體性創(chuàng)新和升級上,正類似于在構建一臺計算機、一個能用、好用、易用的完整計算系統(tǒng)。這就要求AI在架構上需要建立真正的完整系統(tǒng),而不是一個個孤立的“CPU”計算單元的單個算法。這個完整體系中的許多服務模塊不參與核心算法設計或者調(diào)試,但是這些服務模塊可以作為短期或者長期存儲,加速運算、加快數(shù)據(jù)流,以實現(xiàn)僅需少量研發(fā)人員卻能取得他們以往需要耗費大量時間和工作量(如5倍以上)的結(jié)果。 所以我相信這種系統(tǒng)性的方法與實踐是AI 2. 0的最核心要素,那么對于視覺AI 2.0 的體系結(jié)構突破,也是思謀重要的差異化體現(xiàn)。
視覺AI的發(fā)展,以需求為根本,強結(jié)合場景是重中之重
科技的進步會以滿足社會發(fā)展需求為根本和內(nèi)在的源動力。AI技術落地的場景,例如遠程會議中的視頻壓縮、去噪聲、超低和不穩(wěn)帶寬下的編碼技術、圖像增強這些強結(jié)合,技術是根本,這些場景對于技術的需求是不可或缺的。但如果是加臉部掛件就比較弱結(jié)合,相對可有可無,需要慎重務實考慮。
所以在前期視覺AI的發(fā)展中,人臉這類和我們生活結(jié)合最緊密的應用會獲得直接的關注和投入。在應用上也有美顏美妝、改變年齡這類跟社交媒體直接掛鉤的普遍需求,所以我們做過 “一鍵上妝” 和 “一鍵卸妝” 這類有趣的科技應用和發(fā)明。如果用通訊頻段做類比,人臉應用就是一個2.5GHz上的信號,因為此應用頻段固定,所以我們對它的優(yōu)化已經(jīng)非常好了,我們只要有接收機接收到它,就可以穩(wěn)定傳輸信號了。
現(xiàn)如今,AI應用已經(jīng)突破了人臉的應用“頻段”,推廣到了人體姿態(tài)這類問題,且問題都得到了很好的解決,實現(xiàn)了研發(fā)落地。這可以理解為2.6GHz/2.7GHz這些信號都有了固定的發(fā)送器,設置好之后,接收器就可以穩(wěn)定工作了。相比于這些固定頻段發(fā)送器,我們關注的是更具有普適性、更高難度的、多種類高清視頻的理解處理。比如一張自然照片里有人、風景、動物和動作,這絕不僅僅是人臉或者人體的識別就能解決的問題,因為這個頻段在不斷變化,接收器也需要不斷移動才能接收到信號。
集中研發(fā)AI 2.0系統(tǒng)化能力就是賦能提效,把開發(fā)的投入以幾何級降低(減少),實現(xiàn)即使再大量的算法需求也能在有限的技術團隊和預算時間條件下完成應用開發(fā)
一方面,這類超寬“頻譜”的問題是現(xiàn)在互聯(lián)網(wǎng)上多媒體應用的首要方向,具有很強的商業(yè)模式和技術挑戰(zhàn)性。高清視頻的高速傳播、高清線上線下分布式編輯、5G交互的新商業(yè)方式探索,這些都是很值得我們?yōu)橹度氲?。另一方面,從技術體系來看,因為“超寬頻譜”不固定信號位置,所以它的“發(fā)送”和“接收”成了新的問題。回到應用本身,視頻的內(nèi)容千變?nèi)f化,內(nèi)容的多樣也就意味著單個算法不能解決所有問題,即便有100種、1000種算法就能保證找到好的方案。因為這1000種算法,還意味著大概1000個優(yōu)秀研發(fā)團隊同時開動才能在預計研發(fā)時間里完成任務,或者是100個團隊花10倍的預計時間完成任務,這種成本極高的方式在商業(yè)領域都是不能夠接受的。所以在高清媒體方向上,技術體系上符合我們對于AI 2.0系統(tǒng)化流程的表述:建設體系化的構建并能在如此復雜的領域做出關鍵性突破和實現(xiàn)大規(guī)模部署,也是現(xiàn)有的思謀Media產(chǎn)品的組織研發(fā)與商業(yè)運作方向。
工業(yè)、農(nóng)業(yè)、流通和零售等行業(yè)是拉動并評價AI更實質(zhì)、更廣域發(fā)展的“必考題”。尤其這次疫情,讓大家看到工廠沒人會停工,停工導致經(jīng)濟停滯,經(jīng)濟停滯會讓國家進入艱難狀況等一系列我們不希望看到的情況。目前制造業(yè)的機器動作能力都很強,但是智能,包括感知和決策,和真正的需求仍有非常大的差距。
再者,當前工業(yè)所需要的AI是遠遠復雜過現(xiàn)有的單個算法的。在人臉大領域,五官存在很多共性,但是在工業(yè)領域,數(shù)據(jù)五花八門,采集方式多不勝數(shù),所以很難有一個算法或者一套數(shù)據(jù)是保證有效的。與超高清視頻應用相同,1000套算法的需求是1000個團隊做1個月或者1個團隊做1000個月,其中的開銷或者工期不是實際商業(yè)化過程所能承擔的。所以集中研發(fā)AI 2.0系統(tǒng)化能力就是賦能提效,把開發(fā)的投入以幾何級降低(減少),實現(xiàn)即使再大量的算法需求也能在有限的技術團隊下和在預算時間條件下完成應用開發(fā),這也是思謀從誕生第一天開始的使命所在。
從AI 1.0到2.0,我們還有很長的路要走,也需要很多的科學家和技術企業(yè)共同去探索突破。這也是我創(chuàng)立思謀的最初的想法,希望思謀成為波瀾壯闊的以人工智能為核心的科技革命大時代下的重要推動者和變革者。在通往工業(yè)智慧生產(chǎn)、生活品質(zhì)飛躍的未來的道路上,我們需要加速升級和挖掘AI的整體服務智能,打破現(xiàn)有的思維框架,同時秉承實干創(chuàng)新的精神,進行AI技術的應用、研發(fā)和能力部署,和穩(wěn)健快速的規(guī)?;娜律?。