當(dāng)前位置：首頁(yè) > 智能硬件 > 人工智能AI

曠視科技首席科學(xué)家孫劍：登上“人工智能之月”，我們爬樹(shù)還是造火箭？

時(shí)間：2020-08-19 22:54:01

關(guān)鍵字：人工智能人臉識(shí)別

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 　　孫劍博士2003年畢業(yè)于西安交通大學(xué)，后一直在微軟亞洲研究院工作，擔(dān)任首席研究員。其主要研究方向是計(jì)算攝影學(xué)，人臉識(shí)別和基于深度學(xué)習(xí)的圖像理解。自2002年以來(lái)在CVPR，ICCV，SIGG

　　孫劍博士2003年畢業(yè)于西安交通大學(xué)，后一直在微軟亞洲研究院工作，擔(dān)任首席研究員。其主要研究方向是計(jì)算攝影學(xué)，人臉識(shí)別和基于深度學(xué)習(xí)的圖像理解。自2002年以來(lái)在CVPR，ICCV，SIGGRAPH，PAMI等頂級(jí)學(xué)術(shù)會(huì)議和期刊上發(fā)表學(xué)術(shù)論文90余篇，兩次獲得CVPR最佳論文獎(jiǎng)（2009，2016）。孫劍博士于2010被美國(guó)權(quán)威技術(shù)期刊MIT Technology Review評(píng)選為“全球35歲以下杰出青年創(chuàng)新者”。孫劍博士帶領(lǐng)的團(tuán)隊(duì)于2015年獲得圖像識(shí)別國(guó)際大賽五項(xiàng)冠軍（ImageNet分類，檢測(cè)和定位，MSCOCO檢測(cè)和分割）。孫劍博士擁有四十余項(xiàng)國(guó)際或美國(guó)專利，他和他的團(tuán)隊(duì)的研究成果被廣泛應(yīng)用在微軟Windows，Office，Azure，Bing，Xbox等產(chǎn)品中。孫劍博士于2016年7月正式加入曠視科技擔(dān)任首席科學(xué)家。

　　大家好，我是Face++的孫劍。

　　前面大家提到人工智能的前景，共識(shí)是目前感知智能已經(jīng)做的很不錯(cuò)了，但仍舊沒(méi)有明確的思路去做認(rèn)知智能。

　　Face++曠視科技的研究團(tuán)隊(duì)現(xiàn)在集中精力在做感知智能。我們的基本思路很簡(jiǎn)單：做技術(shù)，做產(chǎn)品，做數(shù)據(jù)，希望讓三者形成正循環(huán)來(lái)推動(dòng)人工智能的發(fā)展。

　　我在Face++和微軟做的事

　　我在Face++做的核心技術(shù)研究與我在微軟時(shí)做的方向一致：圖像分類、物體檢測(cè)、語(yǔ)義分割、和序列學(xué)習(xí)。

　　關(guān)于第一個(gè)核心技術(shù)（圖像分類）在ImageNet上的進(jìn)展：去年我和微軟團(tuán)隊(duì)做的ResNet一舉把網(wǎng)絡(luò)的深度從十層或二十層推到152層，效果非常好，而且這個(gè)模型我們已開(kāi)源，并且在業(yè)界得到了廣泛應(yīng)用。在Face++我會(huì)繼續(xù)進(jìn)行這個(gè)方向的研究，我們系統(tǒng)是ResNet的一個(gè)改進(jìn)版，它和微軟時(shí)的系統(tǒng)有何不同呢？新版本融入了新的網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)思想，現(xiàn)在一個(gè)新的改進(jìn)版ResNet在ImageNet上可以媲美以往組合六個(gè)ResNet。

　　圖像分類中一個(gè)很重要的問(wèn)題叫做人臉識(shí)別，2013年我跟微軟的同事做出High-dimensional Feature，這是是沒(méi)有深度學(xué)習(xí)時(shí)最好的方法。隨后Facebook用了DeepFace，也是第一次用深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)方法，使得人臉識(shí)別率與人類眼眼的識(shí)別率非常接近，隨后很多家公司包括Face++均采用了深度學(xué)習(xí)的方法在數(shù)據(jù)集上超過(guò)人眼識(shí)別率。

　　那么計(jì)算機(jī)真在人臉識(shí)別率上超過(guò)了人了嗎？我的回答是：很多情況下，是的。例如在身份認(rèn)證和智能安防方向的應(yīng)用，F(xiàn)ace++的人臉識(shí)別產(chǎn)品已經(jīng)超過(guò)了人。人臉識(shí)別研究已有三十年，今天我們是第一次在上億的規(guī)模上應(yīng)用人臉識(shí)別。

　　我們關(guān)心的第二個(gè)核心技術(shù)是物體檢測(cè)，即，將各種物體在圖像中識(shí)別并定位出來(lái)，換句話說(shuō)就是不但要識(shí)別圖像包含什么物體，還要知道物體在哪里。目面Face++擁有一個(gè)在著名的VOC2012物體檢測(cè)的評(píng)測(cè)中性能最好的單模型物體檢測(cè)器。為什么強(qiáng)調(diào)單模型呢？因?yàn)榭紤]到端上計(jì)算力的限制，我們?cè)趯?shí)際產(chǎn)品廣泛使用單模型。

　　我們關(guān)心的第三個(gè)核心技術(shù)是語(yǔ)義分割，就是對(duì)每個(gè)像素分類。這是一個(gè)更為精細(xì)的分類工作。我們Face++的一名實(shí)習(xí)生的工作目前在VOC2012語(yǔ)義分割評(píng)測(cè)中名列第一，他現(xiàn)在正在準(zhǔn)備CVPR的投稿。我們歡迎廣大的在校學(xué)生來(lái)我們公司做最頂尖的研究，做更有趣的應(yīng)用。語(yǔ)義分割還能應(yīng)用在智能安防場(chǎng)景中，這個(gè)視頻展示了我們不僅可以把人分割出來(lái)，還能把人的不同部位分割出來(lái)。由于時(shí)間原因，關(guān)于序列學(xué)習(xí)我就不展開(kāi)了。

　　做這些技術(shù)需要一個(gè)做訓(xùn)練引擎和平臺(tái)，目前行業(yè)里較為流行的有微軟的CNTK，谷歌的TensorFlow，和開(kāi)源的Caffe。而Face++則有著自己的平臺(tái)叫Brain++，它的設(shè)計(jì)與TensorFlow相似。TensorFlow發(fā)布至今有一年的時(shí)間，而我們的Brain++已經(jīng)在公司運(yùn)行將近兩年了。做自研的平臺(tái)非常關(guān)鍵，公司敢做并能做，是因?yàn)槲覀儞碛凶铐敿獾娜斯ぶ悄芗夹g(shù)人才，我們的研究團(tuán)隊(duì)?wèi)?yīng)該是中國(guó)ACM金牌選手密度最高的地方。目前在人工智能創(chuàng)業(yè)公司中使用自己的深度學(xué)習(xí)訓(xùn)練引擎的，可能只有Face++。

　　有了這樣的平臺(tái)和技術(shù)，我們打造了兩方面的產(chǎn)品：SmarTID，用來(lái)提供身份認(rèn)證服務(wù)；SmartCamera，用來(lái)將智能前端化。目前我們產(chǎn)品覆蓋包括銀行、金融、、互聯(lián)網(wǎng)、零售、地產(chǎn)、公共安全和機(jī)器人等行業(yè)。我們希望通過(guò)“人工智能+”把人工智能滲透到每個(gè)行業(yè)當(dāng)中。

　　這里有幾個(gè)數(shù)字，F(xiàn)ace++人工智能云開(kāi)放平臺(tái)的API已經(jīng)服務(wù)了近七萬(wàn)開(kāi)發(fā)者，已被調(diào)用62億次；我們的身份認(rèn)證平臺(tái)目前已為一億人，注意不是一億次，提供了身份認(rèn)證的刷臉?lè)?wù)，覆蓋了85%的金融市場(chǎng)智能化應(yīng)用。

　　從感知智能走向認(rèn)知智能

　　一般情況下我的報(bào)告到這里就結(jié)束了，但今天是回家匯報(bào)，那我就再繼續(xù)分享一些對(duì)人工智能更個(gè)人的看法。我也一直在問(wèn)自己一個(gè)問(wèn)題，我們當(dāng)下研究AI方法，是在爬樹(shù)還是在造火箭。

　　這里有一幅畫(huà)的內(nèi)容是這樣：你要想上月球，選擇爬樹(shù)能接近月球，每年還能有不錯(cuò)的進(jìn)展，有些樹(shù)高得可能一輩子都爬不完，但到不了月球那里。如果我們不知道怎么造火箭，只用爬樹(shù)的方法，是永遠(yuǎn)上不了月球的。

　　那么問(wèn)題來(lái)了，我們現(xiàn)在研究AI的方法到底是在爬樹(shù)還是在造火箭？按我們目前的辦法到底能不能上“月球”？

　　再回到開(kāi)場(chǎng)時(shí)的提及的感知智能和認(rèn)知智能這一話題。大多數(shù)感知智能能做下去，是因?yàn)槲覀兡軌蚝苊鞔_的定義他的輸入和輸出是什么，然后我們用非常深的神經(jīng)網(wǎng)絡(luò)去擬合一個(gè)函數(shù)f（x）就可以。

　　但在認(rèn)知智能方面，我們不知道如何去定義它，不知道如何去準(zhǔn)備訓(xùn)練數(shù)據(jù)或環(huán)境，換個(gè)說(shuō)法或許是這個(gè)系統(tǒng)太復(fù)雜，以至于我們無(wú)從入手。所以我把大多數(shù)人做的、特別是工業(yè)界研究人工智能的方法概括為方法一。

　　什么是方法一？方法一就是：從實(shí)踐到理論。

　　靠不斷地實(shí)踐來(lái)得到理論，不過(guò)嚴(yán)格意義上講，其實(shí)是沒(méi)理論。由于人工智能這個(gè)大問(wèn)題過(guò)于復(fù)雜，我們也比較現(xiàn)實(shí)地把它拆分為很多很多子問(wèn)題：如語(yǔ)音、視覺(jué)、自然語(yǔ)言等等。這就是我們目前研究人工智能的方法。

　　于是我們問(wèn)自己有沒(méi)有方法二，能不能從理論到實(shí)踐，能不能先有一個(gè)理論，然后應(yīng)用到所有問(wèn)題當(dāng)中去。

　　那現(xiàn)在到底有沒(méi)有這樣的指導(dǎo)性理論呢？我自己是一直不大相信有的，借用我的博士導(dǎo)師沈向洋的一句話：哪兒有那么多隨便就能指導(dǎo)實(shí)踐的理論。

　　大腦皮層給人工智能的啟示

　　直到我最近重新讀了一遍Jeff Hawkins寫(xiě)的《人工智能的未來(lái)On Intelligence》，我有些相信了。這本書(shū)出版于2004年，此前我在2009年讀過(guò)一次。Jeff Hawkins是Palm的創(chuàng)始人，在創(chuàng)立Palm前他已經(jīng)學(xué)習(xí)了很多人腦科學(xué)方面的知識(shí)。他在做Palm賺夠錢(qián)后建立了Numenta研究所，專門(mén)研究機(jī)器智能。他寫(xiě)這本書(shū)的一個(gè)很大動(dòng)機(jī)是對(duì)外闡述他對(duì)機(jī)器智能的理解。

　　書(shū)中寫(xiě)到大腦分為兩部分：大腦皮層和舊腦（古腦）。

　　大腦皮層大概有六層，每層兩毫米厚，鋪開(kāi)的面積可能比桌子還要大，每個(gè)神經(jīng)元和周?chē)某汕习俚纳窠?jīng)元相連接。大腦皮層并不是突然出現(xiàn)，最開(kāi)始爬行動(dòng)物是沒(méi)有大腦皮層的，而在幾千萬(wàn)年前哺乳動(dòng)物開(kāi)始有了大腦皮層，幾百萬(wàn)年前人類的大腦皮層突然增大，使得人和動(dòng)物劃開(kāi)了界限。

　　書(shū)中最讓作者包括我信服的觀點(diǎn)是：人比動(dòng)物聰明，是因?yàn)槿祟惔竽X皮層簡(jiǎn)單迅速地復(fù)制了自己，而不是生成其他特殊的結(jié)構(gòu)；幾百萬(wàn)年的時(shí)間不足以生成一個(gè)特殊的結(jié)構(gòu)。

　　上世紀(jì)70年代曾有人提出這樣一個(gè)觀點(diǎn)：大腦皮層是同質(zhì)的，每個(gè)地方都一樣，這下面可能存在一個(gè)主管我們?nèi)祟愔悄艿耐ㄓ玫乃惴ǎ蝗祟愑胁煌母鞣N感知只是因?yàn)椴煌妮斎肫鞴倥c大腦皮層相連接。

　　而且大腦皮層可以重塑，如果某個(gè)人天生失明，那他原來(lái)主管視覺(jué)部分的皮層可以演化為聽(tīng)覺(jué)部分，大腦皮層的各部分功能不是固定下來(lái)一定要做什么的。

　　大腦皮層的這個(gè)通用算法其實(shí)是在實(shí)時(shí)處理時(shí)-空的神經(jīng)元突觸的電位變化，這里面有個(gè)計(jì)算方法，該計(jì)算方法和計(jì)算機(jī)的計(jì)算方法不同，它不是靠算的。有神經(jīng)學(xué)的分析，人類的大腦的運(yùn)算速度并不快，大腦不是在計(jì)算，而是在記憶中直接提取相似的東西，從而直接回答答案。簡(jiǎn)單來(lái)說(shuō)，人是利用記憶系統(tǒng)來(lái)完成計(jì)算的。

　　我這里列出了書(shū)中對(duì)人類記憶的屬性的描述，時(shí)間關(guān)系就不詳述了。

　　Jeff Hawkins在最后展示他的智能理論新構(gòu)架時(shí)問(wèn)：什么是理解？

　　他舉個(gè)例子，如果我們回到家看到家中的環(huán)境，我們可能不會(huì)特別注意到什么；但家里假如出現(xiàn)一個(gè)新物體，我們的注意力馬上就會(huì)被吸引過(guò)去。Jeff Hawkins做出以下理論解釋：大腦時(shí)時(shí)刻刻都在做著各種預(yù)測(cè)，如果哪個(gè)地方預(yù)測(cè)失敗了，那個(gè)地方可能就是出現(xiàn)了新情況或新物體。此外，大腦皮層還在做各種各樣的從初級(jí)到高級(jí)的預(yù)測(cè)。

　　從理論到實(shí)踐

　　這里有個(gè)非常有意思的故事，當(dāng)年我們寫(xiě)過(guò)一篇關(guān)于圖像修補(bǔ)（Image CompleTIon）的論文，論文的研究?jī)?nèi)容是猜測(cè)被遮擋住物體的后面是什么樣子的。其實(shí)人也在有意識(shí)無(wú)意識(shí)的預(yù)測(cè)這種事。當(dāng)年我們?cè)诤蜕蛳蜓罄蠋熞黄饘?xiě)論文時(shí)就是在預(yù)測(cè)某個(gè)物體的后面是什么，然后把它畫(huà)出來(lái)。

　　《人工智能的未來(lái)》一書(shū)的理論簡(jiǎn)單來(lái)說(shuō)，就是該理論認(rèn)為智能是一個(gè)記憶-預(yù)測(cè)（Memory-PredicTIon）的框架，智能是你能夠利用對(duì)這個(gè)世界模式的記憶和預(yù)測(cè)的能力來(lái)衡量的。圖靈定義圖靈智能，是利用行為來(lái)衡量。而Jeff Hawkins并不同意。

　　我第一次讀過(guò)這本書(shū)后受到很大的啟發(fā)，于是在2011年寫(xiě)過(guò)一篇CVPR論文。論文內(nèi)容是為解決大姿態(tài)下人臉識(shí)別的問(wèn)題：我們構(gòu)建一個(gè)人臉數(shù)據(jù)庫(kù)，構(gòu)建一個(gè)記憶，希望把正面臉和側(cè)面臉通過(guò)記憶連接起來(lái)，這是當(dāng)時(shí)人臉識(shí)別最好的方法。有趣的這篇論文的第一作者是Face++的CEO&創(chuàng)始人印奇。

　　目前在神經(jīng)網(wǎng)絡(luò)的研究中，我們認(rèn)識(shí)到記憶的重要性，如果沒(méi)有記憶，那么訓(xùn)練出來(lái)的系統(tǒng)僅能完成一個(gè)簡(jiǎn)單的f（x），所以目前業(yè)界最近有很多的人工智能最前沿工作均集中在如何實(shí)現(xiàn)有效的記憶機(jī)制，如何存儲(chǔ)不變表示等方面。

　　最后回到報(bào)告的題目，當(dāng)下我們都茍且在方法一上，我以前不是那么相信從理論到實(shí)踐；但現(xiàn)在我相信從理論到實(shí)踐的方法二是存在的，而且就像大腦皮層簡(jiǎn)單復(fù)制自己一樣可能沒(méi)有那么復(fù)雜。方法二的到來(lái)比我們想象的更快。

本站聲明：本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點(diǎn)，本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系本站刪除。

換一批

阿維塔、賽力斯已入股！華為引望可能成“中國(guó)博世”

9月2日消息，不造車(chē)的華為或?qū)⒋呱龈蟮莫?dú)角獸公司，隨著阿維塔和賽力斯的入局，華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字：阿維塔塞力斯華為

[美通社全球TMT]

Trianz與AWS達(dá)成戰(zhàn)略合作協(xié)議，徹底改變?cè)撇捎煤凸芾矸绞?/a>

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布，該公司與Amazon Web Services （AWS）簽訂了...

關(guān)鍵字： AWS AN BSP 數(shù)字化

[美通社全球TMT]

人工智能驅(qū)動(dòng)工具SODA V將顛覆汽車(chē)市場(chǎng)，使汽車(chē)開(kāi)發(fā)時(shí)間和成本降低90%

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車(chē)技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V，這是全球首款涵蓋汽車(chē)工程師從創(chuàng)意到認(rèn)證的所有需求的工具，可用于創(chuàng)建軟件定義汽車(chē)。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字：汽車(chē) 人工智能智能驅(qū)動(dòng) BSP

[美通社全球TMT]

從容應(yīng)對(duì)未知風(fēng)險(xiǎn)----解密亞馬遜云科技的韌性之道

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行，同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn)，如企業(yè)系統(tǒng)復(fù)雜性的增加，頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性，提升韌性，成...

關(guān)鍵字：亞馬遜解密控制平面 BSP

[通信先鋒]

中國(guó)游戲市場(chǎng)開(kāi)始復(fù)蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

8月30日消息，據(jù)媒體報(bào)道，騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字：騰訊編碼器 CPU

[通信先鋒]

獨(dú)立自主！華為董事：致力打造不依賴西方的技術(shù)

8月28日消息，今天上午，2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行，華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字：華為 12nm EDA 半導(dǎo)體

[通信先鋒]

華為張平安：數(shù)字世界話語(yǔ)權(quán)最終由生態(tài)繁榮決定！

8月28日消息，在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上，華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱，數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字：華為 12nm 手機(jī) 衛(wèi)星通信

[美通社全球TMT]

中國(guó)通信服務(wù)公布2024年中期業(yè)績(jī)

要點(diǎn)：有效應(yīng)對(duì)環(huán)境變化，經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升落實(shí)提質(zhì)增效舉措，毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著，戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng)，提升企業(yè)核心競(jìng)爭(zhēng)力堅(jiān)持高質(zhì)量發(fā)展策略，塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字：通信 BSP 電信運(yùn)營(yíng)商數(shù)字經(jīng)濟(jì)

[美通社全球TMT]

NVI技術(shù)創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動(dòng)產(chǎn)業(yè)鏈高速發(fā)展

北京2024年8月27日 /美通社/ -- 8月21日，由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字： VI 傳輸協(xié)議音頻 BSP

[美通社全球TMT]

軟通動(dòng)力與長(zhǎng)三角投資達(dá)成戰(zhàn)略合作共謀數(shù)字生態(tài)新發(fā)展

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上，軟通動(dòng)力信息技術(shù)（集團(tuán)）股份有限公司（以下簡(jiǎn)稱"軟通動(dòng)力"）與長(zhǎng)三角投資（上海）有限...

關(guān)鍵字： BSP 信息技術(shù)