特斯拉訓(xùn)練Autopilot 完全自動駕駛車輛的前景晦澀難明
據(jù)外媒報道,貼標(labeling)將助力機器學(xué)習(xí)的運行。單個標簽?zāi)芟蛉斯ど窠?jīng)元網(wǎng)絡(luò)說明給定輸入信息的正確輸出值。
舉個例子,視頻中空閑車道的像素會被貼上「自由空間/可用空間」的標簽。與車輛、行人、人行道、交通錐標、障礙物等所對應(yīng)的像素則不得被標記為「自由空間/可用空間」。鑒于有足量的標簽示例,神經(jīng)元網(wǎng)絡(luò)非常善于學(xué)習(xí)與路面及障礙物相對應(yīng)的像素圖形種類。
在展示的一段新視頻中,經(jīng)訓(xùn)練的神經(jīng)元網(wǎng)絡(luò)可給出正確的輸出結(jié)果,使得自動駕駛車輛能夠了解哪些地方可實現(xiàn)自動駕駛車輛的安全行駛,哪些地方則無法做到這一點。以下視頻展示了特斯拉系統(tǒng)對「自由空間/可用空間」的理解,其采用綠色來表示:
默認的視頻貼標實現(xiàn)方式是聘用相關(guān)人員來對視頻像素內(nèi)容進行人工貼標工作,然而,該方式代價太高昂了,因為手動貼標非常耗時,而所需標記數(shù)據(jù)的數(shù)量十分巨大。若我們有其他方式完成數(shù)據(jù)貼標,會怎樣做呢?
通用高管闡述自動貼標理念
事實證明,我們已經(jīng)找到了替代性方案。通用旗下的自動駕駛汽車子公司——Cruise 的總裁兼首席技術(shù)官 Kyle Vogt 最近簡述了其基本理念:
我們?nèi)缃袼龅墓ぷ?,更多的是自動貼標。我的意思是,基本上,要將人工貼標(human labeling)從工作回路中剔除掉。
真正讓我感到有意思的是,我們可以從車輛駕駛方式中推斷出很多內(nèi)容。若車輛駕駛未曾出現(xiàn)過任何錯誤,那么就能從中推斷出車輛駕駛中所暗含的正確(操作)事項。當自動駕駛車輛能夠在大體上保持駕駛操作的正確性,車內(nèi)的乘客就會說「你干得不錯啊!」對于我個人而言,這意味著車輛需要獲得非常豐富的信息源。
沃格特繼續(xù)說道:「若您是公司方,且您的業(yè)務(wù)模式仍依賴于數(shù)據(jù)的人工貼標,那么您公司將被某些競爭對手的公司碾壓,因為后者正在思考應(yīng)如何采用新方式來重新梳理數(shù)據(jù)貼標,確保其不必為了這類數(shù)據(jù)標簽耗費太多精力或直接剔除工作回路中的人工貼標環(huán)節(jié)?!?/p>
那么,若采用人工駕駛習(xí)慣來完成對「自由空間/可用空間」的自動貼標呢?在 2018 年發(fā)布的一篇論文中,計算機視覺研究人員(含兩名印第安納大學(xué)的研究人員)作出了探索嘗試。
人類駕駛員很少會撞上障礙物,他(她)們幾乎始終在空閑車道行駛。因此,人工駕駛可被用作「自由空間/可用空間」的(自動)貼標途徑。研究人員將這類自動貼標與視線中可看到的「自由空間/可用空間」推定相結(jié)合。此外,該方法的自動貼標技術(shù)精度達到了手動貼標方式精度的 98%。
特斯拉在自動貼標領(lǐng)域的優(yōu)勢
特斯拉自今年初開始公開強調(diào)自動貼標的重要性,埃隆馬斯克在今年 2 月份的采訪中表示:「我們開始使用自動貼標方式,效果確實比人工貼標要好。就我個人而言,當駕駛員將車輛駛向十字路口時,該操作行為在訓(xùn)練 Autopilot,告知其在遇到十字路口時所需完成的操作。」
在今年 4 月的「自動駕駛?cè)铡梗ˋutonomy Day)特斯拉人工智能部門的高級主管 Andrej Karpathy 反復(fù)探討特斯拉是如何使用自動貼標的。以下視頻為其中的一個示例:
我們不妨回顧下今年 2 月特斯拉 Autopilot 團隊發(fā)布的崗位說明,特斯拉當時在尋找應(yīng)聘人員,要求后者能夠設(shè)計新方法,從而使用可輕松標記好(lightly labeled)的海量貼標數(shù)據(jù)。
這類對「自由空間/可用空間」的自動貼標似乎與特斯拉的慣用做法非常契合。相較于前文所提及的研究人員,特斯拉所能接觸到的數(shù)據(jù)量更加豐富。舉個例子,特斯拉能夠探查到急剎車及車輛碰撞的其他標志。從理論上講,該方法或許還能清除特斯拉車輛未進入「自由空間/可用空間」的那些示例。
特斯拉的數(shù)據(jù)不但豐富,還非常充裕。
截止至今年底,特斯拉將擁有近 70 萬輛配有環(huán)視攝像頭的特斯拉車輛在路面上行駛,其車輛搭載了第二代或第三代車載計算機。
這類車輛的月平均行駛里程數(shù)逾 1000 英里/輛(約合 1609.3 公里/輛),而這類的總行駛里程數(shù)逾 7 億英里/月(約合 11.27 億公里/月)。
相較之下,Waymo 車隊只有 600 輛自動駕駛車輛,這是全球最大的自動駕駛路測車隊。在美國,將所有公司的自動駕駛測試車輛匯總后,其總數(shù)才不過近 1400 輛。即便這 1400 輛自動駕駛測試車輛全天候無停歇地行駛,且平均車速保持在 70 英里/小時(約合 112.65 公里/小時),每月的測試里程總數(shù)也只有近 7000 萬英里(約合 1.127 億公里)。
懷疑論者恰巧指出,若特斯拉對其車隊所采集的視頻數(shù)據(jù)進行手動貼標,細化到「每英里」這一層級,從經(jīng)濟角度看,手動貼標并不具有可行性。然而,自動貼標有望完成更高大數(shù)量的數(shù)據(jù)標貼工作。
百度的研究使得我們對神經(jīng)元網(wǎng)絡(luò)精度等級與貼標訓(xùn)練數(shù)據(jù)間的關(guān)聯(lián)性有了大致的了解。在對圖像內(nèi)的多個目標物進行分類時,當各指令所對應(yīng)的貼標訓(xùn)練示例的數(shù)量呈倍數(shù)增長時,其精度大致能翻番。因此,當上述數(shù)據(jù)量翻十倍,精度翻兩倍。當數(shù)量翻百倍,精度翻四倍,當數(shù)據(jù)量翻千(10 的三次方)倍,精度翻八( 2 的三次方)倍,以此類推。(當數(shù)據(jù)量翻 10 的 X 次方倍,精度則翻 2 的 X 次方倍)。
而對「自由空間/可用空間」識別的增長速率可能更高。
對「自由空間/可用空間」的識別工作屬于二進制,一個像素,要么對應(yīng)「自由空間/可用空間」,要么對應(yīng)「非自由空間/非可用空間」。相較之下,百度更關(guān)注如何從上千種可能性中挑選出正確的目標物類別。這類測試的精度標準更顯寬容性,若能將其正確地歸入到五大猜測類型中,神經(jīng)元網(wǎng)絡(luò)就會視其為正確的分類(貼標)。采用這類方法,訓(xùn)練精度每翻四倍,精度則翻倍。例如,若數(shù)據(jù)量翻 4 倍,精度翻 2 倍。若數(shù)據(jù)量翻 16 倍,精度翻 4 倍。若數(shù)據(jù)量翻 64 倍,則精度翻 8 倍,以此類推。
除了識別「自由空間/可用空間」,特斯拉還可能將自動貼標用于其他計算機視覺任務(wù)。那么,將人工駕駛行為用于對交通燈的貼標輔助會怎樣呢?
當駕駛員驅(qū)車時,交通燈通常處于綠燈狀態(tài)。當駕駛員停車時,交通燈通常處于紅燈或黃燈狀態(tài)。當然,這類標簽也會存在一點「雜音」,畢竟駕駛員偶爾也會在紅燈時行駛,但研究人員表明,即便存在這類「雜音」標簽,該舉措也能大幅提升操作的精度。自動貼標并不需要排斥手動貼標,相反,自動貼標可被用作手動貼標的輔助手段。
顯然,手動貼標也是特斯拉機器學(xué)習(xí)流程的一個重要環(huán)節(jié)。Andrej Karpathy在「自動駕駛?cè)铡够顒又袑Υ俗鞒隽私忉?。當談到對視頻或圖像進行手動分類貼標時,特斯拉車輛的規(guī)模性是一大恩賜(優(yōu)勢)。
凱勒·沃格特表示:「我們需要海量的數(shù)據(jù)和駕駛(測試),原因在于試圖最大限度地獲取我們當前所持有數(shù)據(jù)組的熵值并確保其多樣性。從本質(zhì)上講,熵值代表了數(shù)據(jù)的意外性、新穎性或不可預(yù)知性?!?/p>
一組研究人員設(shè)計了一種新方法,從原始的、未經(jīng)貼標的視頻中發(fā)現(xiàn)新的目標物類別。該技術(shù)或類似技術(shù)有望幫助特斯拉從車隊里程數(shù)中提取大量罕見的邊界用例(rare edge cases)。即使對圖像或視頻均采用手動貼標,特斯拉數(shù)據(jù)組的熵值和多樣性也更高。
除了計算機視覺領(lǐng)域外,特斯拉還能將自動貼標應(yīng)用到其他領(lǐng)域。當談到預(yù)測道路用戶的行為時,很容易想到自動貼標技術(shù)。未來將為過去貼上標簽。特斯拉可利用海量的行駛里程數(shù)來改進預(yù)測精度,且無需進行任何手動貼標。
當談到仿效上路行駛的人工駕駛操控時,也會產(chǎn)生數(shù)量充足的自動標簽。駕駛員憑借其駕駛操作,自動完成貼標操作(該類標簽?zāi)軌虮卉囕d計算機視覺系統(tǒng)所識別),這就是所熟知的仿效學(xué)習(xí)(imitation learning)。特斯拉利用車隊還學(xué)習(xí)人類駕駛員的駕駛方式。
由于特斯拉車隊的行駛里程數(shù)遠高于競爭者車隊行駛里程數(shù)的總和,特斯拉可以使用自動貼標技術(shù)來提升計算機視覺、行人預(yù)測及駕駛操作習(xí)慣(通常被稱為“規(guī)劃”)的性能表現(xiàn)?;谏鲜龅陌俣妊芯砍晒厮估跈C器學(xué)習(xí)任務(wù)若采用自動貼標,或?qū)⑻嵘龜?shù)據(jù)的數(shù)量級及其精度,超越其他競爭對手。
我認為,完全自動駕駛車輛的前景還有些晦澀難明。
今年 6 月,Cruise 的一份內(nèi)部報告被泄露給媒體了。該報告涵蓋了 Cruise 的預(yù)期:到 2019 年末,相較于人工駕駛的安全性,其自動駕駛車輛的安全性只能達到前者水平的 5%-11% 。從某個角度看,這一點令人頗感失望。從另一個角度看,這卻是個鼓舞人心的好消息。若 Cruise 能在今年末達到其預(yù)期目標,這意味著「只」需要進一步提升 10 倍或 20 倍的安全性水平就能達到人工駕駛的平均水平。
在本文中,像特斯拉這類公司是能夠利用自動貼標和大規(guī)模車隊學(xué)習(xí)的,這類舉措或?qū)⒋蠓嵘c自動駕駛相關(guān)數(shù)據(jù)的數(shù)量級及機器學(xué)習(xí)任務(wù)的數(shù)量。
完全自動駕駛套件及 Cybertruck 為特斯拉帶來的機遇
完全自動駕駛車輛的金融機遇非常大。
在軟件成本方面(如:幾近于零的邊際成本),消費型車輛將轉(zhuǎn)型為盈利性無人駕駛出租車。麥肯錫的分析師預(yù)計,僅洛杉磯一地,無人駕駛出租車將產(chǎn)生 200 億美元(約合 1408 億元)的年收入。此外,麥肯錫還預(yù)測,若結(jié)合無人駕駛出租車及完全自動駕駛的私家車,中國市場的年收入或?qū)⒏哌_ 2 萬億美元(約合 14.08 萬億元)。
然而,一定程度的自動駕駛也不應(yīng)被忽視。若將機器學(xué)習(xí)與人工監(jiān)管、人為操作介入相結(jié)合,也能夠為用戶提供安全、愉悅的駕駛出行服務(wù)。如今,自動駕駛市場競爭激烈,人類與計算機有時需要攜手合作,類似于「在人類與機器人間展開的國際象棋賽(cyborg chess)」。在不遠的將來,我們可能會看到「半人半機器的駕駛(cyborg driving)」,這類人機結(jié)合的方式可同時利用人工神經(jīng)元網(wǎng)絡(luò)和生物體(人類)各自的優(yōu)勢。
從實用的財務(wù)角度考量,這意味著特斯拉完全駕駛功能(Full Self-Driving Capability)軟件選配件擁有較高的轉(zhuǎn)換率(盈利能力,take rate),這得益于該項選配件所帶來的收入,可能與其較高的定價及特斯拉車輛需求增長有關(guān)??偠灾?,該選配件可為特斯拉帶來較高的收入和毛利率。
此外,特斯拉 Cybertruck 的未來主義設(shè)計風(fēng)格也引發(fā)了熱議,口碑呈現(xiàn)兩極分化。
Cybertruck 和《銀翼殺手》(Blade Runner)的風(fēng)格較像,預(yù)計首批 Cybertruck 的交付時間要等到 2021 年的年末后。到那時,我認為很可能還會推動先進城市駕駛功能的涌現(xiàn),該類功能勢必也具有未來主義風(fēng)格,就像其外觀一樣超前。Cybertruck 使得人機結(jié)合駕駛變得更有意義,但這要取決于 Cybertruck 的受歡迎程度。據(jù)我個人預(yù)計,未來特斯拉或?qū)⑼瞥?Cybercar 和 CyberSUV。
在我們享受無人駕駛出租車服務(wù)或成為半人半機器(cyborg drivers)駕駛員前,特斯拉還有一堆人工的設(shè)計及研發(fā)工作需要完成,這需要花時間。在特斯拉的研發(fā)進程中,并非所有的進程都能實現(xiàn)自動化,這一點難以預(yù)計。
如今,我們能做的就是等待并觀察特斯拉向旗下車隊發(fā)布的軟件升級包及其新增功能。