(文章來源:VR陀螺)
隨著Oculus將于2020年初在Quest中加入手勢識別功能這一消息發(fā)布,手勢交互終于打破局面,開始真正走向消費端。此次Oculus Quest手勢識別使用了基于計算機視覺的手勢識別的技術方案。(感謝凌感科技uSens費越博士對本文技術部分的支持)
VR陀螺從費越博士口中了解到,目前基于計算機視覺的手勢方案實際上也分為兩種:一種是用深度攝像頭,一種是用一個或者多個普通攝像頭實現(xiàn)。而其中深度攝像頭的方案又分為兩種,TOF(Time of Flight,光飛時間)和結構光。實際上結構光,或者TOF輸出的東西基本一樣,都是一張深度圖。
相對于兩種使用深度攝像頭的方案,基于一個或多個普通攝像頭實現(xiàn)的手勢識別難度更高,但得益于技術發(fā)展,其在精度、成本綜合性能上正在成為主流。 業(yè)內的Leap MoTIon、凌感uSens就是使用這種方案,Oculus Quest也是使用原有的用于SLAM和手柄跟蹤的四個灰度攝像頭用深度學習算法來實現(xiàn)的手勢識別。
凌感uSens自2015年就開始使用深度學習技術實現(xiàn)手勢識別,并在2017年發(fā)布了和Oculus Quest類似的基于灰度攝像頭的手勢識別及SLAM方案。 不久前凌感還研發(fā)發(fā)布了單目RGB相機上的三維手勢骨骼識別,可識別手部全部22個關節(jié)點的26DOF(26自由度)信息,關節(jié)點包括3D位置信息和3D旋轉信息。在單目RGB相機上實現(xiàn)三維手勢骨骼識別相對于多個灰度相機的方案來說算法的難度更高。
近年來TOF方案在手機上應用越來越廣泛,也是最容易實現(xiàn)深度信息的方案,但在VR、AR設備上卻幾乎沒有。原因可以從以下幾個方面來看:另外,對手勢識別精度起到?jīng)Q定性的還有兩個因素:一個是模型是否好,只有好的模型才能預測出來更多3D的點。第二是需要有足夠的高精度的數(shù)據(jù),才能訓練出來好的模型。
實際上在使用基于計算機視覺方案之前,Oculus Touch手柄已經(jīng)實現(xiàn)了一部分手勢動作,如握拳、豎拇指、開槍等手勢,包括Valve Index的指虎手柄,也是為了在游戲中呈現(xiàn)更為自然的手部動作。Quest加入手勢識別,意味著這一技術終于真正開始面向消費端用戶,也將帶來更多開發(fā)者針對這一交互開發(fā)探索出更多的內容形態(tài)。
費越也提到,凌感的手勢識別目前主要應用在三大領域,以AR、VR、手機為主的2C領域,汽車領域以及工業(yè)自動化領域,其中VR、AR、手機領域需求增長非常迅速。“交互的最終形態(tài)不需要定義,他做的就是人在真實世界里面要做的事情?!盫R、AR的獨特之處在于沉浸感,而在沉浸環(huán)境中,最自然的交互莫過于與現(xiàn)實中一樣,揮手打招呼、猜拳、握手、抓取、擊掌……
從智能終端的發(fā)展來看,從PC到手機,一切都在簡化,特別是在智能手機時代,交互簡化到只需要滑動、點擊,就連2、3歲的小孩都能輕易上手。VR、AR的交互復雜,也代表著用戶的學習成本越高,同時也容易“出戲”?,F(xiàn)在除了純觀影類的內容之外,幾乎所有帶交互內容都需要一定的學習過程,用戶需要在體驗過程中記住每個按鍵所對應的功能。
而在諸如模擬、社交類這類的內容中,越接近真實的場景對于手勢越有優(yōu)勢,開發(fā)者可拓展性也更強。手勢在需要觸覺反饋的體驗上無法取代手柄,而手柄也無法自然地實現(xiàn)手部動作的呈現(xiàn)以及復雜的手部姿態(tài),但從毋庸置疑的是未來手勢將會變成XR設備中不可或缺的一種交互方式,越來越普及。