設(shè)計(jì)一個(gè)樹莓派手語翻譯
使用自定義ML模型的實(shí)時(shí)手語字母檢測(cè)器,直接在帶有樹莓派的索尼IMX500 AI相機(jī)上處理。
在曼徹斯特大學(xué)的“黑客機(jī)器人”社團(tuán)活動(dòng)中,我們著手建造一些有意義的東西——一些能夠真正幫助人們的東西。有超過100名學(xué)生參與,只有24小時(shí)完成我們的項(xiàng)目,我們希望我們的項(xiàng)目不僅因?yàn)樗募夹g(shù),而且因?yàn)樗哪康亩摲f而出。
我們的想法嗎?一個(gè)可以識(shí)別手語字母的系統(tǒng),只需要一個(gè)樹莓派和索尼IMX500人工智能攝像頭。沒有外部服務(wù)器。沒有云處理。只是純粹的邊緣AI。
我們最初嘗試使用MediaPipe庫進(jìn)行手部追蹤。雖然它為我們提供了一個(gè)良好的起點(diǎn),但對(duì)于我們心目中的特定任務(wù)來說,它不夠準(zhǔn)確或靈活。所以,我們轉(zhuǎn)向了——這才是真正的學(xué)習(xí)開始的時(shí)候。
我們使用TensorFlow構(gòu)建了一個(gè)自定義的機(jī)器學(xué)習(xí)模型。為了訓(xùn)練它,首先,我們用已經(jīng)存在的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。在意識(shí)到這些不能真正滿足我們的目的后,我們收集了自己的數(shù)據(jù)集,捕捉了我們的手形成不同手語字母的圖像。這是一個(gè)重復(fù)的過程——拍照、貼標(biāo)簽、訓(xùn)練、調(diào)整——但它使我們能夠控制數(shù)據(jù)的質(zhì)量和特異性。
技術(shù)管道需要幾個(gè)關(guān)鍵步驟:
?設(shè)計(jì)和訓(xùn)練自定義分類器
?應(yīng)用量化使模型輕量化
?編譯和包裝正確,直接在IMX500相機(jī)上運(yùn)行
這個(gè)項(xiàng)目最棒的部分,以及這個(gè)集成了人工智能的相機(jī),是相機(jī)本身完成了繁重的工作。該模型在索尼IMX500上本地運(yùn)行,不需要單獨(dú)的GPU或云處理——一切都在設(shè)備上實(shí)時(shí)發(fā)生。
如果我們要進(jìn)一步推進(jìn)這個(gè)項(xiàng)目,我們會(huì)考慮實(shí)現(xiàn)手分割來提高預(yù)測(cè)的準(zhǔn)確性。這將有助于模型更好地將手從背景中分離出來,減少噪音,提高在不同條件下的檢測(cè)能力。
本文編譯自hackster.io