用于可擴展和節(jié)能 AI 的基于憶阻器交叉開關(guān)的學習系統(tǒng)
得克薩斯 A&M 大學、Rain Neuromorphics 和桑迪亞國家實驗室的研究人員最近設計了一種新系統(tǒng),可以更有效地更大規(guī)模地訓練深度學習模型。該系統(tǒng)在Nature Electronics上發(fā)表的一篇論文中介紹,它依賴于使用新的訓練算法和憶阻器交叉開關(guān)硬件,可以同時執(zhí)行多項操作。
“大多數(shù)人將 AI 與智能手表的健康監(jiān)測、智能手機的人臉識別等聯(lián)系起來,但就消耗的能量而言,大多數(shù) AI 都需要訓練 AI 模型來執(zhí)行這些任務,”資深作者 Suhas Kumar 說道。這項研究告訴 TechXplore。
“訓練發(fā)生在倉庫大小的數(shù)據(jù)中心,這在經(jīng)濟和碳足跡方面都非常昂貴。只有經(jīng)過充分訓練的模型才會下載到我們的低功耗設備上?!?
從本質(zhì)上講,Kumar 和他的同事著手設計一種方法,可以減少與 AI 模型培訓相關(guān)的碳足跡和財務成本,從而使其大規(guī)模實施更容易、更可持續(xù)。為此,他們必須克服當前 AI 培訓實踐的兩個關(guān)鍵限制。
這些挑戰(zhàn)中的第一個與使用基于圖形處理單元 (GPU) 的低效硬件系統(tǒng)有關(guān),這些系統(tǒng)本身并不是為運行和訓練深度學習模型而設計的。第二種需要使用低效且數(shù)學運算量大的軟件工具,特別是利用所謂的反向傳播算法。
“我們的目標是使用新硬件和新算法,”Kumar 解釋道?!拔覀兝昧酥?15 年在基于憶阻器的硬件(GPU 的高度并行替代方案)方面的工作,以及類腦高效算法(一種非反向傳播局部學習技術(shù))的最新進展。盡管硬件和軟件方面的進步之前已經(jīng)存在,我們對它們進行了代碼設計,使其能夠相互協(xié)作,從而實現(xiàn)非常高效的 AI 訓練。”
深度神經(jīng)網(wǎng)絡的訓練需要不斷調(diào)整其配置,包括所謂的“權(quán)重”,以確保它能夠以更高的準確性識別數(shù)據(jù)中的模式。這種適應過程需要大量的乘法運算,而傳統(tǒng)的數(shù)字處理器很難有效地執(zhí)行這些運算,因為它們需要從單獨的存儲單元中獲取與重量相關(guān)的信息。
“今天幾乎所有的訓練都是使用反向傳播算法進行的,該算法采用大量數(shù)據(jù)移動和求解數(shù)學方程式,因此適用于數(shù)字處理器,”該研究的主要作者 Suin Yi 告訴 TechXplore。
“作為一種硬件解決方案,近十年來出現(xiàn)的模擬憶阻器交叉開關(guān)能夠?qū)⑼挥|權(quán)重嵌入到計算發(fā)生的同一位置,從而最大限度地減少數(shù)據(jù)移動。但是,傳統(tǒng)的反向傳播算法適用于高精度數(shù)字硬件,由于硬件噪聲、錯誤和精度有限,與憶阻器交叉開關(guān)不兼容?!?
由于傳統(tǒng)的反向傳播算法不太適合他們設想的系統(tǒng),Kumar、Yi 和他們的同事開發(fā)了一種新的共同優(yōu)化學習算法,該算法利用了憶阻器交叉開關(guān)的硬件并行性。該算法的靈感來自于神經(jīng)科學研究中觀察到的神經(jīng)元活動差異,它容錯并復制了大腦的學習能力,甚至可以從稀疏、定義不明確和“嘈雜”的信息中學習。
“我們的算法-硬件系統(tǒng)研究了神經(jīng)網(wǎng)絡中合成神經(jīng)元在兩種不同條件下的不同行為方式的差異:一種是允許它以自由方式產(chǎn)生任何輸出,另一種是我們強制輸出成為目標我們想要識別的模式,”易解釋道。
“通過研究系統(tǒng)響應之間的差異,我們可以預測使系統(tǒng)得出正確答案所需的權(quán)重,而無需強迫它。換句話說,我們避免了復雜的數(shù)學方程反向傳播,使過程更具噪聲彈性,并啟用本地培訓,這就是大腦學習新任務的方式。”
因此,作為本研究的一部分而開發(fā)的受大腦啟發(fā)且與模擬硬件兼容的算法最終可以在具有小電池的邊緣設備中實現(xiàn) AI 的節(jié)能實施,從而消除對消耗大量電力的大型云服務器的需求。這最終可能有助于使深度學習算法的大規(guī)模訓練變得更加實惠和可持續(xù)。
“我們用來訓練神經(jīng)網(wǎng)絡的算法結(jié)合了深度學習和神經(jīng)科學的一些最佳方面,以創(chuàng)建一個可以使用低精度設備非常有效地學習的系統(tǒng),”該論文的另一位作者 Jack Kendall 告訴 TechXplore。
“這有很多意義。首先是,使用我們的方法,可以將目前太大而無法部署的 AI 模型制作成適合手機、智能手表和其他不受限制的設備。另一個是這些網(wǎng)絡現(xiàn)在可以學習——即時,在部署時,例如考慮不斷變化的環(huán)境,或?qū)⒂脩魯?shù)據(jù)保存在本地(避免將其發(fā)送到云端進行培訓)?!?
在初步評估中,Kumar、Yi、Kendall 和他們的同事 Stanley Williams 表明,與當今市場上最好的 GPU 相比,他們的方法可以將與 AI 訓練相關(guān)的功耗降低多達 100,000 倍。未來,它可以將海量數(shù)據(jù)中心轉(zhuǎn)移到用戶的個人設備上,減少與人工智能訓練相關(guān)的碳足跡,并促進更多支持或簡化人類日?;顒拥娜斯ど窠?jīng)網(wǎng)絡的發(fā)展。
“我們接下來計劃研究這些系統(tǒng)如何擴展到更大的網(wǎng)絡和更困難的任務,”肯德爾補充道?!拔覀冞€計劃研究各種用于訓練深度神經(jīng)網(wǎng)絡的類腦學習算法,并找出其中哪些算法在不同的網(wǎng)絡和不同的硬件資源限制下表現(xiàn)更好。我們相信這不僅會幫助我們了解如何在資源受限的環(huán)境中最好地進行學習,但它也可以幫助我們了解生物大腦如何能夠以如此令人難以置信的效率學習?!?