北京大學+北京微電子技術研究所最新綜述：當機器學習遇見EDA | 《電子與信息學報》佳文速遞

時間：2022-09-25 19:12:29

關鍵字： EDA 機器學習

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]隨著硅工藝發(fā)展接近物理極限，用來刻畫工藝演進速度的摩爾定律也開始被打破，半導體行業(yè)迎來了后摩爾時代。然而集成電路芯片產(chǎn)業(yè)并沒有因此而停滯發(fā)展，現(xiàn)場可編程門陣列（Field Programmable Gate Array, FPGA）由于所具有的高度靈活、可定制以及支持高并發(fā)等特性，被廣泛應用于后摩爾時代的各個領域。

編者按

來自北京大學與北京微電子技術研究所的研究團隊在《電子與信息學報》發(fā)表最新綜述文章：

基于機器學習的FPGA電子設計自動化技術研究綜述>>

文章討論了機器學習技術在FPGA中的應用，涉及到高層次綜合、邏輯綜合及布局布線等多個層面。

審稿專家意見：該選題有較高的價值，對于后續(xù)學術研究和應用均有一定幫助，通過閱讀這篇論文能對機器學習在FPGA自動化應用上有整體的了解；且FPGA與當前熱門的機器學習相結合，對FPGA的智能化發(fā)展具有一定的指導作用。

引言

隨著硅工藝發(fā)展接近物理極限，用來刻畫工藝演進速度的摩爾定律也開始被打破，半導體行業(yè)迎來了后摩爾時代。然而集成電路芯片產(chǎn)業(yè)并沒有因此而停滯發(fā)展，現(xiàn)場可編程門陣列（Field Programmable Gate Array, FPGA）由于所具有的高度靈活、可定制以及支持高并發(fā)等特性，被廣泛應用于后摩爾時代的各個領域。

與此同時，為了能夠適應更加復雜的電路系統(tǒng)，F(xiàn)PGA芯片的集成度也在不斷增大，從最初只包含有幾千個邏輯門的單功能芯片發(fā)展到了現(xiàn)今集成了數(shù)據(jù)信號處理（Digital Signal Processing, DSP）單元、塊隨機存取存儲器（Block Random Access Memory, BRAM）以及多核微處理器的片上系統(tǒng)，F(xiàn)PGA芯片的集成度增加了數(shù)萬倍。

如此高的芯片集成度使得手動進行電路設計已經(jīng)不現(xiàn)實，開發(fā)設計人員更加依賴于電子設計自動化（Electronic Design Automation, EDA）工具對FPGA數(shù)字集成電路進行設計。

但隨著FPGA芯片規(guī)模的不斷增大以及片上設計復雜度的不斷提升，例如，AMDXilinx發(fā)布的Virtex Ultra Scale+VU19P FPGA，其包含900萬個邏輯單元以及近350億個晶體管，而Intel發(fā)布的Stratix10 GX 10M FPGA，更是包含了1020萬個邏輯單元以及近430億個晶體管，基于傳統(tǒng)的分析和優(yōu)化的FPGA EDA技術越來越難以應對大規(guī)模電路設計空間探索和算法求解復雜度問題，亟需探索以機器學習為代表的智能化EDA技術，大幅提升設計實現(xiàn)效率。

可喜的是，國內(nèi)外學者針對基于機器學習方法的FPGA EDA技術的研究已經(jīng)取得了具有前瞻性的研究成果和進展。來自北京大學與北京微電子技術研究所的田春生博士后研究團隊在《電子與信息學報》發(fā)表最新綜述文章《基于機器學習的FPGA電子設計自動化技術研究綜述》。

文章分析梳理了近年來應用機器學習解決FPGA EDA中一些關鍵問題的研究成果，對FPGA EDA和機器學習的背景知識進行了簡要概述，調(diào)研了機器學習在FPGA EDA流程不同階段應用的研究現(xiàn)狀，即高層次綜合（High Level Synthesis, HLS）、邏輯綜合、布局以及布線，在此基礎上對機器學習未來在FPGAEDA技術中的應用進行了展望。

FPGA EDA技術概述

作為FPGA芯片設計、應用過程中不可或缺的重要組成部分，在過去的30余年中，F(xiàn)PGA EDA的設計流程變得越來越規(guī)范且復雜，具體包括高層次綜合（HighLevel Synthesis, HLS）、邏輯綜合、布局、布線以及碼流生成，如圖1所示。

圖1 FPGA EDA基本流程

HLS是指將高層次語言描述的邏輯結構自動轉換成低抽象級語言描述的電路模型的過程，即HLS能夠將C、C++、SystemC等具有較高的抽象度、且不具備時鐘或時序概念的高層次語言自動轉化為Verilog、VHDL、System Verilog等低層次語言。

由于Verilog、VHDL、System Verilog能夠用來描述時鐘周期精確的寄存器傳輸級（Register Transfer Level, RTL）電路模型，是當前FPGA設計中最為普遍適用的電路建模與描述方式。

HLS技術的應用可以提高設計速度、縮短設計周期，方便設計者在系統(tǒng)級進行設計方案的探索、在算法級對設計進行優(yōu)化。

邏輯綜合能夠將HDL文件轉換為描述指定FPGA器件上不同邏輯單元連接關系的網(wǎng)表文件，需要指出的是，網(wǎng)表中的連接關系只是邏輯連接，即邏輯綜合工具只是給出了所需實現(xiàn)的設計的一個“草圖”，這個“草圖”最終需要由FPGA芯片中可用的邏輯資源來實現(xiàn)。邏輯綜合是一個非常復雜的過程，通常情形下只能通過啟發(fā)式方法來得到一個次優(yōu)的解決方案。

布局是指在一定的約束條件下（例如，線長、時延、功耗以及面積等），將邏輯綜合過程得到的電路網(wǎng)表中的邏輯單元與實際FPGA芯片中的物理位置建立一對一映射的過程。布局作為FPGA EDA流程中的關鍵環(huán)節(jié)，同時也是FPGA編譯過程中最耗時的步驟之一。

由于FPGA中的布線資源都是預置的、且容量有限，一旦布局算法的解需要過多的布線資源，后續(xù)的布線過程將會失敗或是需要很長的時間才會得到一個可行的布線解決方案，因此，一個好的布局解決方案對于FPGA EDA的工作流程至關重要。

布線能夠在保證資源合法使用的前提下，通過配置FPGA芯片中的可編程開關，從而通過利用硬連線資源連通電路線網(wǎng)中所有的邏輯連接。與此同時，為了保證最終在FPGA芯片實現(xiàn)后的電路設計中的邏輯信號的正常傳輸，不同線網(wǎng)間的邏輯連接不能夠共享相同的硬連線資源。

執(zhí)行完布線操作后，便可以生成二進制的碼流文件，將其下載到芯片內(nèi)部，最終完成FPGA的配置流程。

得益于學術界和工業(yè)界30余年的努力，F(xiàn)PGA芯片的設計流程得到了很好的發(fā)展。然而，隨著FPGA芯片規(guī)模的不斷增長，亟需引入更加高效的設計方法來降低設計成本、提升設計效率以及QoR。

近年來，機器學習技術的飛速發(fā)展為解決上述問題提供了一個全新的視角。本文綜述了機器學習技術在FPGA EDA HLS、邏輯綜合、布局、布線等流程中的應用情況，并對發(fā)展趨勢進行了總結，希冀為未來FPGA EDA技術的發(fā)展起到一定促進作用。

研究進展

高層次綜合技術

為了提高設計效率并向更廣泛的用戶群體推廣FPGA，高層次綜合工具應運而生。高層次綜合工具接受高級語言（例如C、C++以及SystemC）作為輸入，能夠將其自動轉換為Verilog或VHDL等形式的硬件描述語言。

但隨著片上設計復雜度的不斷提升，如何在保證HLS工具輸出結果質量的同時減少HLS所需花費的時間、提升設計空間的探索效率是現(xiàn)階段迫切需解決的關鍵問題。

機器學習技術的引入為解決上述問題提供了一種新的思路。機器學習技術在HLS中的應用主要包括性能評估以及設計空間的探索等兩方面，具體如表1所示。

表1中文獻（上下滑動瀏覽）

[28] DAI S, ZHOU Yuan, ZHANG Hang, et al. Fast and accurate estimation of quality of results in high-level synthesis with machine learning[C]. The 26th Annual International Symposium on Field-Programmable Custom Computing Machines (FCCM), Boulder, USA, 2018: 129–132. doi: 10.1109/FCCM.2018.00029.

[29] MAKRANI H M, FARAHMAND F, SAYADI H, et al. Pyramid: Machine learning framework to estimate the optimal timing and resource usage of a high-Level synthesis design[C]. The 29th International Conference on Field Programmable Logic and Applications (FPL), Barcelona, Spain, 2019: 397–403. doi: 10.1109/FPL.2019.00069.

[30] FARAHMAND F, FEROZPURI A, DIEHL W, et al. Minerva: Automated hardware optimization tool[C]. 2017 International Conference on ReConFigurable Computing and FPGAs (ReConFig), Cancun, Mexico, 2017: 1–8. doi: 10.1109/RECONFIG.2017.8279804.

[31] USTUN E, DENG Chenhui, PAL D, et al. Accurate operation delay prediction for FPGA HLS using graph neural networks[C]. The 39th International Conference on Computer-Aided Design, San Diego, USA, 2020: 87. doi: 10.1145/3400302.3415657..

[32] MAKRANI H M, SAYADI H, MOHSENIN T, et al. XPPE: Cross-platform performance estimation of hardware accelerators using machine learning[C]. The 24th Asia and South Pacific Design Automation Conference, Tokyo, Japan, 2019: 727–732. doi: 10.1145/3287624.3288756.

[33] O’NEAL K, LIU M, TANG H, et al. HLSPredict: Cross platform performance prediction for FPGA high-level synthesis[C]. 2018 IEEE/ACM International Conference on Computer-Aided Design (ICCAD), San Diego, USA, 2018:1–8. doi: 10.1145/3240765.3240816.

[34] LIU Dong and SCHAFER B C. Efficient and reliable High-Level Synthesis design space explorer for FPGAs[C]. The 26th International Conference on Field Programmable Logic and Applications (FPL), Lausanne, Switzerland, 2016: 1–8.doi: 10.1109/FPL.2016.7577370.

[35] LIU H Y and CARLONI L P. On learning-based methods for design-space exploration with high-level synthesis[C]. Proceedings of the 50th Annual Design Automation Conference, Austin, USA, 2013: 50. doi: 10.1145/2463209.2488795.

[36] MENG Pingfan, ALTHOFF A, GAUTIER Q, et al. Adaptive threshold non-pareto elimination: Re-thinking machine learning for system level design space exploration on FPGAs[C]. 2016 Design, Automation & Test in Europe Conference & Exhibition (DATE), Dresden, Germany, 2016:918–923. doi: 10.3850/9783981537079_0350.

邏輯綜合技術

邏輯綜合是一個具有復雜約束條件的優(yōu)化問題，需要精確的求解才能夠保證后續(xù)設計流程的準確性。

使用機器學習算法來直接生成邏輯綜合的解決方案是非常困難的，現(xiàn)階段機器學習算法的主要應用是用來調(diào)度一些已有的優(yōu)化策略。

例如，Lau等人^[37]提出了一種人工智能驅動的邏輯綜合架構：LSOracle，LSOracle中集成了與非圖（And-Inverter Graph, AIG）和表決器非圖（Major-Inverter Graph, MIG）兩種優(yōu)化器，首先使用k劃分的方法將電路的有向無環(huán)圖（Directed Acyclic Graph, DAG）劃分為k個部分，在此基礎上，依靠深度神經(jīng)網(wǎng)絡（Deep Neural Network, DNN）來動態(tài)決定將哪個優(yōu)化器應用于電路的不同部分。

最終實驗結果表明，與單獨使用AIG優(yōu)化器和DAG優(yōu)化器相比較，LSOracle在面積-時延方面的性能平均提升了6.87%和2.70%。

當前的綜合工具（例如，加州大學伯克利分校開發(fā)的ABC工具）中包含有許多邏輯轉換的流程^[38]，為了選擇一個合適的流程，Yu等人^[39]提出了一種完全自動化的邏輯綜合架構，該架構以待綜合的HDL代碼作為輸入，輸出為兩組不同的邏輯綜合流程：即“天使流程”（Angel-flows）和“魔鬼流程”（Devil-flows），它們分別對應了設計目標的最佳和最差的結果質量（QoR）。

該問題被建模為一個多分類問題并使用基于卷積神經(jīng)網(wǎng)絡（Convolutional Neural Network,CNN）的分類器進行求解。其主要思想是用一小組經(jīng)過標記的隨機的邏輯綜合的流程來訓練一個CNN的分類器，此處所提到的不同的邏輯綜合流程的標簽是通過一個或多個不同QoR的指標進行標記的，例如時延、面積以及功率等。經(jīng)過訓練后的分類器便可以用來預測未被標記的邏輯綜合的流程。

最后，通過對預測置信度（即屬于某個類別的概率）進行排序來生成“天使流”與“魔鬼流”。整個架構的具體流程如圖2所示。Wu等人^[40]提出了一種基于混合圖神經(jīng)網(wǎng)絡的優(yōu)化方法，針對邏輯綜合的流程進行優(yōu)化，以提升結果質量的評估以及優(yōu)化方法的泛化能力。其關鍵思想在于同時利用來自硬件設計和邏輯綜合流程的時空信息來預測不同設計上各種不同綜合流程的性能指標，最終的實驗結果也表明利用混合圖神經(jīng)網(wǎng)絡的優(yōu)化方法在誤差精度是現(xiàn)有方法的7~15倍。

圖2 自動化邏輯綜合架構

除了上述工作外，也有研究學者提出使用強化學習（Reinforcement Learning, RL）方法來優(yōu)化邏輯綜合的流程。

例如在文獻[42]中，圖卷積網(wǎng)絡（Graph Convolutional Network, GCN）被用作策略函數(shù)來獲取每個動作的概率。文獻[43]則采用無監(jiān)督的優(yōu)勢演員-評論家（AdvantageActor Critic, A2C）機制來搜索最佳的解決方案。

寧波大學儲著飛老師團隊提出了一種基于強化學習的近端策略優(yōu)化方法來訓練調(diào)整優(yōu)化序列，具體地，使用具有邊緣特征聚合能力的圖同構網(wǎng)絡來學習電路表示，并將電路表示作為強化學習的智能體的狀態(tài)，在此基礎上，為了使智能體能夠從歷史的經(jīng)驗中學習到相關的知識，長短期記憶網(wǎng)絡（Long Short-Term Memory, LSTM）被進一步嵌入到強化學習的模型中，與文獻[43]相比較，面積指標優(yōu)化了21.21%。

基于機器學習的邏輯綜合技術雖然得到了大范圍的研究，但上述方法要么需要大量標記數(shù)據(jù)進行訓練，要么由于計算開銷，在實際EDA工程的應用中受到了極大的限制。為了克服上述問題，Yu等人提出了一種全新的適用于布爾邏輯優(yōu)化的端到端的、高性能的、針對特定領域的Bandit計算架構，該架構能夠同時對AIG、布爾可滿足性的連接范式、標準單元技術映射后的靜態(tài)時序分析以及6輸入查找表（LookUp Table,LUT）架構的FPGA技術映射問題進行優(yōu)化，最終的實驗結果也表明，該方法的運算速度要優(yōu)于文獻[39]與文[43]中所提出的方法。

GROSNIT等人則是提出了一種基于貝葉斯理論的方法來解決樣本復雜度過高的問題，實現(xiàn)了高效且可擴展的基于機器學習的邏輯綜合的解決方案。

布局技術

布局作為FPGA EDA工作流程中的核心步驟之一，是典型的超大規(guī)模非確定性多項式（Non-deterministic Polynomial, NP）困難組合優(yōu)化問題，對時延、線網(wǎng)可布通性、功耗等功能指標影響巨大。

由于過去30余年FPGA架構的不斷演進，現(xiàn)代FPGA擁有數(shù)以千計的DSP、RAM以及數(shù)百萬個查找表（Look-Up Table, LUT）和觸發(fā)器（Flip-Flop, FF）實例，這些異構資源通常完全分散在FPGA架構的離散位置上，這種復雜性和異構性對現(xiàn)代FPGA布局器的運行效率和結果質量提出了嚴峻的挑戰(zhàn)，將機器學習與傳統(tǒng)布局方法相結合是解決上述問題的有效途徑，具體如表2所示。

表2中文獻（上下滑動瀏覽）

[44] YANG Chenghao, XIA Yinshui, CHU Zhufei, et al. Logic synthesis optimization sequence tuning using RL-based LSTM and graph isomorphism network[J]. IEEE Transactions on Circuits and Systems II:Express Briefs, 2022, 69(8): 3600–3604. doi: 10.1109/TCSII.2022.3168344.

[45] YU Cunxi. FlowTune: Practical multi-armed bandits in Boolean optimization[C]. The 39th International Conference on Computer-Aided Design, San Diego, USA, 2020: 130. doi: 10.1145/3400302.3415615.

[46] GROSNIT A, MALHERBE C, TUTUNOV R, et al. BOiLS: Bayesian optimisation for logic synthesis[C]. 2022 Design, Automation & Test in Europe Conference & Exhibition (DATE), Antwerp, Belgium, 2022: 1193–1196. doi: 10.23919/DATE54114.2022.9774632.

[58] MENG Yibai, LI Wuxi, LIN Yibo, et al. elfPlace: Electrostatics-based placement for large-scale heterogeneous FPGAs[J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, 2022, 41(1): 155–168. doi: 10.1109/TCAD.2021.3053191.

[59] LU Jingwei, CHEN Pengwen, CHANG C C, et al. ePlace: Electrostatics based placement using Nesterov's method[C]. The 51st Annual Design Automation Conference, San Francisco, USA, 2014: 1–6. doi: 10.1145/2593069.2593133.

[60] LI Wuxi, DHAR S, and PAN D Z. UTPlaceF: A routability-driven FPGA placer with physical and congestion aware packing[J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems,2018, 37(4): 869–882. doi: 10.1109/TCAD.2017.2729349.

[61] CHEN Gengjie, PUI C W , CHOW W K , et al. RippleFPGA: Routability-driven simultaneous packing and placement for modern FPGAs[J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, 2018, 37(10): 2022–2035. doi: 10.1109/TCAD.2017.2778058.

[62] ABUOWAIMER Z, MAAROUF D, MARTIN T, et al. GPlace3.0: Routability-driven analytic placer for UltraScale FPGA architectures[J]. ACM Transactions on Design Automation of Electronic Systems, 2018, 23(5): 66. doi: 10.1145/3233244.