基于FPGA的M2M異構(gòu)虛擬化系統(tǒng)(一)

時(shí)間：2014-10-17 20:34:35

關(guān)鍵字： FPGA 虛擬化 CPU 應(yīng)用程序

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]　　摘要　　在多核體系構(gòu)架與并行計(jì)算時(shí)代，尤其是云計(jì)算的出現(xiàn)，虛擬化技術(shù)正迅速發(fā)展成為計(jì)算系統(tǒng)中的一項(xiàng)核心技術(shù)。虛擬化技術(shù)提供了系統(tǒng)層次之間的抽象化，并將資源以

　　摘要

　　在多核體系構(gòu)架與并行計(jì)算時(shí)代，尤其是云計(jì)算的出現(xiàn)，虛擬化技術(shù)正迅速發(fā)展成為計(jì)算系統(tǒng)中的一項(xiàng)核心技術(shù)。虛擬化技術(shù)提供了系統(tǒng)層次之間的抽象化，并將資源以一個(gè)或多個(gè)虛擬的運(yùn)行環(huán)境提供給用戶。目前對(duì)虛擬化的研究工作主要關(guān)注于資源的分割，獨(dú)立和封裝等研究點(diǎn)，但主要在一個(gè)特定處理器體系結(jié)構(gòu)以及處理器同構(gòu)的前提下。

　　本項(xiàng)目提出一種新穎的M2M(Multiple ISAs applications to Multiple heter-ogeneous core，M2M)概念，將虛擬化系統(tǒng)分為多核異構(gòu)層、虛擬化管理層、二進(jìn)制翻譯層、軟件應(yīng)用層四個(gè)層次，創(chuàng)新地在傳統(tǒng)的虛擬化管理層上增加二進(jìn)制翻譯層，從而引入多個(gè)不同體系結(jié)構(gòu)的應(yīng)用程序，虛擬化管理器調(diào)度分配給硬件層引入的異構(gòu)處理器。M2M的特性使虛擬化系統(tǒng)上層應(yīng)用的靈活性大大增加，并且硬件異構(gòu)化也使系統(tǒng)的效率有效提升。

　　本項(xiàng)目主要貢獻(xiàn)點(diǎn)和創(chuàng)新點(diǎn)有：

　　多指令集體系應(yīng)用虛擬環(huán)境。在應(yīng)用層提供不同指令集體系構(gòu)架的虛擬運(yùn)行環(huán)境，以支持不同應(yīng)用系統(tǒng)的應(yīng)用程序。

　　軟硬協(xié)同的二進(jìn)制翻譯層。在二進(jìn)制翻譯層，采用軟硬協(xié)同的方式實(shí)現(xiàn)不同架構(gòu)體系間的動(dòng)態(tài)二進(jìn)制翻譯，提高硬件目標(biāo)代碼生成和運(yùn)行的性能和靈活性。

　　設(shè)計(jì)實(shí)現(xiàn)了自主可擴(kuò)展32位的SoC核。在多核異構(gòu)層，設(shè)計(jì)了一個(gè)自主，可擴(kuò)展，可配置的32位RISC處理器。基于此處理器核可配置實(shí)現(xiàn)多個(gè)RISC SoC平臺(tái)(QS-I)。本項(xiàng)目在XUP Virtex-5和Digilent Nexys3 FPGA開(kāi)發(fā)平臺(tái)構(gòu)建了多核異構(gòu)層。

　　動(dòng)態(tài)虛擬化管理。在虛擬化管理層，以輕量級(jí)的方式實(shí)現(xiàn)了系統(tǒng)資源與上層應(yīng)用的管理。通過(guò)資源管理與任務(wù)調(diào)度動(dòng)態(tài)分配或遷移運(yùn)行任務(wù)。虛擬層的多個(gè)體系結(jié)構(gòu)的應(yīng)用程序(如x86和MIPS)可動(dòng)態(tài)運(yùn)行于異構(gòu)的處理器核上(如處理能力不同的MIPS核)。

　　提供了系統(tǒng)庫(kù)和運(yùn)行程序。在軟件應(yīng)用層，為自主設(shè)計(jì)的QS-I平臺(tái)提供完善的程序運(yùn)行環(huán)境并設(shè)計(jì)了多樣化的應(yīng)用程序。項(xiàng)目完全自主地設(shè)計(jì)實(shí)現(xiàn)了系統(tǒng)庫(kù)(如圖形庫(kù)、I/O庫(kù))以及典型的多樣化應(yīng)用軟件，包括MIPS下的吃豆子游戲、X86下的推箱子游戲。

　　1.項(xiàng)目背景

　　在計(jì)算機(jī)科學(xué)領(lǐng)域中，虛擬化代表著對(duì)計(jì)算資源的抽象，而不僅僅局限于虛擬機(jī)的概念，實(shí)現(xiàn)虛擬化的方法不止一種，無(wú)論何種方法都是以不同層次的抽象來(lái)實(shí)現(xiàn)某一視角對(duì)應(yīng)的效果。

　　1.1.項(xiàng)目需求

　　虛擬化技術(shù)正迅速發(fā)展成為計(jì)算系統(tǒng)中的一項(xiàng)核心技術(shù)，它提供了計(jì)算機(jī)系統(tǒng)層次之間的抽象層，并將資源分配以提供一個(gè)或多個(gè)虛擬的運(yùn)行環(huán)境。現(xiàn)在對(duì)虛擬化的研究工作主要關(guān)注于資源的分割，獨(dú)立和封裝等研究點(diǎn)，但主要在一個(gè)特定處理器體系結(jié)構(gòu)以及處理器同構(gòu)的前提下。本項(xiàng)目提出一種新穎的M2M(Multiple ISAs applications to Multiple heterogeneous core，M2M)概念，將虛擬化系統(tǒng)分為多核異構(gòu)層、虛擬化管理層、二進(jìn)制翻譯層、軟件應(yīng)用層四個(gè)層次，創(chuàng)新地在傳統(tǒng)的虛擬化管理層上增加二進(jìn)制翻譯層，從而引入多個(gè)不同體系結(jié)構(gòu)的應(yīng)用程序，并在硬件層引入處理器的異構(gòu)性。M2M的特性使虛擬化系統(tǒng)的上層應(yīng)用的靈活性大大增加，并且硬件異構(gòu)化也使系統(tǒng)的效率有效提升。

　　1.2.相關(guān)技術(shù)及其發(fā)展現(xiàn)狀

　　本小節(jié)將介紹虛擬化以及動(dòng)態(tài)翻譯等技術(shù)的基本概念及其發(fā)展現(xiàn)狀。

　　1.2.1.虛擬化技術(shù)的基本概念

　　虛擬化技術(shù)最早可以追溯到上個(gè)世紀(jì)60年代，IBM公司的System 360系統(tǒng)對(duì)運(yùn)行多個(gè)虛擬化系統(tǒng)進(jìn)行了最早的嘗試。如今，虛擬化技術(shù)正迅速發(fā)展成為計(jì)算機(jī)系統(tǒng)中的一項(xiàng)核心技術(shù)，它提供了計(jì)算機(jī)系統(tǒng)層次之間的抽象層，并將資源分配以提供一個(gè)或多個(gè)虛擬的運(yùn)行環(huán)境。

　　例如計(jì)算機(jī)系統(tǒng)可分為如圖 1中所示的四個(gè)層次，由最底層的硬件自下而上分別是操作系統(tǒng)、用戶庫(kù)、應(yīng)用程序。相應(yīng)地，虛擬化技術(shù)可以針對(duì)各個(gè)層次進(jìn)行抽象虛擬，從而為上一層的應(yīng)用提供一個(gè)或多個(gè)虛擬環(huán)境。

　　圖 1 計(jì)算機(jī)系統(tǒng)的四個(gè)層次

　　更具體地，虛擬化的層次可分為如圖 2所示的指令集架構(gòu)(ISA)、硬件抽象層(HAL)、操作系統(tǒng)、用戶級(jí)庫(kù)、應(yīng)用程序的五個(gè)層次。圖 2中還在各個(gè)層次下方列出了與其對(duì)應(yīng)的知名產(chǎn)品。

　　圖 2 虛擬化技術(shù)的五個(gè)層次及其相應(yīng)產(chǎn)品

　　1.2.2.ISA層的虛擬化技術(shù)

　　ISA層的虛擬化是虛擬化技術(shù)中的一個(gè)重要內(nèi)容，它的主要目的是為上層應(yīng)用提供一個(gè)或多個(gè)不同于物理層實(shí)際處理器ISA的ISA抽象層，從而使得多個(gè)處理器架構(gòu)的應(yīng)用程序能夠在同一個(gè)處理器上運(yùn)行，如圖 3所示。

　　圖 3 ISA層的虛擬化

　　ISA層虛擬化所產(chǎn)生的異構(gòu)性使處理器本身的性能得到提高[1]。同時(shí)，x86架構(gòu)憑借其強(qiáng)大的軟硬件支持，仍將在未來(lái)的處理器競(jìng)爭(zhēng)中占有統(tǒng)治地位[2] 。本項(xiàng)目將重點(diǎn)實(shí)現(xiàn)不同ISA(x86和MIPS)之間的虛擬化技術(shù)，使該RISC處理器與x86架構(gòu)達(dá)到二進(jìn)制兼容。

　　1.2.3.動(dòng)態(tài)翻譯技術(shù)

　　在ISA層的虛擬化中，二進(jìn)制翻譯是最重要的實(shí)現(xiàn)技術(shù)。二進(jìn)制翻譯是指把一中體系結(jié)構(gòu)的機(jī)器碼翻譯成為另一種體系結(jié)構(gòu)的機(jī)器碼。通過(guò)二進(jìn)制翻譯，體系結(jié)構(gòu)將成為一個(gè)軟件層，它使得復(fù)雜的遺留體系結(jié)構(gòu)能夠用簡(jiǎn)單的硬件來(lái)實(shí)現(xiàn)，并且使得新穎的體系結(jié)構(gòu)能夠兼容原來(lái)的軟件;此外，二進(jìn)制翻譯能夠促進(jìn)軟件的優(yōu)化[3]。

　　二進(jìn)制翻譯有兩種主要的實(shí)現(xiàn)方法，一種是靜態(tài)翻譯，另一種動(dòng)態(tài)翻譯。

　　靜態(tài)翻譯把整個(gè)二進(jìn)制可執(zhí)行文件翻譯成目標(biāo)體系結(jié)構(gòu)的指令集，它不需要先運(yùn)行代碼，所有的翻譯都在編譯時(shí)完成。所以靜態(tài)翻譯很難做到正確性，因?yàn)椴皇撬械拇a都能在編譯時(shí)被翻譯器發(fā)現(xiàn)。比如，可執(zhí)行文件的某些部分只能通過(guò)間接跳轉(zhuǎn)才能到達(dá)，而間接跳轉(zhuǎn)的目標(biāo)值只有在運(yùn)行時(shí)才知道。

　　動(dòng)態(tài)翻譯把一小段源體系結(jié)構(gòu)的代碼翻譯成目標(biāo)體系結(jié)構(gòu)的代碼并把這一小段生成的代碼緩存起來(lái)。只有當(dāng)代碼被運(yùn)行時(shí)才開(kāi)始執(zhí)行翻譯。跳轉(zhuǎn)指令會(huì)被指定到已經(jīng)翻譯和緩存起來(lái)的代碼段上。

　　2.項(xiàng)目目標(biāo)及開(kāi)發(fā)平臺(tái)選擇

　　2.1.項(xiàng)目目標(biāo)及內(nèi)容

　　本項(xiàng)目提出一種新穎的M2M(Multiple ISAs applications to Multiple heter-ogeneous core，M2M)概念，在虛擬化管理層上增加二進(jìn)制翻譯層，從而引入多個(gè)不同體系結(jié)構(gòu)的應(yīng)用程序，并在硬件層引入處理器的異構(gòu)性。如圖 4所示的項(xiàng)目總體層次包括多核異構(gòu)層、虛擬化管理層、二進(jìn)制翻譯層以及軟件應(yīng)用層。

　　圖 4 項(xiàng)目總體層次

　　本項(xiàng)目目標(biāo)是基于Xilinx公司的XUP Virtex-5和Digilent的Nexys3 FPGA開(kāi)發(fā)板實(shí)現(xiàn)多個(gè)RISC SoC平臺(tái)建立硬件多核異構(gòu)層;選擇MIPS和x86 ISA構(gòu)架設(shè)計(jì)吃豆子、俄羅斯方塊等典型應(yīng)用程序構(gòu)成多樣化應(yīng)用場(chǎng)景，實(shí)現(xiàn)M2M原型系統(tǒng)。

　　具體任務(wù)如下：

　　多核異構(gòu)層

　　實(shí)現(xiàn)MIPS基本指令集，支持精確中斷，含一級(jí)Cache的32位RISC CPU的RTL描述及其驗(yàn)證;

　　完成VGA(或DVI)、PS/2、SRAM、UART等外設(shè)的控制器模塊描述及各個(gè)模塊的驗(yàn)證;

　　引入Wishbone總線，集成SoC平臺(tái)的各個(gè)模塊;

　　基于不同F(xiàn)PGA的RISC SoC平臺(tái)(分別在XUP Vritex-5和Digilent Nexys3上基于自主軟核QS-I搭建了RISC SoC平臺(tái))，構(gòu)建多核異構(gòu)層

　　虛擬化管理層

　　對(duì)多核異構(gòu)層的資源管理;

　　對(duì)應(yīng)用層多樣化程序的調(diào)度分配

　　二進(jìn)制翻譯層

　　以軟硬件協(xié)同方式完成RISC處理器在ISA層對(duì)x86的虛擬化，使得RISC處理器能夠與多架構(gòu)(如x86)二進(jìn)制兼容;

　　動(dòng)態(tài)翻譯的軟件架構(gòu)設(shè)計(jì)

　　軟件應(yīng)用層

　　系統(tǒng)軟件編寫(xiě)。系統(tǒng)軟件包括外設(shè)的驅(qū)動(dòng)程序及系統(tǒng)控制程序;

　　運(yùn)行環(huán)境及庫(kù)編寫(xiě)。設(shè)計(jì)實(shí)現(xiàn)系統(tǒng)庫(kù)(如圖形庫(kù)、I/O庫(kù));

　　應(yīng)用軟件編寫(xiě)。應(yīng)用軟件包括多個(gè)SoC完整應(yīng)用系統(tǒng)(x86和MIPS)，如簡(jiǎn)單的游戲程序。

　　2.2.開(kāi)發(fā)平臺(tái)選擇

　　本項(xiàng)目主要選用Xilinx公司的XUP Virtex-5開(kāi)發(fā)平臺(tái)及Digilent公司的Nexys3開(kāi)發(fā)平臺(tái)。

　　2.2.1.XUP Virtex-5 FPGA開(kāi)發(fā)平臺(tái)簡(jiǎn)介

　　XUP Virtex5是集成了OpenSparcT1開(kāi)源微處理器的一個(gè)強(qiáng)大系統(tǒng)。其豐富的特色以及開(kāi)發(fā)平臺(tái)的通用性，使得該板卡非常適合在教學(xué)及研究的領(lǐng)域搭建各種系統(tǒng)。如數(shù)字設(shè)計(jì)、嵌入式系統(tǒng)、通訊系統(tǒng)、網(wǎng)絡(luò)、視頻及圖像處理等各個(gè)領(lǐng)域。XUP Virtex-5實(shí)體圖見(jiàn)圖 5，其資源模塊圖如圖 6所示。XUP Virtex-5含有豐富的片上資源以及完整的工業(yè)標(biāo)準(zhǔn)接口。

　　圖 5 XUP Virtex-5 FPGA開(kāi)發(fā)平臺(tái)

　　圖 6 XUP Virtex-5平臺(tái)資源模塊

　　本項(xiàng)目基于XUP Virtex-5 FPGA開(kāi)發(fā)平臺(tái)構(gòu)建了基于自主軟核QS-I的RISC SoC平臺(tái)。

　　2.2.2.Digilent Nexys3 FPGA開(kāi)發(fā)平臺(tái)簡(jiǎn)介

　　Digilent公司的Nexys3平臺(tái)是一個(gè)基于Xilinx Sparten-6 FPGA的完整，易用的數(shù)字電路開(kāi)發(fā)平臺(tái)。Sparten-6 FPGA為高性能邏輯設(shè)計(jì)做了充分優(yōu)化，其片內(nèi)的block RAM，時(shí)鐘管理模塊，DSP等資源為高級(jí)邏輯設(shè)計(jì)提供了必要硬件基礎(chǔ)。Nexys3實(shí)體圖見(jiàn)圖 7，其平臺(tái)資源模塊如圖 8。

　　圖 7 Digilent Nexys3 FPGA開(kāi)發(fā)平臺(tái)

　　圖 8 Digilent Nexys3平臺(tái)資源模塊[!--empirenews.page--]

　　本項(xiàng)目基于Digilent Nexys3 FPGA開(kāi)發(fā)平臺(tái)構(gòu)建了基于自主軟核QS-I的RISC SoC平臺(tái)。

　　3.總體設(shè)計(jì)方案說(shuō)明

　　3.1.1.系統(tǒng)總體框架及關(guān)鍵技術(shù)分析

　　本項(xiàng)目的總體框架如圖 9，實(shí)現(xiàn)時(shí)采用V5-MIPS core和N3-MIPS core構(gòu)成異構(gòu)原型。

　　圖 9 項(xiàng)目總體框架圖

　　項(xiàng)目的關(guān)鍵技術(shù)包括：

　　多核異構(gòu)層

　　32位RISC處理器的結(jié)構(gòu)競(jìng)爭(zhēng)、控制競(jìng)爭(zhēng)、數(shù)據(jù)競(jìng)爭(zhēng)三大競(jìng)爭(zhēng)的解決以及擴(kuò)展CPU指令集，支持GNU的mips_elf_gcc編譯器等開(kāi)源工具鏈

　　流水線中的精確中斷及異常的實(shí)現(xiàn)

　　CPU的Cache設(shè)計(jì)：

　　Cache的映射策略

　　Cache的寫(xiě)策略

　　CPU和各個(gè)外設(shè)模塊對(duì)Wishbone總線的集成：

　　CPU的對(duì)外接口設(shè)計(jì)

　　各個(gè)外設(shè)符合Wishbone協(xié)議的接口設(shè)計(jì)

　　各個(gè)模塊與總線的集成

　　基于不同FPGA的RISC SoC平臺(tái)(分別在XUP Vritex-5和Digilent Nexys3上基于自主軟核QS-I搭建了RISC SoC平臺(tái))，構(gòu)建多核異構(gòu)層。基于單個(gè)核的可擴(kuò)展SoC框架核心如圖 10

　　圖 10 RISC SoC

　　虛擬化管理層

　　對(duì)多核異構(gòu)層的資源管理策略;

　　對(duì)應(yīng)用層程序的調(diào)度分配策略

　　二進(jìn)制翻譯層

　　以基本塊為翻譯單位的動(dòng)態(tài)翻譯實(shí)現(xiàn)

　　寄存器的映射

　　Big endian(MIPS)與little endian(x86)

　　X86標(biāo)志位處理

　　x86中斷及系統(tǒng)調(diào)用的模擬

　　轉(zhuǎn)移分發(fā)器

　　翻譯塊管理

　　軟件應(yīng)用層

　　SoC系統(tǒng)軟件模塊

　　各個(gè)外設(shè)模塊的驅(qū)動(dòng)程序

　　3.1.2.RISC CPU(QS-I)結(jié)構(gòu)

　　RISC CPU(QS-I)的總體框架如圖 11所示。QS-I中的整數(shù)流水線采用Fetch à Decode à Execute à Memory à Writeback的五級(jí)流水線結(jié)構(gòu)。QS-I中采用哈佛結(jié)構(gòu)的指令Cache和數(shù)據(jù)Cache。此外，為了加速I(mǎi)SA層虛擬化的動(dòng)態(tài)翻譯實(shí)現(xiàn)，QS-I中含有專(zhuān)門(mén)的硬件模塊以加速動(dòng)態(tài)翻譯。

　　圖 11 RISC CPU(QS-I)總體框架圖

　　3.1.3.動(dòng)態(tài)翻譯策略與方案

　　圖 12 動(dòng)態(tài)翻譯及執(zhí)行架構(gòu)圖

　　二進(jìn)制動(dòng)態(tài)翻譯及執(zhí)行架構(gòu)如圖 12所示，主要有翻譯及執(zhí)行兩個(gè)過(guò)程。翻譯過(guò)程將源體系的程序進(jìn)行翻譯，生成新體系的程序。執(zhí)行過(guò)程負(fù)責(zé)生成塊在新體系下的運(yùn)行。以8086轉(zhuǎn)MIPS為例，源體系為8086，新體系為MIPS。圖中SMEM代表的是源內(nèi)存，保存的是8086可執(zhí)行程序，TMEM代表的是目標(biāo)內(nèi)存，保存的是8086程序塊翻譯后得到的相應(yīng)MIPS程序塊。翻譯過(guò)程是在MIPS環(huán)境中，翻譯塊的執(zhí)行在虛擬環(huán)境中。兩種環(huán)境的轉(zhuǎn)換需要經(jīng)過(guò)上下文切換。切換時(shí)，先保存當(dāng)前狀態(tài)，包括它自己的一套寄存器組，再載入新的狀態(tài)。

　　跳轉(zhuǎn)緩存為硬件模塊，加速生成塊的執(zhí)行。跳轉(zhuǎn)緩存保存的是對(duì)，SPC為某指令在SMEM中的地址，TPC則是在TMEM中相應(yīng)的地址。在執(zhí)行生成塊遇到轉(zhuǎn)移跳轉(zhuǎn)指令時(shí)，根據(jù)SPC在跳轉(zhuǎn)緩存中找對(duì)應(yīng)的TPC，以繼續(xù)執(zhí)行生成塊。

　　3.1.4.Wishbone總線及基本外設(shè)

　　Wishbone 總線最先是由Silicon公司提出，現(xiàn)在己被移交給OpenCores組織維護(hù)，它通過(guò)在IP核之間建立一個(gè)通用接口完成互聯(lián)?？梢杂糜谠谲浐恕⒐毯艘约坝埠酥g進(jìn)行互聯(lián)。

　　Wishbone規(guī)范具有如下特點(diǎn)：

　　簡(jiǎn)單、緊湊，需要很少的邏輯門(mén)

　　完整的普通數(shù)據(jù)據(jù)傳輸總線協(xié)議，包括單個(gè)讀寫(xiě)傳輸周期和事件周期

　　支持大端數(shù)據(jù)和小端數(shù)據(jù)，接口自動(dòng)完成兩者之間的轉(zhuǎn)換

　　支持存儲(chǔ)器映射、FIFO存儲(chǔ)器、交叉互聯(lián)

　　采用握手協(xié)議，允許速率控制，可以達(dá)到每個(gè)時(shí)鐘周期進(jìn)行一次數(shù)據(jù)傳輸

　　支持普通周期結(jié)束、重試結(jié)束、錯(cuò)誤結(jié)束等總線周期形式，支持用戶自定義的標(biāo)志

　　采用MASTER/SLAVE體系結(jié)構(gòu)，支持多點(diǎn)進(jìn)程(Multi-MASTER)

　　支持各種各樣的IP核互聯(lián)，包括USB、雙向總線、復(fù)用器互聯(lián)等

　　相對(duì)于其他的IP核接口規(guī)范來(lái)說(shuō)，Wishbone接口規(guī)范具有簡(jiǎn)單、開(kāi)放、高效、利于實(shí)現(xiàn)等特點(diǎn)而且完全免費(fèi)，并沒(méi)有專(zhuān)利保護(hù)?；谏鲜鰞?yōu)點(diǎn)，因此采用Wishbone總線進(jìn)行接口設(shè)計(jì)。

　　QS-I 硬件系統(tǒng)在團(tuán)隊(duì)自主研發(fā)的MIPS體系結(jié)構(gòu)5級(jí)流水CPU的基礎(chǔ)上，采用Wishbone開(kāi)源總線，將主存、顯示器、鍵盤(pán)、RS232等外部設(shè)備與CPU進(jìn)行互聯(lián)。CPU作為Wishbone開(kāi)源總線MASTER/SLAVE體系結(jié)構(gòu)中的MASTER設(shè)備，向總線發(fā)起訪問(wèn)外設(shè)的請(qǐng)求;Wishbone總線接收來(lái)自CPU的訪問(wèn)請(qǐng)求和訪問(wèn)命令，向外設(shè)發(fā)起訪問(wèn)請(qǐng)求;外設(shè)相應(yīng)請(qǐng)求后，數(shù)據(jù)通過(guò)Wishbone總線傳給CPU。采用Wishbone總線后，系統(tǒng)能夠高效的訪問(wèn)各種外設(shè)，而且具有較好的可擴(kuò)展性，比如在Wishbone開(kāi)源總線MASTER/SLAVE體系結(jié)構(gòu)中，MASTER設(shè)備和SLAVE設(shè)備都是可已同時(shí)聯(lián)接多個(gè)的，總線會(huì)解決相關(guān)的訪問(wèn)沖突。

　　下文將介紹Wishbone開(kāi)源總線的相關(guān)信號(hào)的定義及作用。

　　圖 13 Wishbone總線規(guī)范中使用的主要信號(hào)

　　所有的Wishbone接口信號(hào)都是高電平有效，設(shè)計(jì)成高電平有效的主要原因是由于低電平有效信號(hào)的書(shū)寫(xiě)問(wèn)題，不同的設(shè)計(jì)者表達(dá)低電平有效信號(hào)的方式不同，拿最常見(jiàn)的低電平有效的復(fù)位信號(hào)來(lái)說(shuō)，其表示方法就有_RST_I、N_RST_I、#RST_I和/RST_I，而高電平有效的信號(hào)其表達(dá)方式通常只有一種。所有的Wishbone接口信號(hào)都以_I或者_(dá)O結(jié)束。_I表示輸入，_O表示輸出。()表示該信號(hào)為總線信號(hào)，總線的寬度可以為1，也可以為大于1的任何值。

　　在圖7中，主設(shè)備具有遵守Wishbone規(guī)范的主設(shè)備接口，從設(shè)備具有遵守Wishbone規(guī)范的從設(shè)備接口，INTERCON模塊將主設(shè)備和從設(shè)備的對(duì)應(yīng)數(shù)據(jù)、地址和控制線連接起來(lái)，SYSCON模塊提供時(shí)鐘和復(fù)位信號(hào)，這兩個(gè)信號(hào)被送入主設(shè)備和從設(shè)備。圖7給出了Wishbone接口的常見(jiàn)信號(hào)，這些信號(hào)有些是必須的，有些是可選的。這些信號(hào)的基本功能描述如下：

　　CLK_O/CLK_I：時(shí)鐘信號(hào)。時(shí)鐘信號(hào)由SYSCON模塊產(chǎn)生，并送入各個(gè)主設(shè)備和從設(shè)備。SYSCON通常內(nèi)部存在一個(gè)鎖相環(huán)，將來(lái)源于芯片外的晶體振蕩器或者時(shí)鐘輸入信號(hào)整形、分頻或者倍頻為芯片內(nèi)所需要的時(shí)鐘信號(hào)。所有Wishbone信號(hào)都同步到時(shí)鐘信號(hào)上，包括復(fù)位信號(hào)。

　　RST_O/RST_I：同步復(fù)位信號(hào)，高電平有效。復(fù)位信號(hào)由SYSCON模塊產(chǎn)生，并送入各主設(shè)備及從設(shè)備。

　　DAT_O()/DAT_I()：主設(shè)備和從設(shè)備的之間的數(shù)據(jù)信號(hào)，數(shù)據(jù)可以由主設(shè)備傳送給從設(shè)備，也可以由從設(shè)備傳送給主設(shè)備。一對(duì)主設(shè)備和從設(shè)備之間最多存在兩條數(shù)據(jù)總線，一條用于主設(shè)備向從設(shè)備傳輸數(shù)據(jù)，另外一條用于從設(shè)備向主設(shè)備傳輸數(shù)據(jù)。Wishbone規(guī)定數(shù)據(jù)總線的最大寬度為64位，這一規(guī)定實(shí)際上是考慮到目前商用處理器的最大位數(shù)為64，實(shí)際上數(shù)據(jù)總線的寬度可以是任意值。就筆者看來(lái)，在64位處理器以后，處理器將向多核方向發(fā)展，總線將向高速串行方向發(fā)展。

　　ADR_O(n…m)/ADR_I(n…m)：地址信號(hào)，主設(shè)備輸出地址到從設(shè)備。n取決于IP核的地址寬度，m取決于數(shù)據(jù)總線DAT_O()/DAT_I()的寬度和粒度。數(shù)據(jù)總線的粒度指的是數(shù)據(jù)總線能夠一次傳送的最小比特?cái)?shù)，很多處理器如ARM的數(shù)據(jù)總線的粒度為1個(gè)字節(jié)，但是也有一些處理器如CEVA TeakLite DSP的數(shù)據(jù)總線粒度為2個(gè)字節(jié)。一個(gè)位寬為32比特、粒度為1個(gè)字節(jié)的數(shù)據(jù)總線的地址信號(hào)應(yīng)定義為ADR_O(n…2)/ADR_I(n…2)。在傳送數(shù)據(jù)時(shí)，具體哪些字節(jié)有效通過(guò)SEL_O()/SEL_I()信號(hào)(見(jiàn)下文)控制。

　　TGD_O/TGD_I()、TGA_O()/TGA_I()：TGD_O/TGD_I()為數(shù)據(jù)標(biāo)簽，具體講是附加于在數(shù)據(jù)總線DAT_O()/DAT_I()的標(biāo)簽，該標(biāo)簽可以用于傳送關(guān)于數(shù)據(jù)總線的額外信息如奇偶校驗(yàn)信息、時(shí)間戳信息等。TGA_O/TGA_I()為地址標(biāo)簽，具體講是附加于在地址總線ADR_O()/ADR_I()的標(biāo)簽，該標(biāo)簽可以用于傳送關(guān)于地址總線的額外信息如地址總線奇偶校驗(yàn)信息、存儲(chǔ)器保護(hù)信息等。Wishbone只規(guī)定了TGD_O/TGD_I和TGA_O()/TGA_I()的接口時(shí)序，用戶可以定義TGD_O/TGD_I的具體含義。

　　TGC_O/TGC_I()：TGC_O/TGC_I()為總線周期標(biāo)簽，該標(biāo)簽可以用于傳送關(guān)于當(dāng)前總線周期所進(jìn)行操作的描述如操作類(lèi)型(包括單次操作、塊操作、RMW操作)、中斷應(yīng)答類(lèi)型、緩存操作類(lèi)型等。類(lèi)似的，Wishbone只規(guī)定了TGC_O/TGC_I()的接口時(shí)序，用戶可以定義TGD_O/TGD_I的具體含義。

　　ACK_O/ACK_I、ERR_O/ERR_I、RTY_O/RTY_I：主從設(shè)備間的操作結(jié)束方式信號(hào)。ACK表示成功，ERR表示錯(cuò)誤，RTY表示重試(Retry)。操作總是在某一總線周期內(nèi)完成的，因此操作結(jié)束方式也稱(chēng)為總線周期結(jié)束方式。成功是操作的正常結(jié)束方式，錯(cuò)誤表示操作失敗，造成失敗的原因可能是地址或者數(shù)據(jù)校驗(yàn)錯(cuò)誤，寫(xiě)操作或者讀操作不支持等。重試表示從設(shè)備當(dāng)前忙，不能及時(shí)處理該操作，該操作可以稍后重新發(fā)起。接收到操作失敗或者重試后，主設(shè)備如何響應(yīng)取決于主設(shè)備的設(shè)計(jì)者。

　　SEL_O()/SEL_I()：有效數(shù)據(jù)總線選擇信號(hào)，標(biāo)識(shí)當(dāng)前操作中數(shù)據(jù)總線上哪些比特是有效的，以總線粒度為單位。SEL_O()/SEL_I()的寬度為數(shù)據(jù)總線寬度除以數(shù)據(jù)總線粒度。比如一個(gè)具有32位寬、粒度為1個(gè)字節(jié)的數(shù)據(jù)總線的選擇信號(hào)應(yīng)定義為SEL_O(3:0)/ SEL_I(3:0)，SEL(4’b1001)代表當(dāng)前操作中數(shù)據(jù)總線的最高和最低字節(jié)有效。

　　CYC_O/CYC_I、LOCK_O/LOCK_I、GNT_O()/GNT_I：總線周期信號(hào)CYC_O/CYC_I有效代表一個(gè)主設(shè)備請(qǐng)求總線使用權(quán)或者正在占有總線，但是不一定正在進(jìn)行總線操作(是否正在進(jìn)行總線操作取決于選通信號(hào)STB_O/STB_I是否有效)。只有該信號(hào)有效，Wishbone主設(shè)備和從設(shè)備接口的其它信號(hào)才有意義。CYC_O/CYC_I信號(hào)在一次總線操作過(guò)程中必須持續(xù)有效，比如一次塊讀操作可能需要多個(gè)時(shí)鐘周期，CYC_O/CYC_I信號(hào)必須保持持續(xù)有效。實(shí)際上，該信號(hào)的實(shí)際作用等同于其他總線標(biāo)準(zhǔn)中的仲裁申請(qǐng)信號(hào)。當(dāng)存在多個(gè)主設(shè)備時(shí)，它們可能希望同時(shí)進(jìn)行總線操作，主設(shè)備通過(guò)仲裁申請(qǐng)信號(hào)向仲裁器申請(qǐng)總線占有權(quán)，仲裁器通過(guò)一定的仲裁優(yōu)先級(jí)邏輯向其中一個(gè)選定的主設(shè)備發(fā)送總線允許信號(hào)GNT_O()/GNT_I，表示該主設(shè)備可以占用總線。GNT_O()是仲裁器輸出的允許信號(hào)，一般有多個(gè);而對(duì)于一個(gè)主設(shè)備，其允許信號(hào)輸入GNT_I卻只有一個(gè)。一次總線操作可能需要多個(gè)時(shí)鐘周期，比如一次塊操作。在操作過(guò)程中，仲裁器可能會(huì)提前將總線占用權(quán)收回并分配給其他主設(shè)備從而打斷當(dāng)前主設(shè)備的操作，LOCK_O/LOCK_I有效代表本次總線操作是不可打斷的。仲裁器收到LOCK_I信號(hào)，就不會(huì)提前收回總線使用權(quán)。圖 13中只有一個(gè)主設(shè)備和一個(gè)從設(shè)備，因此沒(méi)畫(huà)出仲裁器模塊，該模塊可以視為是INTERCON的一部分，見(jiàn)本章最后給出的例子。

　　STB_O/STB_I：選通信號(hào)。選通有效代表主設(shè)備發(fā)起一次總線操作。只有選通信號(hào)有效(此時(shí)CYC_O/CYC_I也必須為高)，ADR_O/ADR_I()、DAT_O()/DAT_I()、SEL_O()/SEL_I()才有意義。在Wishbone總線規(guī)范中，CYC_O/CYC_I是最高層的控制信號(hào)，只有該信號(hào)有效，STB_O/STB_I信號(hào)才有意義。一個(gè)信號(hào)有意義是指該信號(hào)的當(dāng)前值是需要主設(shè)備或者從設(shè)備解釋的，0為無(wú)效，1為有效，而一個(gè)信號(hào)沒(méi)有意義是指該信號(hào)的當(dāng)前值主設(shè)備和從設(shè)備不必關(guān)心，是0還是1都無(wú)效。

　　WE_O/WE_I：寫(xiě)使能信號(hào)，代表當(dāng)前周期中進(jìn)行的操作是寫(xiě)操作還是讀操作。1代表寫(xiě)，0代表讀。

　　3.1.5.系統(tǒng)庫(kù)及應(yīng)用程序設(shè)計(jì)

　　為了能夠更好地發(fā)揮系統(tǒng)功能，擴(kuò)大系統(tǒng)的應(yīng)用范圍，充分利用系統(tǒng)的各種硬件資源以及外圍設(shè)備，包括鍵盤(pán)、串口、顯示器，項(xiàng)目團(tuán)隊(duì)開(kāi)發(fā)出了供應(yīng)用程序調(diào)用的系統(tǒng)庫(kù)。根據(jù)外設(shè)，可以將系統(tǒng)庫(kù)函數(shù)分為四部分：系統(tǒng)宏定義和端口常量、鍵盤(pán)接口函數(shù)、顯示器接口函數(shù)和串口接口函數(shù)。

　　圖 14 系統(tǒng)庫(kù)及應(yīng)用程序總體結(jié)構(gòu)[!--empirenews.page--]

　　如圖 14，在團(tuán)隊(duì)自主研發(fā)的QS-I 硬件系統(tǒng)的基礎(chǔ)上，團(tuán)隊(duì)開(kāi)發(fā)了函數(shù)系統(tǒng)庫(kù)和多個(gè)應(yīng)用程序。其中系統(tǒng)函數(shù)庫(kù)包括圖形庫(kù)、VGA顯示器接口、RS232串口接口、PS/2鍵盤(pán)接口。應(yīng)用程序根據(jù)所最終運(yùn)行時(shí)的機(jī)器碼可以分為MIPS體系結(jié)構(gòu)應(yīng)用程序和x86體系結(jié)構(gòu)應(yīng)用程序。其中，MIPS體系結(jié)構(gòu)應(yīng)用程序包括使用MIPS匯編語(yǔ)言編寫(xiě)的俄羅斯方塊游戲和使用C語(yǔ)言編寫(xiě)的吃豆子游戲;x86體系結(jié)構(gòu)應(yīng)用程序包括使用8086匯編語(yǔ)言編寫(xiě)的推箱子游戲。

　　該項(xiàng)目的硬件系統(tǒng)是自主研發(fā)的，因而需要開(kāi)發(fā)基于該系統(tǒng)的軟硬件接口函數(shù)庫(kù)，并且需要編寫(xiě)應(yīng)用程序測(cè)試系統(tǒng)的各種功能。

　　該項(xiàng)目的硬件系統(tǒng)支持MIPS體系結(jié)構(gòu)的指令集?；贛IPS指令集，團(tuán)隊(duì)開(kāi)發(fā)了將MIPS匯編語(yǔ)言翻譯成機(jī)器碼的匯編程序，并分別使用MIPS匯編語(yǔ)言和C語(yǔ)言開(kāi)發(fā)了系統(tǒng)函數(shù)庫(kù)。使用MIPS匯編語(yǔ)言開(kāi)發(fā)應(yīng)用程序，用來(lái)驗(yàn)證五級(jí)流水線CPU的功能正確性，檢測(cè)出數(shù)據(jù)相關(guān)和控制相關(guān)出現(xiàn)的問(wèn)題，驗(yàn)證硬件系統(tǒng)對(duì)MIPS指令集的支持度，驗(yàn)證CPU與各種外部設(shè)備互聯(lián)的正確性以及系統(tǒng)的總體性能。

　　基于MIPS匯編語(yǔ)言開(kāi)發(fā)了俄羅斯方塊游戲。俄羅斯方塊的基本規(guī)則是移動(dòng)、旋轉(zhuǎn)和擺放游戲自動(dòng)輸出的各種方塊，使之排列成完整的一行或多行并且消除得分。本設(shè)計(jì)的俄羅斯方塊有5種基本形狀，7種顏色;可通過(guò)鍵盤(pán)控制左移(A)、右移(D)、旋轉(zhuǎn)(W)、加速下降(S)、暫停(Space)、退出(Q)、選擇級(jí)別(L);游戲設(shè)置兩種級(jí)別，普通下降速度和較快下降速度兩級(jí);游戲界面顯示幫助、玩家所得分?jǐn)?shù)、下一個(gè)即將下落的形狀等信息;當(dāng)方塊到達(dá)頂端時(shí)，游戲失敗;玩家通過(guò)不斷的刷新最高分獲得愉悅。

　　為了提高軟件開(kāi)發(fā)的效率，使軟件開(kāi)發(fā)人員方便的使用硬件系統(tǒng)及其外設(shè)資源，團(tuán)隊(duì)使用Gcc編譯器和MASM匯編器的組合，項(xiàng)目團(tuán)隊(duì)開(kāi)發(fā)了基于C語(yǔ)言的應(yīng)用程序，驗(yàn)證硬件系統(tǒng)對(duì)Gcc編譯器和MASM匯編器生成的機(jī)器指令的支持。團(tuán)隊(duì)還開(kāi)發(fā)了基于C語(yǔ)言的系統(tǒng)函數(shù)庫(kù)，包括圖形庫(kù)、VGA顯示器接口、鍵盤(pán)接口和串口接口等。此外，團(tuán)隊(duì)還使用JAVA語(yǔ)言，開(kāi)發(fā)了MIPS指令CPU模擬器，使得在軟件的開(kāi)發(fā)過(guò)程中不需要每次都傳輸?shù)接布_(kāi)發(fā)板上就可以進(jìn)行調(diào)試，大大提高程序開(kāi)發(fā)的效率。

　　基于C語(yǔ)言開(kāi)發(fā)了吃豆子游戲。吃豆子的基本規(guī)則是控制packman的移動(dòng)，使之吃完所有的豆子，并且躲開(kāi)怪物的追捕。本程序設(shè)計(jì)的怪物有2個(gè);豆子有兩種，一種普通的小豆子，還有一種大豆子，吃了大豆子能讓怪物慢下來(lái)幾秒鐘;可通過(guò)鍵盤(pán)控制左移(A)、右移(D)、旋轉(zhuǎn)(W)、加速下降(S)、暫停(Space)、退出(Q);游戲界面顯示幫助、玩家所得分?jǐn)?shù)等信息;當(dāng)玩家被怪物抓到時(shí)，游戲失敗;玩家將所有的豆子都吃光時(shí)，游戲正常結(jié)束。

　　該硬件系統(tǒng)能夠執(zhí)行不同指令集體系結(jié)構(gòu)的機(jī)器碼。為了驗(yàn)證系統(tǒng)執(zhí)行不同指令集機(jī)器碼的正確性，調(diào)試出硬件系統(tǒng)中存在的問(wèn)題，團(tuán)隊(duì)開(kāi)發(fā)了基于x86匯編語(yǔ)言的應(yīng)用程序。團(tuán)隊(duì)還開(kāi)發(fā)了基于x86語(yǔ)言的系統(tǒng)函數(shù)庫(kù)，包括圖形庫(kù)、VGA顯示器接口、鍵盤(pán)接口和串口接口等。

　　基于x86匯編語(yǔ)言開(kāi)發(fā)了推箱子游戲。推箱子的基本規(guī)則是控制機(jī)器人的移動(dòng)，使之把所有的箱子放到指定的位置。箱子只有1種;可通過(guò)鍵盤(pán)控制左移(A)、右移(D)、旋轉(zhuǎn)(W)、加速下降(S)、暫停(Space)、退出(Q);游戲界面顯示幫助、玩家所用的時(shí)間等信息;玩家將所有的箱子都放到適當(dāng)?shù)奈恢脮r(shí)，游戲正常結(jié)束。

　　4.詳細(xì)設(shè)計(jì)方案

　　4.1.RISC CPU詳細(xì)設(shè)計(jì)方案

　　4.1.1.RISC CPU(QS-I)整體模塊

　　圖 15 QS-I CPU整體模塊圖

　　如圖 15所示，QS-I的整體模塊中主要包括兩部分，第一部分是五級(jí)流水線和Cache，另一個(gè)模塊是動(dòng)態(tài)二進(jìn)制翻譯加速模塊(DBT Accelerator)。CPU的對(duì)外接口符合Wishbone總線標(biāo)準(zhǔn)。

　　在下一節(jié)中，我們將會(huì)介紹QS-I CPU中各個(gè)單元模塊功能以及其時(shí)序。

　　4.1.2.RISC CPU(QS-I)各單元模塊功能與時(shí)序

　　4.1.2.1五級(jí)流水線模塊詳細(xì)設(shè)計(jì)方案

　　功能描述

　　本模塊的功能是完成指令的五級(jí)流水化執(zhí)行，并支持中斷及異常。一條指令的執(zhí)行經(jīng)過(guò)是Fetch(取指) à Decode(譯碼) à Execute(執(zhí)行) à Memory(訪存) à Writeback(寫(xiě)回)五個(gè)階段。其中Fetch階段從指令Cache中由PC(Praogram Counter)取得下一條指令;Decode階段完成指令的大部分譯碼工作，并產(chǎn)生相應(yīng)的控制信號(hào);Execute階段主要完成指令的算術(shù)運(yùn)算以及少量選擇電路;Memory階段完成訪存任務(wù)，數(shù)據(jù)將從數(shù)據(jù)Cache中讀取或者寫(xiě)入;Writeback階段完成寫(xiě)回指令的修改Register File(寄存器堆)的寫(xiě)操作。此外，本模塊完成了流水線中的精確中斷處理。

子模塊列表

Module	Description
pc_reg	Module of PC register
if_stage	Instruction Fetch stage
if_id_reg	Registers between IF and ID stages
id_stage	Instruction Decode stage
id_exe_stage	Registers between ID and EXE stages
exe_stage	Execute stage
exe_mem_reg	Registers between EXE and MEM stages
mem_stage	Memory stage
mem_wb_reg	Registers between MEM and WB stages
wb_stage	Writeback stage
except	Module of exception handling

　　詳細(xì)設(shè)計(jì)

　　pc_reg

　　本模塊完成對(duì)PC寄存器的更新任務(wù)。若流水線中出現(xiàn)stall或者Cache發(fā)生miss等情況則延遲對(duì)PC寄存器的更新。本模塊的時(shí)序如下圖所示。

　　圖 16 pc_reg時(shí)序圖

　　if_stage

　　本模塊完成對(duì)指令Cache的取指。模塊的對(duì)外接口符合Wishbone總線標(biāo)準(zhǔn)。CPU的對(duì)外接口包括IBus(指令總線)和DBus(數(shù)據(jù)總線)，為了將CPU成功集成入Wishbone總線中，CPU的對(duì)外接口部分的邏輯設(shè)計(jì)必須符合Wishbone標(biāo)準(zhǔn)。此外，CPU對(duì)外部設(shè)備(如RAM，ROM，UART)的訪問(wèn)速度以及CPU有無(wú)Cache(高速緩存)是未知的，因此這部分的邏輯設(shè)計(jì)必須帶有通用性。

　　本模塊的主要時(shí)序如下圖。

　　圖 17 if_stage時(shí)序圖

　　if_id_reg

　　本模塊完成IF和ID兩個(gè)階段之間的信號(hào)流水。本模塊的時(shí)序圖如下。

　　圖 18 if_id_reg時(shí)序圖

　　id_stage

　　本模塊完成指令的基本譯碼，并產(chǎn)生相應(yīng)的控制信號(hào)。RISC處理器的結(jié)構(gòu)競(jìng)爭(zhēng)、控制競(jìng)爭(zhēng)、數(shù)據(jù)競(jìng)爭(zhēng)三大競(jìng)爭(zhēng)的解決：

　　采用旁路(bypass)技術(shù)解決數(shù)據(jù)競(jìng)爭(zhēng)，雙跳(double bump)解決結(jié)構(gòu)競(jìng)爭(zhēng)，延時(shí)槽技術(shù)解決控制競(jìng)爭(zhēng)。

　　本模塊的基本時(shí)序圖如下。

　　圖 19 id_stage時(shí)序圖

　　id_exe_stage

　　本模塊完成IF和ID兩個(gè)階段之間的信號(hào)流水。本模塊的時(shí)序圖如下。

　　圖 20 id_exe_reg時(shí)序圖

　　exe_stage

　　本模塊完成指令的算術(shù)邏輯運(yùn)算。其中，運(yùn)算包括add, sub, and, or, xor, nor, sll, srl, sra, lui等算術(shù)或邏輯運(yùn)算。

　　為了x86架構(gòu)動(dòng)態(tài)翻譯的加速需要，在ALU(算術(shù)運(yùn)算單元)中增加了x86 flag標(biāo)志寄存器，并將該寄存器作為一個(gè)系統(tǒng)寄存器，用戶程序可通過(guò)mfc0，mtc0指令來(lái)修改flag標(biāo)志寄存器。

　　本模塊的時(shí)序圖如下。

　　圖 21 exe_stage時(shí)序圖