如何選擇最優(yōu)的NVMe-over-Fabrics方案
掃描二維碼
隨時(shí)隨地手機(jī)看文章
NVMe?作為一種SCSI的替代型協(xié)議,其目的在于實(shí)現(xiàn)低延遲運(yùn)行。目前市場(chǎng)上主要的服務(wù)器和存儲(chǔ)供應(yīng)商都采用了該協(xié)議,用來(lái)替代固態(tài)硬盤(pán)(SSD)訪問(wèn)過(guò)程中的SCSI協(xié)議。采用NVMe協(xié)議后,基于NVMe的SSD可以消除傳統(tǒng)存儲(chǔ)實(shí)施過(guò)程中固有的瓶頸。由此,對(duì)于企業(yè)數(shù)據(jù)中心內(nèi)的各類應(yīng)用程序的訪問(wèn)操作,相應(yīng)的訪問(wèn)速度都將大大提升。本文就帶您解析下將NVMe 用在 SSD中,以及大規(guī)模組網(wǎng)部署時(shí)會(huì)遇到哪些關(guān)鍵問(wèn)題。
為何 NVMe的應(yīng)用范圍如此廣泛且增長(zhǎng)迅猛?
NVMe是一款為了與高速閃存進(jìn)行通信而全新設(shè)計(jì)的協(xié)議,其僅需30條專為處理 SSD開(kāi)發(fā)的指令。此外,為了利用最新多核處理器的并行處理能力,該協(xié)議還支持多深度指令隊(duì)列。NVMe協(xié)議最多可支持到64K個(gè)隊(duì)列(queues),且其每個(gè)隊(duì)列可以支持64K個(gè)指令(commands)操作。傳統(tǒng)SCSI、SAS和SATA協(xié)議的初始開(kāi)發(fā)目的在于傳統(tǒng)的機(jī)械硬盤(pán)(HDD),與之相比,NVMe表現(xiàn)出了巨大進(jìn)步。
縱觀當(dāng)今全球市場(chǎng),基于NVMe的SSD驅(qū)動(dòng)器的銷量正在趕超SAS和SATA的SSD存儲(chǔ)器銷量*。這是因?yàn)?,?duì)于當(dāng)前和下一代SSD技術(shù)(如3D XPoint和NVDIMM非易失性DIMM)而言,NVMe協(xié)議都能帶來(lái)顯著的性能提升。
為何需要考慮采用 NVMe-over-Fabrics?
構(gòu)建NVMe協(xié)議的主要目標(biāo)在于,允許中央處理器(CPU)使用PCIe總線訪問(wèn)服務(wù)器內(nèi)部基于 NVMe的SSD。但是,存儲(chǔ)管理員開(kāi)始意識(shí)到,本地服務(wù)器存儲(chǔ)引發(fā)了嚴(yán)重的管理問(wèn)題,尤其在過(guò)度供應(yīng)昂貴的SSD存儲(chǔ)資源方面最為突出(也就是通過(guò)考慮充分的余量應(yīng)對(duì)任何過(guò)度需求)。根據(jù)應(yīng)用的工作負(fù)載,不同服務(wù)器所需的高性能NVMe SSD存儲(chǔ)量也不盡相同。這些應(yīng)用可以遷移至不同的物理服務(wù)器,但是所需的SSD存儲(chǔ)量始終相同。為避免每臺(tái)服務(wù)器過(guò)度占用昂貴的SSD存儲(chǔ)器,更加經(jīng)濟(jì)高效的模式是建立一個(gè)NVMe SSD共享存儲(chǔ)池,由此可根據(jù)工作負(fù)載動(dòng)態(tài)分配存儲(chǔ)空間。
對(duì)于本地存儲(chǔ),最重要一點(diǎn)在于必須備份所有數(shù)據(jù),以防服務(wù)器發(fā)生故障。此外,過(guò)去的存儲(chǔ)方式還存在嚴(yán)重的安全隱患,并且不同站點(diǎn)間的復(fù)制往往難以管理。通過(guò)共享存儲(chǔ),管理員就可以避免上述問(wèn)題。換言之,CIO不僅可以跨服務(wù)器充分利用高性能閃存,還兼具現(xiàn)代化存儲(chǔ)陣列具備的所有更強(qiáng)大的可用性和安全性特點(diǎn),并且具有類似于本地NVMe SSD存儲(chǔ)的高性能和低延遲優(yōu)勢(shì)。
NVMe-over-Fabrics的發(fā)展趨勢(shì)如何?
為了理解這一問(wèn)題,不妨把共享存儲(chǔ)陣列和汽車發(fā)動(dòng)機(jī)進(jìn)行類比。具體來(lái)說(shuō),可以認(rèn)為傳統(tǒng)的光纖通道FC/iSCSI共享存儲(chǔ)就相當(dāng)于傳統(tǒng)的汽油發(fā)動(dòng)機(jī)。這些方案已經(jīng)應(yīng)用多年,非??煽?,它們將在長(zhǎng)時(shí)間內(nèi)提供一種優(yōu)良的運(yùn)輸方式。
隨著時(shí)間的推移,混合動(dòng)力汽車越來(lái)越普遍,并且兼具電動(dòng)和汽油的優(yōu)勢(shì)。與此類似,更加新穎的NVMe陣列在其內(nèi)部混合了NVMe,但仍然使用SCSI指令通過(guò)FC或以太網(wǎng)傳輸協(xié)議連接至主機(jī)。
盡管大多數(shù)人同意電動(dòng)汽車是未來(lái)的必然發(fā)展趨勢(shì),但當(dāng)下卻仍未成為主流。因?yàn)榕c傳統(tǒng)方案相比,電動(dòng)汽車不僅更加昂貴,而且相關(guān)基礎(chǔ)設(shè)施尚且分布不足,無(wú)法支撐充電需求。可以想象,處于成長(zhǎng)期的NVMe存儲(chǔ)陣列與全電動(dòng)汽車正處于相同的境地。NVMe-over-Fabrics正是落實(shí)NVMe存儲(chǔ)的基礎(chǔ)設(shè)施。這種方式將在適當(dāng)時(shí)機(jī)成為連接共享存儲(chǔ)陣列與服務(wù)器之間的主流通信標(biāo)準(zhǔn),但是在廣泛部署NVMe-over-Fabrics并且解決所有相關(guān)的新生問(wèn)題之前,尚且還有很長(zhǎng)的發(fā)展道路。
您應(yīng)當(dāng)選擇哪種 NVMe-over-Fabrics 方案?
存儲(chǔ)管理員面臨的最大難題在于,確定哪種技術(shù)是正確的投資方向。與任何新出現(xiàn)的技術(shù)一樣,整體方案的部署有多種途徑。從這個(gè)角度來(lái)說(shuō),NVMe-over-Fabrics 也毫不例外。NVMe指令可以通過(guò)FC、啟用了RDMA的以太網(wǎng)或使用TCP/IP的標(biāo)準(zhǔn)以太網(wǎng)進(jìn)行傳輸。您可通過(guò)閱讀以下內(nèi)容,即可了解不同方案間的主要差異。

圖 1:目前可用的主流NVMe光纖連接方案
1. NVMe-over-FC(FC-NVMe)
對(duì)于已經(jīng)部署了光纖通道存儲(chǔ)網(wǎng)絡(luò)(SAN)基礎(chǔ)設(shè)施的用戶而言,F(xiàn)C-NVMe當(dāng)屬最優(yōu)方案。使用16Gb FC或32Gb FC主機(jī)總線適配器(HBA)和SAN交換機(jī),即可將NVMe協(xié)議封入FC框架內(nèi)部。通過(guò)升級(jí)至最新的HBA固件和驅(qū)動(dòng)程序則能獲取Linux服務(wù)器上的FC-NVMe支持。因此,投資新型16Gb或32Gb FC HBA和SAN基礎(chǔ)設(shè)施,能夠?yàn)閼?yīng)用今后推出的FC-NVMe存儲(chǔ)陣列做好提前準(zhǔn)備。另外值得注意的是,SCSI (FCP) 和 NVMe (FC-NVMe) 可以共存于相同的FC光纖網(wǎng)絡(luò)中,因此,基于FC-SCSI的老存儲(chǔ)可以與全新的NVMe存儲(chǔ)同時(shí)運(yùn)行。
2. 使用RDMA (NVMe/RDMA)的NVMe-over-Ethernet 光纖
這種RDMA兼容型以太網(wǎng)適配器現(xiàn)已獲得授權(quán)。RDMA有兩種不同的部署方式,名稱分別為RoCE(v1/v2)和iWARP。然而非常遺憾,以上兩種協(xié)議無(wú)法實(shí)現(xiàn)交互操作。下面我將簡(jiǎn)要說(shuō)明兩種協(xié)議各自的優(yōu)劣勢(shì):
NVMe-over-RoCE (NVMe/RoCE):如果您使用的是只有以太網(wǎng)的網(wǎng)絡(luò),NVMe-over-RoCE是共享存儲(chǔ)或超融合基礎(chǔ)設(shè)施(HCI)連接的最佳方案。正因如此,目前已有多家存儲(chǔ)陣列供應(yīng)商公布了他們的計(jì)劃,及表示支持NVMe-over-RoCE連接。RoCE能夠提供最低的以太網(wǎng)絡(luò)延遲,并且對(duì)于跳數(shù)不超過(guò) 2 個(gè)的小規(guī)模存儲(chǔ)網(wǎng)絡(luò),能達(dá)到非常優(yōu)異的運(yùn)行效果。顧名思義,RoCE需要聚合或無(wú)損的以太網(wǎng)絡(luò)才能正常運(yùn)行。此外,該方案還需啟用實(shí)現(xiàn)額外的網(wǎng)絡(luò)功能,包括數(shù)據(jù)中心橋接(DCB)、優(yōu)先流控制(PFC),以及其他一些更復(fù)雜的組織架構(gòu)和網(wǎng)絡(luò)擁塞管理機(jī)制。如果低延遲是您的首要目標(biāo),那么NVMe-over-RoCE很可能是您的最優(yōu)選擇,盡管其網(wǎng)絡(luò)復(fù)雜性也相對(duì)較高。
NVMe-over-iWARP (NVMe/iWARP):iWARP RDMA協(xié)議運(yùn)行于標(biāo)準(zhǔn)TCP/IP網(wǎng)絡(luò)之中,因此其部署操作也更加簡(jiǎn)單。盡管該協(xié)議的延遲性能不及RoCE,但更加易用的特性以及更低的管理難度依然具有巨大的吸引力。在現(xiàn)階段,存儲(chǔ)陣列供應(yīng)商尚未設(shè)計(jì)出支持 iWARP的陣列,因此目前的iWARP最適合軟件定義或者基于Microsoft Azure Stack HCI / Storage Spaces Direct (S2D) 等HCI解決方案。
3. NVMe-over-TCP (NVMe/TCP)
NVMe-over-TCP還處于研發(fā)萌芽階段。該方案于2018年11月獲批,在不進(jìn)行任何必要調(diào)整工作的情況下即可在現(xiàn)有的以太網(wǎng)基礎(chǔ)設(shè)施中運(yùn)行(這一點(diǎn)利用了TCP/IP廣泛的普遍性)。 NVMe-over-TCP發(fā)揮的性能表現(xiàn)可能在速度上不及NVMe-over-RDMA或FC-NVMe,但在標(biāo)準(zhǔn)以太網(wǎng)卡和以太網(wǎng)網(wǎng)絡(luò)交換機(jī)上就可以輕松實(shí)現(xiàn)部署。無(wú)需大量的硬件投資,即可享受NVMe SSD存儲(chǔ)的主要優(yōu)勢(shì)。Marvell? FastLinQ? 10/25/50/100GbE等部分網(wǎng)卡還能利用網(wǎng)卡內(nèi)置的TCP/IP協(xié)議棧的硬件卸載(offload)功能,發(fā)揮為NVMe/TCP報(bào)文卸載并加速的潛力。
總結(jié)
無(wú)論您決定采用哪種NVMe-over-Fabrics路線,Marvell都能為您提供豐富靈活的產(chǎn)品組合,并在部署過(guò)程中為您提供一切幫助。尤其要強(qiáng)調(diào)的是,Marvell QLogic? 16Gb和32Gb FC主機(jī)總線適配器(HBA)支持FC-NVMe;同時(shí),得益于網(wǎng)卡內(nèi)置的通用型RDMA功能,Marvell FastLinQ 41000和45000系列的10/25/40/50/100Gb以太網(wǎng)NIC和CNA網(wǎng)卡均支持NVMe-over-RoCE和NVMe-over-iWARP功能以及NVMe-over-TCP。因此,管理員可以根據(jù)自身需求確定系統(tǒng)架構(gòu),同時(shí)還能確?,F(xiàn)階段的部署也可應(yīng)用于未來(lái)的網(wǎng)絡(luò)。
*數(shù)據(jù)來(lái)源:DRAMeXchange以及其他行業(yè)分析師發(fā)布的數(shù)據(jù)
關(guān)于 Marvell
Marvell率先以超出想象的速度傳輸信息,從而為數(shù)字存儲(chǔ)行業(yè)帶來(lái)全新變革。今天,突破性創(chuàng)新仍然是Marvell存儲(chǔ)、處理、網(wǎng)絡(luò)、安全和連接解決方案的核心。憑借領(lǐng)先的知識(shí)產(chǎn)權(quán)和深厚的系統(tǒng)級(jí)知識(shí),Marvell基礎(chǔ)設(shè)施半導(dǎo)體解決方案不斷為企業(yè)、云、汽車、工業(yè)和消費(fèi)類市場(chǎng)帶來(lái)變革。