高端計(jì)算的解決方案是堆疊硅片。
一批高性能處理器表明,延續(xù)摩爾定律的新方向是向上發(fā)展。每一代處理器都要比上一代性能更好,究其根本,這意味著要在硅片上集成更多的邏輯。但其中存在兩個(gè)問(wèn)題。首先,我們縮小晶體管及其組成的邏輯和內(nèi)存塊的能力正在放緩。其次,單塊芯片已經(jīng)達(dá)到了尺寸極限。光刻工具可以在850平方毫米的面積內(nèi)繪制圖案,這大約是一個(gè)現(xiàn)代服務(wù)器圖形處理單元(GPU)的大小。
有一種解決辦法是將兩塊或多塊硅片并排放置在同一個(gè)封裝中,并使用幾毫米長(zhǎng)的密集互連將它們縫合在一起,這樣它們就可以作為一個(gè)單元有效地運(yùn)行。這種所謂的2.5D方案由先進(jìn)的封裝技術(shù)實(shí)現(xiàn),已經(jīng)落后于幾個(gè)頂級(jí)處理器,這些處理器現(xiàn)在由多個(gè)功能性“芯?!苯M成,而不是單個(gè)集成電路。 但是,要像在同一塊芯片上一樣傳輸大量數(shù)據(jù),我們需要更短、更密集的連接,而這只能通過(guò)將一塊芯片堆疊在另一塊芯片上來(lái)實(shí)現(xiàn)。在3D方案中面對(duì)面連接兩塊芯片可能意味著每平方毫米要有數(shù)百甚至數(shù)千微米長(zhǎng)的連接。通過(guò)這些短而密集的連接,只需很少的能量就能將數(shù)據(jù)從一塊硅片快速傳輸?shù)搅硪粔K,就好像兩塊硅片是一塊芯片一樣。要做到這一點(diǎn)需要很多創(chuàng)新。工程師們必須想辦法防止堆棧中一塊芯片的熱量破壞另一塊芯片,決定哪些功能應(yīng)該放在哪里、這些功能如何實(shí)現(xiàn),防止偶爾出現(xiàn)的壞芯片造成大量昂貴的無(wú)用系統(tǒng),以及應(yīng)對(duì)一次完成這一切所增加的復(fù)雜性。
以下3個(gè)示例不僅展示了3D芯片堆疊是如何完成的,還介紹了其優(yōu)勢(shì)。
采用3D V-Cache緩存技術(shù)的AMD Zen 3
長(zhǎng)期以來(lái),個(gè)人計(jì)算機(jī)都可以選擇增加內(nèi)存,以便提高處理超大應(yīng)用和大數(shù)據(jù)量工作的速度。由于3D芯片堆疊的出現(xiàn),超微半導(dǎo)體公司(AMD)的下一代CPU芯粒也有了這個(gè)選擇。當(dāng)然,這不是售后市場(chǎng)的擴(kuò)展組件,但如果你想打造一臺(tái)更具魅力的計(jì)算機(jī),那么訂購(gòu)一款有超大緩存的處理器可能是正確的選擇。

吳指出,與縮小邏輯的能力相比,業(yè)界縮小SRAM的能力正在放緩。因此,未來(lái)的SRAM擴(kuò)展包可能會(huì)繼續(xù)使用更成熟的制造工藝,而計(jì)算芯粒將被推到摩爾定律的最前沿。
Graphcore的Bow AI處理器
即使堆棧中的一塊芯片上沒(méi)有晶體管,3D集成也可以加快計(jì)算速度??偛课挥谟?guó)的人工智能(AI)計(jì)算機(jī)公司Graphcore僅通過(guò)在其AI處理器上安裝一塊功率傳輸芯片,就大幅提高了其系統(tǒng)的性能。增加功率傳輸硅片意味著名為Bow的組合芯片可以運(yùn)行得更快,為1.85而非1.325千兆赫,且電壓低于其前一代。與上一代相比,這相當(dāng)于通過(guò)訓(xùn)練神經(jīng)網(wǎng)絡(luò)使計(jì)算機(jī)的速度提高了40%,而能耗降低了16%。重要的是,用戶無(wú)須更改其軟件便能獲得這種提升。

英特爾的Ponte Vecchio超級(jí)計(jì)算機(jī)芯片
極光超級(jí)計(jì)算機(jī)旨在成為美國(guó)首批突破exaflop屏障(每秒百億億次高精度浮點(diǎn)運(yùn)算)的高性能計(jì)算機(jī)之一。為了讓極光達(dá)到這種高度,英特爾的Ponte Vecchio在47塊硅片上封裝了1000多億個(gè)晶體管,構(gòu)成了一臺(tái)處理器。英特爾使用2.5D和3D技術(shù)將3100平方毫米的硅片塞進(jìn)了2330平方毫米的空間中,大約相當(dāng)于4塊英偉達(dá)A100 GPU。

戈麥斯表示,從2008年第一臺(tái)千萬(wàn)億次浮點(diǎn)運(yùn)算超級(jí)計(jì)算機(jī)發(fā)展到今年的百億億次浮點(diǎn)運(yùn)算超級(jí)計(jì)算機(jī)花了14年。他預(yù)測(cè),借助3D堆疊等先進(jìn)封裝技術(shù),下次將計(jì)算速度提高千倍所需的時(shí)間可能會(huì)縮短到6年。
3D技術(shù)
混合鍵合將芯片互連堆棧頂部的銅焊盤(pán)與另一塊芯片上的銅焊盤(pán)直接鍵合在一起。在混合鍵合中,焊盤(pán)位于被氧化物絕緣體包圍的小凹槽中。絕緣體被化學(xué)激活,在室溫下被反向按壓時(shí)會(huì)立即結(jié)合。然后,在退火步驟中,銅焊盤(pán)會(huì)膨脹并橋接間隙,形成低阻抗鏈路。混合鍵合的連接密度高達(dá)每平方毫米1萬(wàn)個(gè)鍵合,遠(yuǎn)高于微凸塊技術(shù)每平方毫米400至1600個(gè)鍵合的連接密度(見(jiàn)圖表)。

微凸塊本質(zhì)上是一種叫做“倒裝芯片”的標(biāo)準(zhǔn)封裝技術(shù)的縮小版。在倒裝芯片中,焊料凸塊被添加到了芯片頂部(表面)的互連端點(diǎn)。然后將芯片翻轉(zhuǎn)到具有一組匹配互連的封裝基板上,并熔化焊料形成鍵合。要用這種技術(shù)堆疊兩塊芯片,其中一塊芯片的表面必須有短銅柱。然后用一個(gè)“微凸塊”焊料蓋住這些芯片,通過(guò)熔化焊料將兩塊芯片面對(duì)面連接起來(lái)。
使用微凸塊時(shí),從一個(gè)連接的起點(diǎn)到下一個(gè)連接最邊緣的最短距離(也就是間距)可以小于50微米。英特爾在Ponte Vecchio超級(jí)計(jì)算機(jī)芯片中使用了36微米間距版本的Foveros 3D集成技術(shù)。三星表示,其名為3D X-Cube的微凸塊技術(shù)可以實(shí)現(xiàn)30微米的間距。該技術(shù)達(dá)不到(上述)混合鍵合的密度。然而,它對(duì)對(duì)齊和平面化的要求并不像混合鍵合那樣嚴(yán)格,因此更容易將采用不同制造技術(shù)制造的多塊芯片堆疊到單個(gè)基極芯片上。
硅通孔(TSV)是垂直向下穿過(guò)芯片硅的互連。它們不會(huì)貫穿整個(gè)晶圓,因此必須將硅片的背面磨平,直至硅通孔暴露出來(lái)。這在3D堆疊芯片中通常是必要的,因?yàn)橐獙⑿酒I合在一起使其互連面對(duì)面。在這種情況下,硅通孔可為堆棧供電并提供數(shù)據(jù)。多年來(lái),它們?cè)诖怪倍询B多塊內(nèi)存芯片的高帶寬動(dòng)態(tài)RAM中得到了廣泛應(yīng)用。但隨著3D芯片堆疊技術(shù)的發(fā)展,這項(xiàng)技術(shù)也應(yīng)用到了邏輯芯片中。