Tegra 4 GPU架構(gòu)解析:比iPad4還快?
頂著“全球第一款四核A15處理器”的光環(huán),NVIDIA Tegra 4看起來(lái)很誘人,但只能說(shuō)局限在CPU方面,GPU圖形核心卻是另外一回事兒。不說(shuō)別的,黃仁勛在發(fā)布會(huì)上只展示CPU的強(qiáng)大,對(duì)于GPU表現(xiàn)卻只字不提,由此就可見(jiàn)一斑。
Tegra 4 CPU部分包括五個(gè)Cortex-A15架構(gòu)核心,其中四個(gè)是主力,頻率最高可達(dá)1.9GHz,第五個(gè)則是專門的節(jié)能核心,最新消息顯示頻率在700-800MHz之間,用于執(zhí)行輕負(fù)載。
GPU部分仍然叫做GeForce ULP,并未使用現(xiàn)在業(yè)界通行的統(tǒng)一渲染架構(gòu),而依然是古老的像素、頂點(diǎn)分離式,最要命的是不支持新的OpenGL ES 3.0標(biāo)準(zhǔn)規(guī)范,和其他家的方案相比就輸了一大截。NVIDIA對(duì)此的解釋是,這種架構(gòu)更適合在Tegra 4設(shè)計(jì)期間的移動(dòng)媒體類型——嘴硬,新產(chǎn)品設(shè)計(jì)就不考慮未來(lái)么?
Tegra 2/3/4這三代產(chǎn)品的圖形核心都有不同數(shù)量的GPU核心組成,或者說(shuō)是Vec4 ALU單元的獨(dú)立組件,可同時(shí)執(zhí)行標(biāo)量和矢量操作。在架構(gòu)上,它們都是源于NV4x,但和當(dāng)年并不完全相同,比如那時(shí)候還是Vec3+Scalar,即每一組著色器單元中只有三個(gè)是通用的,第四個(gè)僅能執(zhí)行標(biāo)量操作。
Tegra 2只有單個(gè)Vec4頂點(diǎn)著色器單元和單個(gè)Vec4像素著色器單元,分別有4個(gè)核心,因此總計(jì)8核心。
Tegra 3將像素單元的數(shù)量增加了一倍,頂點(diǎn)單元沒(méi)變,因此總計(jì)12個(gè)核心。
Tegra 4擴(kuò)充到了6個(gè)頂點(diǎn)單元(FP32 24核心)、4個(gè)3-deep像素單元(FP20 48核心),總的核心數(shù)量達(dá)到了72個(gè),六倍于Tegra 3,最高頻率全部都超過(guò)了Tegra 3的520MHz,但具體數(shù)值仍然不詳。
除了核心規(guī)模上的猛增,Tegra 4同樣還有其他很多圖形技術(shù)的改進(jìn)和增強(qiáng),比如像素著色單元設(shè)計(jì)的效率更高、終于支持真正的MSAA多重采樣抗鋸齒和幀緩沖壓縮(Color/Z)、支持24-bit Z/Stencil ROP(之前是16-bit)、最大紋理分辨率從2K×2K提高到4K×4K、百分比漸進(jìn)過(guò)濾(PCT)支持陰影、硬件支持FP16過(guò)濾器與混合,但還不支持適應(yīng)性縮放紋理壓縮(ASTC).
從理論上計(jì)算,Tegra 4 GPU的頻率即便只有520MHz,浮點(diǎn)性能也會(huì)達(dá)到74.8GFlops,超過(guò)了iPad4 A6X處理器里邊PowerVR 554MP4圖形核心的71.6GFlops。當(dāng)然了,這只是理論上的,不代表實(shí)際性能(看看現(xiàn)在的A卡和N卡你就知道了),在應(yīng)用和游戲里還需要相應(yīng)的優(yōu)化,特別是Tegra 4還是非統(tǒng)一架構(gòu)。
正因?yàn)槿绱?,泄露的Tegra 4GLBenchmark成績(jī)才比較慘,NVIDIA方面也是對(duì)此不屑一顧,聲稱在最終頻率上,Tegra 4無(wú)論基準(zhǔn)測(cè)試還是3D游戲都要快于A6X。