當(dāng)前位置：首頁(yè) > 消費(fèi)電子 > 消費(fèi)電子

嵌入式視頻圖像系統(tǒng)壓縮算法的實(shí)現(xiàn)和優(yōu)化

時(shí)間：2009-03-31 15:05:18

關(guān)鍵字：嵌入式視頻視頻圖像系統(tǒng) DMA CPU

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]引言隨著網(wǎng)絡(luò)技術(shù)和多媒體技術(shù)的發(fā)展.視頻通信的需求逐漸增加.同時(shí)最新的視頻壓縮標(biāo)準(zhǔn)不斷推出。MPEG-4 ( Moving Pictures Expcrts Group-4)是國(guó)際運(yùn)動(dòng)圖像像編碼專(zhuān)家組(MPEG Moving Picture Experts Group)在1998年

引言

隨著網(wǎng)絡(luò)技術(shù)和多媒體技術(shù)的發(fā)展.視頻通信的需求逐漸增加.同時(shí)最新的視頻壓縮標(biāo)準(zhǔn)不斷推出。MPEG-4 ( Moving Pictures Expcrts Group-4)是國(guó)際運(yùn)動(dòng)圖像像編碼專(zhuān)家組(MPEG Moving Picture Experts Group)在1998年11月制定[1]的，它不同于其他標(biāo)準(zhǔn).是個(gè)而向多媒體應(yīng)用的壓縮標(biāo)準(zhǔn). 第1次提出了基于對(duì)象的壓縮方法.使交互功能的實(shí)現(xiàn)成為可能。日前基于PC平臺(tái)的MPEG-4視頻編碼器[2]在互聯(lián)網(wǎng)的遠(yuǎn)程教育和高清晰電影等方面己經(jīng)有較多的應(yīng)用.但在硬盤(pán)錄像機(jī)、多媒體通信等視頻業(yè)務(wù)的嵌入式系統(tǒng)應(yīng)用更為廣泛。以DSP為嵌入式圖像處理核心的系統(tǒng)，具有開(kāi)發(fā)周期短，編程靈活的特點(diǎn)，因此DSP圖像處理系統(tǒng)成為了研究熱點(diǎn)。

DSPs結(jié)構(gòu)特點(diǎn)

TMS320C6455是TI ( Tcxas Instrumcnts Incorporatcd)公司推出的最新高速DSP芯片[3]。具體結(jié)構(gòu)見(jiàn)圖1。最主要的特點(diǎn)從是結(jié)構(gòu)[4]上采用了VLIW(VLIW: VeryLong Instruction Word)超長(zhǎng)指令字內(nèi)核結(jié)構(gòu).具有1200 MHz的CPU，每個(gè)周期可以同時(shí)執(zhí)行8條32bit的指令。速度可達(dá)到9600 MIPS ( 1200 MHz X 8條指令=4 800 MIPS) 。片內(nèi)采用2級(jí)高速緩存結(jié)構(gòu).片外存儲(chǔ)器有很強(qiáng)大的外部存儲(chǔ)器接口EMIF ( Extcrnal Mcm ory Intcrfacc)。這些性能能滿足視頻圖像處理的實(shí)時(shí)性要求.確立了它在高端多媒體應(yīng)用中的地位。

圖1 TMS320C6455DSP 的內(nèi)核結(jié)構(gòu)

對(duì)Cache的優(yōu)化

最大程度地發(fā)揮Cache效率是達(dá)到期望編碼器性能的一個(gè)關(guān)鍵因素[5]。Cache高速的存儲(chǔ)訪問(wèn)速度可以減少CPU延遲周期.提高處理器的效率。TMS320C64xDSP有兩級(jí)存儲(chǔ)結(jié)構(gòu)應(yīng)用片內(nèi)數(shù)據(jù)和程序存儲(chǔ)。對(duì)于L1Cache能夠以CPU的同樣速度訪問(wèn)。L2Cache既可以作數(shù)據(jù)空間也可以作為程序空間使用.L2是片外空間與L1的橋梁。

MPEG-4視頻編碼器是以宏塊為單位進(jìn)行編碼處理，只有當(dāng)前宏塊處理完成所有的過(guò)程后，視頻編碼器才能傳送一個(gè)宏塊。直接出現(xiàn)的缺點(diǎn)是: 一個(gè)視頻編碼器整個(gè)代碼大于 L1P。每個(gè)宏塊在 L1P和 L2之間的傳送過(guò)程，導(dǎo)致嚴(yán)重的Cache缺失。而一個(gè)單獨(dú)的宏塊從片外存儲(chǔ)空間到片內(nèi)空間的搬移 , 也不能發(fā)揮 EDMA (Extended Direct Memony Access )的優(yōu)勢(shì)。
　　
為避免發(fā)生的Cache大量缺失，采取 3種方法[6] 。

1.整個(gè)編碼算法應(yīng)該分成 3個(gè)模塊: 宏塊編碼、運(yùn)動(dòng)估計(jì)、運(yùn)動(dòng)重建 , 這樣使每個(gè)模塊代碼都適合 L1P。每次循環(huán)以宏塊組為單位 , 宏塊組的大小由 L1D大小決定。在宏塊編碼模塊中, 當(dāng)宏塊組被傳送到片內(nèi)，他們一起經(jīng)過(guò) DCT Direct Cosine Transform 、量化、熵編碼 , 直到宏塊組編碼模塊結(jié)束為止，L1D才刷新這組宏塊。同時(shí)對(duì)應(yīng)的程序包括 DCT、量化、熵編碼也被保存到 L1P。

2.盡量減少數(shù)據(jù)類(lèi)型的大小?？梢杂?8位數(shù)據(jù)就不用 16位數(shù)據(jù) , 這樣不但節(jié)省空間，而且能提高L1D的使用效率。因?yàn)?L1D行的大小是固定的，在一行內(nèi)如果采用 8位數(shù)據(jù) 比 16位數(shù)據(jù)可多放一倍 , 從而減少程序中 Cache缺失情況的發(fā)生。

3.采用乒乓緩存結(jié)構(gòu), 提高 Cache命中率 , 減少 CPU等待時(shí)間。

在視頻編碼模塊中，當(dāng)前幀和參考幀數(shù)據(jù)放在片外存儲(chǔ)器，在編碼過(guò)程中需要依次對(duì)圖像幀中的每個(gè)宏塊進(jìn)行操作。但宏塊直接從片外內(nèi)存讀取，這就會(huì)發(fā)生CPU等待?？梢栽O(shè)置兩對(duì)片上緩存，一對(duì)存放當(dāng)前幀宏塊，一對(duì)存放參考幀宏塊，它們以乒乓方式工作。乒乓緩沖工作模式如圖1所示。編碼前E DMA將片外的當(dāng)前幀中編碼宏塊數(shù)據(jù)和在搜索范圍內(nèi)的參考幀宏塊數(shù)據(jù)搬移到片上內(nèi)存。在用EDMA搬移數(shù)據(jù)到其中一塊片內(nèi)緩存的同時(shí)，，處理器可以對(duì)另一塊緩存中的數(shù)據(jù)進(jìn)行處理。經(jīng)過(guò)這樣的修改，CPU一直從片上讀取存儲(chǔ)器數(shù)據(jù)大大減少了CPU阻塞情況的發(fā)生，提高了編碼速度。

圖2 乒乓緩沖存儲(chǔ)器結(jié)構(gòu)

SAD和像素插值的優(yōu)化

SAD(Sum ofAbsolute Difference)是運(yùn)動(dòng)估計(jì)模塊[7]關(guān)鍵模塊 , 而 DM642提供了一套豐富的視頻和圖像專(zhuān)用指令可以高效實(shí)現(xiàn)運(yùn)動(dòng)估計(jì)算法。

LDNDW (Load Non2alignedDoubleWord)指令，可以一次讀取 64位無(wú)邊界數(shù)據(jù)。這個(gè)指令可以從當(dāng)前幀中和參考幀一次讀取8個(gè) 8位像素?cái)?shù)據(jù)。因此可以提高當(dāng)前幀和參考幀宏塊數(shù)據(jù)的搬移速度。

SUBABS4(Subtractwith Absolute)指令，計(jì)算在兩組 8位數(shù)據(jù)包之間的 4個(gè)絕對(duì)值之差。
　　
DOPTPU4是個(gè)計(jì)算 4對(duì) 8位數(shù)據(jù)乘積求和的運(yùn)算。兩個(gè) DOPTPU4可在單周期內(nèi)并行 , 所以可極大地提高 SAD的計(jì)算速度。具體步驟如下：

1)兩個(gè) LDNDW指令從當(dāng)前幀和參考幀取 8個(gè)像素;
2)兩個(gè) SUBABS4計(jì)算 8個(gè)像素的差值;
3)兩個(gè) DOTPU4計(jì)算 8個(gè)像素乘積求和。

像素插值也是個(gè)計(jì)算量大的模塊。AVG4指令可執(zhí)行 4個(gè) 8位數(shù)值平均值計(jì)算。AVG2可以執(zhí)行 2個(gè) 16位數(shù)據(jù)的平均計(jì)算。SHRMB(Shift Right andMerge Byte) 右移第 2個(gè)寄存器 , 把第 1個(gè)寄存器的低位作為高字節(jié)。AVG4計(jì)算平均值，SHRMB處理結(jié)果。

此外筆者參考 TI提供的 IMGLIB支持庫(kù) 該庫(kù)中還包括了許多常用的圖像和視頻處理的函數(shù) ，以完成 DCT、 IDCT (Inverse Direct Cosine Transform)、中值濾波等功能 , 這些函數(shù)都是經(jīng)過(guò)匯編優(yōu)化。完全能夠?qū)崿F(xiàn)軟件流水，執(zhí)行效率很高。采用標(biāo)準(zhǔn)序列 Coastguard.yuv編碼 5幀數(shù)據(jù)，主要函數(shù)優(yōu)化前后性能比較，如表 1所示。

表 1　各個(gè)函數(shù)優(yōu)化性能比較

Tab1Performance of functions by analysis

利用 EDMA進(jìn)行數(shù)據(jù)搬移, 提高存儲(chǔ)速度

TMS320C6455DSP支持 EDMA功能 , 是在沒(méi)有 CPU介入的情況下 , 訪問(wèn)存儲(chǔ)器的一種工作方式。它可以直接通過(guò) EDMA通道 , 提前把外設(shè)或片外存儲(chǔ)器中的數(shù)據(jù)直接搬移到片上內(nèi)存。對(duì) CPU來(lái)說(shuō) , 所訪問(wèn)的數(shù)據(jù)總是在片內(nèi)的 , 沒(méi)有阻塞的情況發(fā)生 , 減少了 CPU等待時(shí)間[8]。

使用 TI的 CSL (Chip SupportLibrary )支持功能[9，10]。它有專(zhuān)門(mén)的 DMA模塊 , 便于對(duì) DMA的各個(gè)存儲(chǔ)器控制。主要使用 DAT函數(shù) , 進(jìn)行 DMA存儲(chǔ)器間數(shù)據(jù)傳送。其中使用 DAT copy ( )和DAT fill ( )。
　　
就象常用的內(nèi)存操作 memcpy 、memset 一樣 , 只需要在 API接口指出源地址、目的地址、長(zhǎng)度、維數(shù)屬性等 , 而不需要再去考慮具體的寄存器。

下面的代碼就是把 SDRAM中的 90幀 CIF 288 ×352 格式視頻序列中的一幀 , 利用 EDMA在緩存中進(jìn)行搬移。

　　DAT_open(DAT_CHANNY, DAT_ PRI_ LOW,DAT_OPEN_2D);
　　Copy2FrameBuf(Unit8*framebuf)
　　{
　　if((tempbuf_rawbuf)>13685852)
　　if (tempbuf!=NULL)
　　free(tempbuf);
　　return 1;
　　}
　　DAT.copy(tempbuf,framebuf,152064);
　　Tembuf+=152064;
　　return 0;
　　}

編碼器的總體性能

表2　MPEG-4編碼器的性能

從表2數(shù)據(jù)可以看出，對(duì)于不同的視頻序列幀率提高至少5倍以上，信噪比雖然有所降低，但是由于頻幀的大幅度提高并達(dá)到實(shí)時(shí)要求而得到彌補(bǔ)，顯示效果更好。

結(jié)語(yǔ)

筆者論述了TMS32OC6455DSP 平臺(tái)上進(jìn)行視頻編碼算法優(yōu)化的措施。主要考慮根據(jù)DSP自身特點(diǎn)和視頻算法進(jìn)行優(yōu)化，通過(guò)實(shí)驗(yàn)可以驗(yàn)證達(dá)到30幀/秒以上的實(shí)時(shí)性要求，隨著IC 技術(shù)的發(fā)展和DSP 價(jià)格的降低，基于DSP的視頻編碼器的商用價(jià)值越來(lái)越明顯。

本站聲明：本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點(diǎn)，本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專(zhuān)欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系本站刪除。

換一批

高盛證實(shí)全面重組計(jì)劃

高盛集團(tuán)(Goldman Sachs Group)周二證實(shí)了一項(xiàng)全面重組計(jì)劃，這是該公司歷史上最大的改革舉措之一。高盛將把其交易和投行業(yè)務(wù)合并為一個(gè)部門(mén)，使該行從四個(gè)部門(mén)縮減至三個(gè)部門(mén)，縮減進(jìn)軍零售銀行業(yè)務(wù)的努力，專(zhuān)注于...

關(guān)鍵字： DMA GROUP GO AN

[智能硬件]

CPU中央處理器工藝要素了解嗎?大佬解讀CPU技術(shù)參數(shù)!

在這篇文章中，小編將對(duì)CPU中央處理器的相關(guān)內(nèi)容和情況加以介紹以幫助大家增進(jìn)對(duì)CPU中央處理器的了解程度，和小編一起來(lái)閱讀以下內(nèi)容吧。

關(guān)鍵字： CPU 中央處理器晶圓

[嵌入式技術(shù)開(kāi)發(fā)]

SWM32系列教程9--SDIO及FatFs文件系統(tǒng)

SWM32S單片機(jī)有1個(gè)SDIO接口，支持多媒體卡（MMC）、SD 存儲(chǔ)卡、SDIO 卡等設(shè)備，可以使用軟件方法或者 DMA 方法（SDIO 模塊內(nèi)部 DMA，與芯片 DMA 模塊無(wú)關(guān)）進(jìn)行數(shù)據(jù)傳輸。

關(guān)鍵字： SWM32S單片機(jī) SDIO DMA

[快訊]

高盛認(rèn)為標(biāo)普500估值仍處于高位

標(biāo)普500指數(shù)今年迄今為止下跌22.7%，但高盛(Goldman Sachs)策略師認(rèn)為估值依然太高。摩根士丹利旗下的Morgan Stanley Wealth Management稱，面對(duì)高通脹環(huán)境下的利率大幅上升，股...

關(guān)鍵字： DMA MANAGEMENT 高通 ST

[快科技]

AMD笑而不語(yǔ) Intel CPU將實(shí)現(xiàn)10年來(lái)最大升級(jí)：首次128核+“3nm EUV”

在桌面級(jí)處理器上，AMD多年來(lái)一直在多核上有優(yōu)勢(shì)，不過(guò)12代酷睿開(kāi)始，Intel通過(guò)P、E核異構(gòu)實(shí)現(xiàn)了反超，13代酷睿做到了24核32線程，核心數(shù)已經(jīng)超過(guò)了銳龍7000的最大16核。在服務(wù)器處理器上，AMD優(yōu)勢(shì)更大，64...

關(guān)鍵字： AMD CPU Intel EUV

[消費(fèi)電子]

華為麒麟在3G芯片大戰(zhàn)中，扮演了“黑馬”的角色，麒麟CPU何時(shí)回歸？

華為麒麟芯片(HUAWEI Kirin)是華為技術(shù)有限公司于2019年9月6日在德國(guó)柏林和北京同時(shí)發(fā)布的一款新一代旗艦芯片。華為麒麟在3G芯片大戰(zhàn)中，扮演了“黑馬”的角色。

關(guān)鍵字：麒麟 CPU 華為Mate 50

[通信先鋒]

PC市場(chǎng)低迷，ADM計(jì)劃削減銳龍 7000系列CPU

據(jù)業(yè)內(nèi)信息，近日ADM的一份內(nèi)部報(bào)告顯示，ADM正在計(jì)劃降低其銳龍 7000 CPU的生產(chǎn)計(jì)劃?，F(xiàn)階段全球市場(chǎng)PC的低迷和銷(xiāo)量下滑，再加上AM5平臺(tái)整體反響不佳等等一系列原因?qū)е翧DM采取這一行動(dòng)計(jì)劃。

關(guān)鍵字： PC ADM 銳龍 7000 CPU

[快訊]

高盛計(jì)劃將主要業(yè)務(wù)重組為三個(gè)部門(mén)

高盛集團(tuán)(Goldman Sachs Group)計(jì)劃將其最大的業(yè)務(wù)合并為三個(gè)部門(mén)，進(jìn)行該華爾街公司歷史上最大的一次業(yè)務(wù)重組。高盛將把其旗艦投行業(yè)務(wù)和交易業(yè)務(wù)合并為一個(gè)部門(mén)，同時(shí)將資產(chǎn)管理和財(cái)富管理業(yè)務(wù)合并為另一個(gè)部門(mén)。...

關(guān)鍵字： APPLE DMA GENERAL GREEN

[產(chǎn)業(yè)新聞]

浪潮信息李博樂(lè)：重塑軟件棧，為全閃存儲(chǔ)打通任督二脈

北京2022年10月17日 /美通社/ -- "天下武功、唯快不破"，數(shù)字經(jīng)濟(jì)時(shí)代尤甚。數(shù)據(jù)極富價(jià)值，堪比新時(shí)代的石油。數(shù)字經(jīng)濟(jì)時(shí)代，數(shù)據(jù)價(jià)值如何快速、高效地釋放顯得尤為重要。自20...

關(guān)鍵字：軟件 IO SSD CPU

[嵌入式藝術(shù)]

【萬(wàn)字長(zhǎng)文】Linux設(shè)備樹(shù)詳解

Linux內(nèi)核是從V2.6開(kāi)始引入設(shè)備樹(shù)的概念，其起源于OF:OpenFirmware，用于描述一個(gè)硬件平臺(tái)的硬件資源信息，這些信息包括：CPU的數(shù)量和類(lèi)別、內(nèi)存基地址和大小、總線和橋、外設(shè)連接、中斷控制器和中斷使用情...

關(guān)鍵字： Linux內(nèi)核硬件 CPU