當(dāng)前位置：首頁(yè) > 公眾號(hào)精選 > strongerHuang

一文了解Unicode UTF-8 UTF-16 UTF-32的關(guān)系

時(shí)間：2020-10-09 14:38:24

關(guān)鍵字：編碼嵌入式

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]Unicode，又稱統(tǒng)一碼、萬(wàn)國(guó)碼、單一碼，是計(jì)算機(jī)科學(xué)領(lǐng)域里的一項(xiàng)業(yè)界標(biāo)準(zhǔn)，包括字符集、編碼方案等。

關(guān)注、星標(biāo)公眾號(hào)，不錯(cuò)過(guò)精彩內(nèi)容

素材來(lái)源：網(wǎng)絡(luò)

編輯整理：strongerHuang

Unicode，又稱統(tǒng)一碼、萬(wàn)國(guó)碼、單一碼，是計(jì)算機(jī)科學(xué)領(lǐng)域里的一項(xiàng)業(yè)界標(biāo)準(zhǔn)，包括字符集、編碼方案等。

一、Unicode產(chǎn)生的背景

1.為何要有Unicode？

ASCII編碼使用 8bit （b0-b7）中的最高位b7位作為奇偶校驗(yàn)位，用來(lái)保障傳輸?shù)目煽啃?，所以ASCII一共定義了2^7=128個(gè)字符集合。

所謂奇偶校驗(yàn)，是指在代碼傳送過(guò)程中用來(lái)檢驗(yàn)是否出現(xiàn)錯(cuò)誤的一種方法，一般分奇校驗(yàn)和偶校驗(yàn)兩種。奇校驗(yàn)規(guī)定：正確的代碼一個(gè)字節(jié)中1的個(gè)數(shù)必須是奇數(shù)，若非奇數(shù)，則在最高位b7添0；偶校驗(yàn)規(guī)定：正確的代碼一個(gè)字節(jié)中1的個(gè)數(shù)必須是偶數(shù)，若非偶數(shù)，則在最高位b7添1）

2.ASCII編碼的問(wèn)題

ASCII編碼是美國(guó)制定的編碼標(biāo)準(zhǔn)，它可以代表英文中的字符集合，但用來(lái)表示其他語(yǔ)言如漢語(yǔ)、法語(yǔ)等是不夠用的。中國(guó)為了讓計(jì)算機(jī)識(shí)別漢語(yǔ)，制定了GB2312編碼規(guī)范，使用兩個(gè)字節(jié)代表一個(gè)漢字，支持65536個(gè)漢字。

這樣發(fā)展的趨勢(shì)是每個(gè)國(guó)家或地區(qū)制定自己語(yǔ)言的計(jì)算機(jī)字符編碼，導(dǎo)致混亂不堪。

3.Unicode產(chǎn)生

Unicode 正是解決這個(gè)問(wèn)題而誕生的，它對(duì)世界上絕大部分的文字的進(jìn)行整理和統(tǒng)一編碼。

事實(shí)上，歷史上存在兩個(gè)獨(dú)立的嘗試創(chuàng)立單一字符集的組織，即國(guó)際標(biāo)準(zhǔn)化組織（ISO）和多語(yǔ)言軟件制造商組成的統(tǒng)一碼聯(lián)盟。前者開(kāi)發(fā)的 ISO/IEC 10646 項(xiàng)目，后者開(kāi)發(fā)的統(tǒng)一碼項(xiàng)目。因此最初制定了不同的標(biāo)準(zhǔn)。

1991年前后，兩個(gè)項(xiàng)目的參與者都認(rèn)識(shí)到，世界不需要兩個(gè)不兼容的字符集。于是，它們開(kāi)始合并雙方的工作成果，并為創(chuàng)立一個(gè)單一編碼表而協(xié)同工作。從Unicode 2.0開(kāi)始，Unicode采用了與ISO 10646-1相同的字庫(kù)和字碼；ISO也承諾，ISO 10646將不會(huì)替超出U+10FFFF的UCS-4編碼賦值，以使得兩者保持一致。

兩個(gè)項(xiàng)目仍都存在，并獨(dú)立地公布各自的標(biāo)準(zhǔn)。但統(tǒng)一碼聯(lián)盟和ISO/IEC JTC1/SC2都同意保持兩者標(biāo)準(zhǔn)的碼表兼容，并緊密地共同調(diào)整任何未來(lái)的擴(kuò)展。

在發(fā)布的時(shí)候，Unicode一般都會(huì)采用有關(guān)字碼最常見(jiàn)的字型，但I(xiàn)SO 10646一般都盡可能采用Century字型。

---來(lái)自百度百科

二、Unicode的編碼方式

Unicode的編碼空間可以劃分為17個(gè)平面（plane），每個(gè)平面包含2的16次方（65536）個(gè)碼位。

17個(gè)平面的碼位可表示為從U+0000到U+10FFFF，共計(jì)1114112個(gè)碼位，第一個(gè)平面稱為基本多語(yǔ)言平面（Basic Multilingual Plane, BMP），或稱第零平面（Plane 0）。其他平面稱為輔助平面（Supplementary Planes）。

基本多語(yǔ)言平面內(nèi)，從U+D800到U+DFFF之間的碼位區(qū)段是永久保留不映射到Unicode字符，所以有效碼位為1112064個(gè)。

為何要定義平面？為何劃分基平面和輔助平面？基平面為何會(huì)有保留區(qū)段？

三、計(jì)算機(jī)實(shí)現(xiàn)

Unicode是一種編碼方式，基于Unicode編碼的計(jì)算機(jī)實(shí)現(xiàn)是有多種的。不同的實(shí)現(xiàn)方式其實(shí)是對(duì)Unicode的存儲(chǔ)方式存在著差異，計(jì)算機(jī)實(shí)現(xiàn)Unicode可以認(rèn)為是對(duì)Unicode的存儲(chǔ)編碼。

在這里我們已經(jīng)進(jìn)行了兩次編碼轉(zhuǎn)換了，Unicode本身是字符對(duì)應(yīng)數(shù)字的編碼方案，而Unicode的計(jì)算機(jī)實(shí)現(xiàn)是Unicode對(duì)應(yīng)的計(jì)算機(jī)存儲(chǔ)編碼方案。

為什么對(duì)計(jì)算機(jī)實(shí)現(xiàn)還要對(duì)Unicode做一次編碼？

下面我們通過(guò)介紹不同的Unicode計(jì)算機(jī)實(shí)現(xiàn)方案來(lái)討論一下這個(gè)問(wèn)題。

我們應(yīng)當(dāng)知道，生活中的字符出現(xiàn)的概率是不一樣的。例如，生活中我們常常使用 “你好” “早”等詞匯，但是“耄耋” “饕餮”等這些字符我們很少用到。

基于以上的事實(shí)，如果我們把 “你好” “早”等這些高概率出現(xiàn)的字符使用較短的存儲(chǔ)編碼，而那些很少用到的字符使用較長(zhǎng)的存儲(chǔ)編碼，

定義：假設(shè)有n個(gè)字符c1.....cn，每個(gè)字符出現(xiàn)的概率為p(n)，每個(gè)字符的存儲(chǔ)空間為s1.....sn，那么，字符平均存儲(chǔ)空間計(jì)算公式：T = p(1)*s1+......p(n)*sn

下面我們分別計(jì)算一下不同編碼實(shí)現(xiàn)方案的字符平均存儲(chǔ)空間。

1.UTF-32

最容易想到的，也是最簡(jiǎn)單的計(jì)算機(jī)實(shí)現(xiàn)就是用四個(gè)字節(jié)（32bit）對(duì)Unicode編碼字符進(jìn)行存儲(chǔ)，這就是UTF-32。UTF-32是最簡(jiǎn)單的程序?qū)崿F(xiàn)方案（無(wú)需轉(zhuǎn)換，與Unicode編碼一一對(duì)應(yīng)）。

好處：無(wú)需轉(zhuǎn)換，速度快

壞處：浪費(fèi)存儲(chǔ)空間

T = 32bit

2.UTF-8

UTF-8是一種變長(zhǎng)編碼，對(duì)于一個(gè)Unicode的字符被編碼成1至4個(gè)字節(jié)。Unicode編碼與UTF-8的編碼的對(duì)應(yīng)關(guān)系：

Unicode編碼	UTF-8編碼(二進(jìn)制)
U+0000 – U+007F	0xxxxxxx
U+0080 – U+07FF	110xxxxx 10xxxxxx
U+0800 – U+FFFF	1110xxxx 10xxxxxx 10xxxxxx
U+10000 – U+10FFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

一個(gè)字節(jié)的uft8表示的unicode 碼范圍為(0 ~0x7F)

兩個(gè)字節(jié)長(zhǎng)度的uft8 表示的unicode碼范圍為(0x80 ~ 0x07FF)

三個(gè)字節(jié)長(zhǎng)度的uft8 表示的unicode碼范圍為(0x0800 ~ 0xFFFF)

四個(gè)字節(jié)長(zhǎng)度的uft8 表示的unicode碼范圍為( 0x10000 ~ 0x10FFFF)

這樣編碼感覺(jué)復(fù)雜度變高了很多啊，但是，好處在于節(jié)省了存儲(chǔ)空間，另外，兼容了舊的ASCII編碼。

3.UTF-16

UTF-16也是一種變長(zhǎng)編碼，對(duì)于一個(gè)Unicode字符被編碼成1至2個(gè)碼元，每個(gè)碼元為16位。

基本多語(yǔ)言平面（碼位范圍U+0000-U+FFFF）在基本多語(yǔ)言平面內(nèi)的碼位UTF-16編碼使用1個(gè)碼元且其值與Unicode是相等的（不需要轉(zhuǎn)換）。舉例如下：

Unicode 字符 UTF-16（碼元） UTF-16 LE（字節(jié)） UTF-16 BE（字節(jié)） U+0041 A 0x0041 0x41 0x00 0x00 0x41 U+7834 破 0x7834 0x34 0x78 0x78 0x34 U+6653 曉 0x6653 0x53 0x66 0x66 0x53

輔助平面（碼位范圍U+10000-U+10FFFF）在輔助平面內(nèi)的碼位在UTF-16中被編碼為一對(duì)16bit的碼元（即32bit,4字節(jié)），稱作代理對(duì)(surrogate pair)。組成代理對(duì)的兩個(gè)碼元前一個(gè)稱為前導(dǎo)代理(lead surrogates)范圍為0xD800-0xDBFF，后一個(gè)稱為后尾代理(trail surrogates)范圍為0xDC00-0xDFFF。

具體的轉(zhuǎn)換過(guò)程為：

首先將unicode碼表 - 0x10000 , 這樣得到的輔助平面的碼表范圍為(U+0000 - U+FFFFF) ,總共最多20bit
將20bit ，分為high 10bit 與 low 10bit。high 1bit | 0xD800 得到前導(dǎo)代理， low 10bit | 0xDC00 得到后尾代理

從這里也可以理解為什么在基本多語(yǔ)言平面中，（U+D800 ?~ U+DFFF ）要作為保留字符了

UTF-16既保留了解析速度，同時(shí)也比較節(jié)省存儲(chǔ)空間。這個(gè)是UTF-8和UTF-32兩者優(yōu)點(diǎn)的結(jié)合。

來(lái)源地址：

https://juejin.im/post/6844903890488410120

推薦閱讀：

操作系統(tǒng)產(chǎn)生死鎖的原因和處理策略

美女設(shè)計(jì)師的創(chuàng)意設(shè)計(jì)：舌頭控制器

可重入與不可重入函數(shù)的區(qū)別

關(guān)注微信公眾號(hào)『strongerHuang』，后臺(tái)回復(fù)“1024”查看更多內(nèi)容，回復(fù)“加群”按規(guī)則加入技術(shù)交流群。

長(zhǎng)按前往圖中包含的公眾號(hào)關(guān)注

免責(zé)聲明：本文內(nèi)容由21ic獲得授權(quán)后發(fā)布，版權(quán)歸原作者所有，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。文章僅代表作者個(gè)人觀點(diǎn)，不代表本平臺(tái)立場(chǎng)，如有問(wèn)題，請(qǐng)聯(lián)系我們，謝謝！

本站聲明：本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點(diǎn)，本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系本站刪除。

換一批

阿維塔、賽力斯已入股！華為引望可能成“中國(guó)博世”

9月2日消息，不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司，隨著阿維塔和賽力斯的入局，華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字：阿維塔塞力斯華為

[美通社全球TMT]

Trianz與AWS達(dá)成戰(zhàn)略合作協(xié)議，徹底改變?cè)撇捎煤凸芾矸绞?/a>

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布，該公司與Amazon Web Services （AWS）簽訂了...

關(guān)鍵字： AWS AN BSP 數(shù)字化

[美通社全球TMT]

人工智能驅(qū)動(dòng)工具SODA V將顛覆汽車市場(chǎng)，使汽車開(kāi)發(fā)時(shí)間和成本降低90%

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V，這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具，可用于創(chuàng)建軟件定義汽車。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字：汽車人工智能智能驅(qū)動(dòng) BSP

[美通社全球TMT]

從容應(yīng)對(duì)未知風(fēng)險(xiǎn)----解密亞馬遜云科技的韌性之道

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行，同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn)，如企業(yè)系統(tǒng)復(fù)雜性的增加，頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性，提升韌性，成...

關(guān)鍵字：亞馬遜解密控制平面 BSP

[通信先鋒]

中國(guó)游戲市場(chǎng)開(kāi)始復(fù)蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

8月30日消息，據(jù)媒體報(bào)道，騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字：騰訊編碼器 CPU

[通信先鋒]

獨(dú)立自主！華為董事：致力打造不依賴西方的技術(shù)

8月28日消息，今天上午，2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行，華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字：華為 12nm EDA 半導(dǎo)體

[通信先鋒]

華為張平安：數(shù)字世界話語(yǔ)權(quán)最終由生態(tài)繁榮決定！

8月28日消息，在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上，華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱，數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字：華為 12nm 手機(jī) 衛(wèi)星通信

[美通社全球TMT]

中國(guó)通信服務(wù)公布2024年中期業(yè)績(jī)

要點(diǎn)：有效應(yīng)對(duì)環(huán)境變化，經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升落實(shí)提質(zhì)增效舉措，毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著，戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng)，提升企業(yè)核心競(jìng)爭(zhēng)力堅(jiān)持高質(zhì)量發(fā)展策略，塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字：通信 BSP 電信運(yùn)營(yíng)商數(shù)字經(jīng)濟(jì)

[美通社全球TMT]

NVI技術(shù)創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動(dòng)產(chǎn)業(yè)鏈高速發(fā)展

北京2024年8月27日 /美通社/ -- 8月21日，由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字： VI 傳輸協(xié)議音頻 BSP

[美通社全球TMT]

軟通動(dòng)力與長(zhǎng)三角投資達(dá)成戰(zhàn)略合作共謀數(shù)字生態(tài)新發(fā)展

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上，軟通動(dòng)力信息技術(shù)（集團(tuán)）股份有限公司（以下簡(jiǎn)稱"軟通動(dòng)力"）與長(zhǎng)三角投資（上海）有限...

關(guān)鍵字： BSP 信息技術(shù)