當(dāng)前位置：首頁(yè) > 芯聞號(hào) > 充電吧

UTF8與UTF16區(qū)別

時(shí)間：2019-06-11 09:40:01

關(guān)鍵字： utf8 utf16

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]?? 為啥需要Unicode?????? 我們知道計(jì)算機(jī)其實(shí)挺笨的,它只認(rèn)識(shí)0101這樣的字符串,當(dāng)然了我們看這樣的01串時(shí)肯定會(huì)比較頭暈的,所以很多時(shí)候?yàn)榱嗣枋龊?jiǎn)單都用十進(jìn)制,十六進(jìn)制,八進(jìn)制表示.

?? 為啥需要Unicode

????? 我們知道計(jì)算機(jī)其實(shí)挺笨的,它只認(rèn)識(shí)0101這樣的字符串,當(dāng)然了我們看這樣的01串時(shí)肯定會(huì)比較頭暈的,所以很多時(shí)候?yàn)榱嗣枋龊?jiǎn)單都用十進(jìn)制,十六進(jìn)制,八進(jìn)制表示.實(shí)際上都是等價(jià)的,沒啥太多不一樣.其他啥文字圖片之類的其他東東計(jì)算機(jī)不認(rèn)識(shí).那為了在計(jì)算機(jī)上表示這些信息就必須轉(zhuǎn)換成一些數(shù)字.你肯定不能想怎么轉(zhuǎn)換就怎么轉(zhuǎn),必須得有定些規(guī)則.于是剛開始的時(shí)候就有ASCII字符集(American Standard Code for Information Interchange， "美國(guó)信息交換標(biāo)準(zhǔn)碼),它使用7 bits來(lái)表示一個(gè)字符,總共表示128個(gè)字符,我們一般都是用字節(jié)(byte,即8個(gè)01串)來(lái)作為基本單位.那么怎么當(dāng)用一個(gè)字節(jié)來(lái)表示字符時(shí)第一個(gè)bit總是0,剩下的七個(gè)字節(jié)就來(lái)表示實(shí)際內(nèi)容.后來(lái)IBM公司在此基礎(chǔ)上進(jìn)行了擴(kuò)展，用8bit來(lái)表示一個(gè)字符，總共可以表示256個(gè)字符.也就是當(dāng)?shù)谝粋€(gè)bit是0時(shí)仍表示之前那些常用的字符.當(dāng)為1時(shí)就表示其他補(bǔ)充的字符.

??????? 英文字母再加一些其他標(biāo)點(diǎn)字符之類的也不會(huì)超過(guò)256個(gè).一個(gè)字節(jié)表示主足夠了.但其他一些文字不止這么多 ,像漢字就上萬(wàn)個(gè).于是又出現(xiàn)了其他各種字符集.這樣不同的字符集交換數(shù)據(jù)時(shí)就有問(wèn)題了.可能你用某個(gè)數(shù)字表示字符A,但另外的字符集又是用另外一個(gè)數(shù)字表示A.這樣交互起來(lái)就麻煩了.于是就出現(xiàn)了Unicode和ISO這樣的組織來(lái)統(tǒng)一制定一個(gè)標(biāo)準(zhǔn),任何一個(gè)字符只對(duì)應(yīng)一個(gè)確定的數(shù)字.ISO取的名字叫UCS(Universal Character Set),Unicode取的名字就叫unicode了.

????? 總結(jié)起來(lái)為啥需要Unicodey就是為了適應(yīng)全球化的發(fā)展,便于不同語(yǔ)言之間的兼容交互,而ASCII不再能勝任此任務(wù)了.

Unicode詳細(xì)介紹

1.容易產(chǎn)生后歧義的兩字節(jié)

??????? unicode的第一個(gè)版本是用兩個(gè)字節(jié)(16bit)來(lái)表示所有字符

??????? .實(shí)際上這么說(shuō)容易讓人產(chǎn)生歧義,我們總覺得兩個(gè)字節(jié)就代表保存在計(jì)算機(jī)中時(shí)是兩個(gè)字節(jié).于是任何字符如果用unicode表示的話保存下來(lái)都占兩個(gè)字節(jié).其實(shí)這種說(shuō)法是錯(cuò)誤的.

???? 其實(shí)Unicode涉及到兩個(gè)步驟,首先是定義一個(gè)規(guī)范,給所有的字符指定一個(gè)唯一對(duì)應(yīng)的數(shù)字,這完全是數(shù)學(xué)問(wèn)題,可以跟計(jì)算機(jī)沒半毛錢關(guān)系.第二步才是怎么把字符對(duì)應(yīng)的數(shù)字保存在計(jì)算機(jī)中,這才涉及到實(shí)際在計(jì)算機(jī)中占多少字節(jié)空間.

???? 所以我們也可以這樣理解,Unicode是用0至65535之間的數(shù)字來(lái)表示所有字符.其中0至127這128個(gè)數(shù)字表示的字符仍然跟ASCII完全一樣.65536是2的16次方.這是第一步.第二步就是怎么把0至65535這些數(shù)字轉(zhuǎn)化成01串保存到計(jì)算機(jī)中.這肯定就有不同的保存方式了.于是出現(xiàn)了UTF(unicode transformation format),有UTF-8,UTF-16.

2.UTF-8 與UTF-16的區(qū)別

??? UTF-16比較好理解,就是任何字符對(duì)應(yīng)的數(shù)字都用兩個(gè)字節(jié)來(lái)保存.我們通常對(duì)Unicode的誤解就是把Unicode與UTF-16等同了.但是很顯然如果都是英文字母這做有點(diǎn)浪費(fèi).明明用一個(gè)字節(jié)能表示一個(gè)字符為啥整兩個(gè)啊.

?? 于是又有個(gè)UTF-8,這里的8非常容易誤導(dǎo)人,8不是指一個(gè)字節(jié),難道一個(gè)字節(jié)表示一個(gè)字符?實(shí)際上不是.當(dāng)用UTF-8時(shí)表示一個(gè)字符是可變的,有可能是用一個(gè)字節(jié)表示一個(gè)字符,也可能是兩個(gè),三個(gè).當(dāng)然最多不能超過(guò)3個(gè)字節(jié)了.反正是根據(jù)字符對(duì)應(yīng)的數(shù)字大小來(lái)確定.

?? 于是UTF-8和UTF-16的優(yōu)劣很容易就看出來(lái)了.如果全部英文或英文與其他文字混合,但英文占絕大部分,用UTF-8就比UTF-16節(jié)省了很多空間.而如果全部是中文這樣類似的字符或者混合字符中中文占絕大多數(shù).UTF-16就占優(yōu)勢(shì)了,可以節(jié)省很多空間.另外還有個(gè)容錯(cuò)問(wèn)題,等會(huì)再講

? 看的有點(diǎn)暈了吧,舉個(gè)例子.假如中文字"漢"對(duì)應(yīng)的unicode是6C49(這是用十六進(jìn)制表示,用十進(jìn)制表示是27721為啥不用十進(jìn)制表示呢?很明顯用十六進(jìn)制表示要短點(diǎn).其實(shí)都是等價(jià)的沒啥不一樣.就跟你說(shuō)60分鐘和1小時(shí)一樣.).你可能會(huì)問(wèn)當(dāng)用程序打開一個(gè)文件時(shí)我們?cè)趺粗滥鞘怯玫腢TF-8還是UTF-16啊.自然會(huì)有點(diǎn)啥標(biāo)志,在文件的開頭幾個(gè)字節(jié)就是標(biāo)志.

EF BB BF 表示UTF-8

FE FF 表示UTF-16.

用UTF-16表示"漢"

假如用UTF-16表示的話就是01101100?? 01001001(共16 bit,兩個(gè)字節(jié)).程序解析的時(shí)候知道是UTF-16就把兩個(gè)字節(jié)當(dāng)成一個(gè)單元來(lái)解析.這個(gè)很簡(jiǎn)單.

用UTF-8表示"漢"

用UTF-8就有復(fù)雜點(diǎn).因?yàn)榇藭r(shí)程序是把一個(gè)字節(jié)一個(gè)字節(jié)的來(lái)讀取,然后再根據(jù)字節(jié)中開頭的bit標(biāo)志來(lái)識(shí)別是該把1個(gè)還是兩個(gè)或三個(gè)字節(jié)做為一個(gè)單元來(lái)處理.

0xxxxxxx,如果是這樣的01串,也就是以0開頭后面是啥就不用管了XX代表任意bit.就表示把一個(gè)字節(jié)做為一個(gè)單元.就跟ASCII完全一樣.

110xxxxx 10xxxxxx.如果是這樣的格式,則把兩個(gè)字節(jié)當(dāng)一個(gè)單元

1110xxxx 10xxxxxx 10xxxxxx 如果是這種格式則是三個(gè)字節(jié)當(dāng)一個(gè)單元.

這是約定的規(guī)則.你用UTF-8來(lái)表示時(shí)必須遵守這樣的規(guī)則.我們知道UTF-16不需要用啥字符來(lái)做標(biāo)志,所以兩字節(jié)也就是2的16次能表示65536個(gè)字符.

而UTF-8由于里面有額外的標(biāo)志信息,所有一個(gè)字節(jié)只能表示2的7次方128個(gè)字符,兩個(gè)字節(jié)只能表示2的11次方2048個(gè)字符.而三個(gè)字節(jié)能表示2的16次方,65536個(gè)字符.

由于"漢"的編碼27721大于2048了所有兩個(gè)字節(jié)還不夠,只能用三個(gè)字節(jié)來(lái)表示.

所有要用1110xxxx 10xxxxxx 10xxxxxx這種格式.把27721對(duì)應(yīng)的二進(jìn)制從左到右填充XXX符號(hào)(實(shí)際上不一定從左到右,也可以從右到左,這是涉及到另外一個(gè)問(wèn)題.等會(huì)說(shuō).

剛說(shuō)到填充方式可以不一樣,于是就出現(xiàn)了Big-Endian,Little-Endian的術(shù)語(yǔ).Big-Endian就是從左到右,Little-Endian是從右到左.

由上面我們可以看出UTF-8需要判斷每個(gè)字節(jié)中的開頭標(biāo)志信息,所以如果一當(dāng)某個(gè)字節(jié)在傳送過(guò)程中出錯(cuò)了,就會(huì)導(dǎo)致后面的字節(jié)也會(huì)解析出錯(cuò).而UTF-16不會(huì)判斷開頭標(biāo)志,即使錯(cuò)也只會(huì)錯(cuò)一個(gè)字符,所以容錯(cuò)能力強(qiáng).

Unicode版本2

??? 前面說(shuō)的都是unicode的第一個(gè)版本.但65536顯然不算太多的數(shù)字,用它來(lái)表示常用的字符是沒一點(diǎn)問(wèn)題.足夠了,但如果加上很多特殊的就也不夠了.于是從1996年開始又來(lái)了第二個(gè)版本.用四個(gè)字節(jié)表示所有字符.這樣就出現(xiàn)了UTF-8,UTF16,UTF-32.原理和之前肯定是完全一樣的,UTF-32就是把所有的字符都用32bit也就是4個(gè)字節(jié)來(lái)表示.然后UTF-8,UTF-16就視情況而定了.UTF-8可以選擇1至8個(gè)字節(jié)中的任一個(gè)來(lái)表示.而UTF-16只能是選兩字節(jié)或四字節(jié)..由于unicode版本2的原理完全是一樣的,就不多說(shuō)了.

前面說(shuō)了要知道具體是哪種編碼方式,需要判斷文本開頭的標(biāo)志,下面是所有編碼對(duì)應(yīng)的開頭標(biāo)志

EF BB BF　　　 UTF-8
FE FF　　　　　UTF-16/UCS-2, little endian
FF FE　　　　　UTF-16/UCS-2, big endian
FF FE 00 00　　UTF-32/UCS-4, little endian.
00 00 FE FF　　UTF-32/UCS-4, big-endian.

其中的UCS就是前面說(shuō)的ISO制定的標(biāo)準(zhǔn),和Unicode是完全一樣的,只不過(guò)名字不一樣.ucs-2對(duì)應(yīng)utf-16,ucs-4對(duì)應(yīng)UTF-32.UTF-8是沒有對(duì)應(yīng)的UCS

本站聲明：本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點(diǎn)，本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系本站刪除。

換一批

阿維塔、賽力斯已入股！華為引望可能成“中國(guó)博世”

9月2日消息，不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司，隨著阿維塔和賽力斯的入局，華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字：阿維塔塞力斯華為

[美通社全球TMT]

Trianz與AWS達(dá)成戰(zhàn)略合作協(xié)議，徹底改變?cè)撇捎煤凸芾矸绞?/a>

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布，該公司與Amazon Web Services （AWS）簽訂了...

關(guān)鍵字： AWS AN BSP 數(shù)字化

[美通社全球TMT]

人工智能驅(qū)動(dòng)工具SODA V將顛覆汽車市場(chǎng)，使汽車開發(fā)時(shí)間和成本降低90%

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V，這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具，可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字：汽車人工智能智能驅(qū)動(dòng) BSP

[美通社全球TMT]

從容應(yīng)對(duì)未知風(fēng)險(xiǎn)----解密亞馬遜云科技的韌性之道

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行，同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn)，如企業(yè)系統(tǒng)復(fù)雜性的增加，頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性，提升韌性，成...

關(guān)鍵字：亞馬遜解密控制平面 BSP

[通信先鋒]

中國(guó)游戲市場(chǎng)開始復(fù)蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

8月30日消息，據(jù)媒體報(bào)道，騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字：騰訊編碼器 CPU

[通信先鋒]

獨(dú)立自主！華為董事：致力打造不依賴西方的技術(shù)

8月28日消息，今天上午，2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽(yáng)舉行，華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字：華為 12nm EDA 半導(dǎo)體

[通信先鋒]

華為張平安：數(shù)字世界話語(yǔ)權(quán)最終由生態(tài)繁榮決定！

8月28日消息，在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上，華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱，數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字：華為 12nm 手機(jī) 衛(wèi)星通信

[美通社全球TMT]

中國(guó)通信服務(wù)公布2024年中期業(yè)績(jī)

要點(diǎn)：有效應(yīng)對(duì)環(huán)境變化，經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升落實(shí)提質(zhì)增效舉措，毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著，戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng)，提升企業(yè)核心競(jìng)爭(zhēng)力堅(jiān)持高質(zhì)量發(fā)展策略，塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字：通信 BSP 電信運(yùn)營(yíng)商數(shù)字經(jīng)濟(jì)

[美通社全球TMT]

NVI技術(shù)創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動(dòng)產(chǎn)業(yè)鏈高速發(fā)展

北京2024年8月27日 /美通社/ -- 8月21日，由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字： VI 傳輸協(xié)議音頻 BSP

[美通社全球TMT]

軟通動(dòng)力與長(zhǎng)三角投資達(dá)成戰(zhàn)略合作共謀數(shù)字生態(tài)新發(fā)展

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上，軟通動(dòng)力信息技術(shù)（集團(tuán)）股份有限公司（以下簡(jiǎn)稱"軟通動(dòng)力"）與長(zhǎng)三角投資（上海）有限...

關(guān)鍵字： BSP 信息技術(shù)