CDN的原理以及其中的一些技術(shù)
需求
CDN,全稱Content Delivery Network,主要作用是為源站減少訪問壓力的同時,為客戶端提供更快速的內(nèi)容響應(yīng)。除此之外,CDN還能對源站進(jìn)行安全防護(hù)。 其實(shí)真正為CDN付費(fèi)的是源站,所以CDN的用戶其實(shí)是源站,例如新浪微博,youku視頻,淘寶網(wǎng)啊之類的。而客戶端,是CDN的用戶的用戶。 所以CDN是夾在源站和源站的用戶之間的,以下稱客戶端均指源站的用戶。
工作原理
簡單的說,CDN的工作原理就是將您源站的資源緩存到位于全國各地的CDN節(jié)點(diǎn)上,用戶請求資源時,就近返回節(jié)點(diǎn)上緩存的資源,而不需要每個用戶的請求都回您的源站獲取,避免網(wǎng)絡(luò)擁塞、分擔(dān)源站壓力,保證用戶訪問資源的速度和體驗(yàn)。
架構(gòu)圖
使用CDN后的http請求處理流程如下圖:
傳統(tǒng)網(wǎng)站訪問過程
要說CDN的工作原理,就得先說說Internet資源的訪問過程。傳統(tǒng)的來說,在瀏覽器訪問網(wǎng)站應(yīng)當(dāng)有這么一些步驟:
在瀏覽器鍵入網(wǎng)址www.taobao.com瀏覽器請求dns服務(wù)器,查詢到www.taobao.com對應(yīng)的IP瀏覽器向服務(wù)器發(fā)起TCP連接瀏覽器通過建立的TCP連接發(fā)送HTTP協(xié)議報(bào)文服務(wù)器向?yàn)g覽器發(fā)送頁面內(nèi)容瀏覽器將頁面展現(xiàn)出來
對于上面提到的第2步,其實(shí)還是有需要來更加詳細(xì)的說明一下dns的解析過程,因?yàn)樗荂DN能工作的基本條件。
DNS工作過程
DNS的工作過程容易被人忽略,一般只知道DNS的輸入是一個網(wǎng)址,輸出的是一個IP,在這里我也正好給自己總結(jié)記錄一下。 DNS的協(xié)議主要是基于UDP的,所以dns server的qps一般都是很驚人的,比web server(http是基于tcp的)的qps是高出幾個量級的。有個基本概念就是dns的記錄類型,常見的dns記錄類型有A,AAAA,CNAME等。中A記錄是域名到IPV4地址的;AAAA記錄是域名到IPV6地址的;CNAME記錄類似于查詢過程中的轉(zhuǎn)發(fā),意思是你去問問這個個人,他管這事。好的,下面繼續(xù)說說DNS的工作過程。
在瀏覽器鍵入www.taobao.com
,其實(shí)真正dns協(xié)議里用到的是www.taobao.com.
最后還有一個點(diǎn),可能是因?yàn)槊烙^等原因,一般都不顯示查詢本地緩存(host文件或者是瀏覽器的緩存)中有沒有該域名對應(yīng)的記錄,有的話就直接用了向運(yùn)營商的DNS服務(wù)器發(fā)起dns解析的請求,一般稱運(yùn)營商的DNS服務(wù)器為local dns
local dns會查詢本地的緩存,local dns設(shè)置的緩存時間是有講究的,過長過短都不好。另外local dns的查詢是運(yùn)營商的事,這里面水很深,外部不可控local dns如果沒有緩存,會把域名從右往左掃描,依次請求對應(yīng)的服務(wù)器,例如對于域名www.taobao.com.
,先去問負(fù)責(zé).
的根域名服務(wù)器,就是傳說中全球只有幾臺的那些服務(wù)器,他們會答復(fù).com
是誰管理的,然后local
dns又去找管理.com
的服務(wù)器(假設(shè)名字為S1),去問問taobao.com
是誰管,一般來說,在S1查到的記錄是一條cname記錄(阿里畢竟大公司,自己管理自己旗下的域名),然后就轉(zhuǎn)到了阿里自己的DNS服務(wù)器上來了,一般稱之為權(quán)威服務(wù)器權(quán)威服務(wù)器是阿里自己建的,然后根據(jù)公司內(nèi)部的一些配置啊,調(diào)整啊,查到www.taobao.com.
對應(yīng)的服務(wù)器是誰,返回一個IP地址local dns緩存這個IP地址,并且回復(fù)瀏覽器瀏覽器和對應(yīng)的IP地址的服務(wù)器簡歷TCP連接,發(fā)送HTTP報(bào)文
買過域名的朋友都知道,假如你在萬網(wǎng)買了cstdlib.com
,然后你想啟用一個二級域名go.cstdlib.com
,那么你要去萬網(wǎng)的控制臺(已經(jīng)和阿里云合并)設(shè)置一條A記錄的解析,將go.cstdlib.com
指向你想要的IP。每次增加二級域名的過程都是這樣子。那么,如果你知道了DNS的解析過程,你可以這么做:
在服務(wù)器D1上起一個dns server,作為cstdlib.com的dns權(quán)威服務(wù)器在萬網(wǎng)的控制臺新增一條CNAME記錄,將cstdlib.com的解析轉(zhuǎn)到D1來D1想返回什么IP就返回什么IP
這樣一來,一切盡在掌控,畢竟D1是你的,而且以后你再也不用去萬網(wǎng)的控制臺了,這就是自建DNS服務(wù)器。
CDN選擇優(yōu)質(zhì)節(jié)點(diǎn)
回到正題,CDN如何為用戶選擇時延更小的節(jié)點(diǎn)。這次不以訪問淘寶為例了,因?yàn)榘⒗镉凶约旱腃DN,要是以訪問淘寶為例,容易混淆CDN的提供者和源站。 這次舉例以新浪微博為源站,假設(shè)微博使用了阿里的CDN(并不是假設(shè),新聞在這里),那么阿里CDN會告訴微博,你要我給你加速一張圖片是吧,那你就把這個圖片解析到我的服務(wù)器來(可以CNAME,也可以直接寫阿里CDN的url),那么,阿里CDN的dns權(quán)威服務(wù)器,會收到這么一個解析請求,“請告訴我,新浪微博的1.png的節(jié)點(diǎn)在哪”
。這時CDN系統(tǒng)就要大展身手了。
假設(shè)我們現(xiàn)在是阿里CDN的dns權(quán)威服務(wù)器,有人問我們“新浪微博的1.png的節(jié)點(diǎn)在哪”
,那我會這么做:先看看問我的這個人IP是多少(回憶一下dns解析的過程,我們看到的應(yīng)該是local
dns的IP),然后根據(jù)這個IP查到他是哪里的,北京還是廣州,上海還是深圳。如果是北京,那好,我就給你返回北京的節(jié)點(diǎn)的地址;如果是上海,那我就給你返回上海的節(jié)點(diǎn)的地址,這樣就實(shí)現(xiàn)了就近訪問。
在把IP地址對應(yīng)到地理位置的過程中,需要用到IP庫,阿里CDN的IP地址庫賤賤的,因?yàn)榘⒗顲DN的負(fù)責(zé)人叔度在ArchSummit架構(gòu)師峰會上說,他們可以用淘寶的包裹記錄來校準(zhǔn),真是機(jī)智。
當(dāng)然,就近只是一個要考慮的因素之一,還有很多因素需要考慮的,例如網(wǎng)絡(luò)成本,流量分布,源站負(fù)載等。這是個很復(fù)雜的過程,我只是舉了一個直觀的方面來說。
CDN減少源站壓力
剛才說了CDN是如何選擇優(yōu)質(zhì)節(jié)點(diǎn)的,那么對于客戶端,算是有個交代了。所以接下來考慮怎么給源站一個交代:減小源站壓力。如果每一個用戶請求都讓他直接去源站拿的話,那源站將會承受巨大的壓力,所以要考慮為源站提供一個HTTP的緩存,通過提升緩存的命中率來減小源站的壓力。
比如剛才第一個用戶請求了1.png,那么CDN先把這張圖片緩存(緩存簡單可以認(rèn)為是一個哈希表,key是url,value是response)起來,下次再有人要1.png,就直接返回給他,從而減少回源流量。
HTTP緩存服務(wù)器是一個很復(fù)雜的功能。下面還是貼一張叔度在ArchSummit架構(gòu)師峰會上用到的PPT吧,來說一下這里面大概的技術(shù),阿里的HTTP緩存服務(wù)器叫Swfit,正好和蘋果的那個語言重名了。
圖中是一個CDN節(jié)點(diǎn),用戶的請求從LVS(LVS是一個四層的負(fù)載均衡組件,作者是章文嵩博士,現(xiàn)任阿里云CTO)的入口來,先由LVS做一次4層的負(fù)載均衡,然后轉(zhuǎn)到一臺Tengine(阿里在nginx的基礎(chǔ)上開發(fā)的服務(wù)器)上,Tengine做一致性hash,選擇一臺Swift(阿里使用的HTTP緩存服務(wù)器),然后Swift去做緩存回源。接下來仍然貼一張叔度在ArchSummit架構(gòu)師峰會上用到的PPT,一起看看Swift的架構(gòu)。
首先可以看到,Swift是一個多線程的程序,每個線程起一個epoll來充分發(fā)揮多核的處理能力。并且盡量減少線程間的上下文切換,一個請求盡量在一個線程處理。然后圖里面還能看到內(nèi)存緩存,SSD緩存,SATA緩存。據(jù)叔度說,Swift會有熱點(diǎn)淘汰的機(jī)制,將熱文件放在內(nèi)存里,次熱文件放在SSD上,最后才是SATA盤,然后會有熱點(diǎn)淘汰和提升機(jī)制。
同時叔度在ArchSummit峰會上還提出,Tengine和Swift是通過Spdy協(xié)議來通信的,從而優(yōu)化HTTP的效率。所以,CDN在技術(shù)上還是很有深度的,網(wǎng)絡(luò),IO,多線程,TCP/IP,HTTP這些后臺常見的名詞在這里面體現(xiàn)的淋漓盡致。
邊邊角角
其實(shí)在DNS查詢過程有一個這樣的問題,權(quán)威服務(wù)器接收請求的時候,只能得到local DNS的IP,并不知道client IP。這是個很蛋疼的東西,所以google提出了EDNS的協(xié)議,會帶上client IP,但是其實(shí)不怎么實(shí)用,因?yàn)檫@相當(dāng)于大家緩存DNS查詢結(jié)果的時候多了一維client IP,一維數(shù)組變二維數(shù)組,簡直是內(nèi)存的災(zāi)難。所以,大家平常就別用8.8.8.8這樣的DNS服務(wù)器了,不然別人以為你是在美國,然后用美國的源站和你通信,肯定慢成狗啊。
總結(jié)
總結(jié)一下CDN的工作原理:通過權(quán)威dns服務(wù)器來實(shí)現(xiàn)優(yōu)質(zhì)節(jié)點(diǎn)的選擇,通過緩存來減少源站的壓力。
推薦閱讀
最后推薦一下阿里CDN的負(fù)責(zé)人叔度在ArchSummit上的演講,把阿里CDN架構(gòu)講的很清楚。本文很多內(nèi)容來自該演講。