核心思想:信息是用來消除不確定性的。事件發(fā)生的可能性越?。ㄔ揭馔猓?,它發(fā)生時帶來的信息量就越大。
1. 信息量
定義: 一個離散事件 x 發(fā)生所帶來的信息量 I(x),定義為該事件發(fā)生概率 p(x) 的倒數(shù)的對數(shù)(通常以2為底)。
公式: I(x) = log?(1 / p(x)) = -log?(p(x))
單位: 比特 (bit),因為底數(shù)是2。如果用自然對數(shù)(底數(shù)e),單位是奈特(nat);如果用10為底,單位是哈特萊(hartley)。比特是最常用的。
直觀解釋
概率越低,信息量越大: 想象有人告訴你“明天太陽會從東方升起”。這個事件概率 p(日出) ≈ 1,所以 I(日出) = -log?(1) = 0 比特。這幾乎沒有帶來任何新信息,因為你早就確定了。相反,如果有人告訴你“明天會下雪”(假設你在一個很少下雪的地方),這個事件概率 p(下雪) 很小,比如 0.01,那么 I(下雪) = -log?(0.01) ≈ 6.64 比特。這個信息量很大,因為它消除了巨大的不確定性(明天不下雪的可能性是99%)。
對數(shù)的作用
確保信息量是可加的。如果兩個獨立事件 x 和 y 同時發(fā)生,它們帶來的總信息量 I(x, y) = I(x) + I(y)。因為 p(x, y) = p(x)*p(y),所以 I(x, y) = -log?(p(x)p(y)) = -log?(p(x)) - log?(p(y)) = I(x) + I(y)。將概率的乘法關系轉化為信息量的加法關系,這在數(shù)學處理上非常方便。將 [0, 1] 的概率范圍映射到 [0, ∞) 的信息量范圍。
2. 信息熵
信息量描述的是單個事件帶來的信息。信息熵描述的是整個信源(一個能產(chǎn)生離散消息的系統(tǒng)或隨機變量)的平均不確定性或平均信息量。
定義: 離散隨機變量 X,有有限個可能的取值 {x?, x?, ..., xn},對應的概率分布為 P(X) = {p(x?), p(x?), ..., p(xn)},且滿足 Σ p(xi) = 1。隨機變量 X 的信息熵 H(X) 定義為 X 所有可能取值的信息量 I(xi) 在其概率分布 P(X) 上的期望值(平均值)。
公式: H(X) = E[I(X)] = Σ [p(xi) * I(xi)] = Σ [p(xi) * (-log?(p(xi)))] = - Σ [p(xi) * log?(p(xi))] (求和范圍 i = 1 到 n)
單位: 比特/符號 (bits per symbol)(或奈特/符號、哈特萊/符號)。
直觀解釋
熵 H(X) 度量了在觀察到 X 的實際取值之前,我們對 X 取值結果的平均不確定程度。熵越大,意味著信源的平均不確定性越高,每次觀察能帶來的平均信息量也越大。 熵 H(X) 也代表了信源 X 每產(chǎn)生一個符號(或發(fā)生一次事件)所能提供的平均信息量。它是信息量的概率加權平均。
概率分布越均勻,熵越大: 想象兩個信源:信源A(均勻硬幣): P(正面)=0.5, P(反面)=0.5。
H(A) = - [0.5 * log?(0.5) + 0.5 * log?(0.5)] = - [0.5 * (-1) + 0.5 * (-1)] = - [-0.5 - 0.5] = - [-1] = 1 比特。
信源B(作弊硬幣): P(正面)=0.9, P(反面)=0.1。
H(B) = - [0.9 * log?(0.9) + 0.1 * log?(0.1)] ≈ - [0.9 * (-0.152) + 0.1 * (-3.322)] ≈ - [-0.1368 - 0.3322] ≈ - [-0.469] ≈ 0.469 比特。
信源A完全公平,結果最難預測,不確定性最高,熵最大(1比特)。信源B高度偏向正面,結果更容易預測(猜正面大概率猜對),不確定性較低,熵較?。?span>0.469比特)。
概率分布越集中(越確定),熵越?。? 極端情況,如果 P(xk)=1 (某個事件必然發(fā)生),其他 p(xi)=0 (i≠k),則 H(X) = - [1 * log?(1) + 0 * log?(0) + ...] = -[1 * 0 + 0 * ...] = 0 比特。完全沒有不確定性。
編碼效率的極限: 熵具有極其重要的實際意義。香農(nóng)的無噪聲編碼定理指出:熵 H(X) 是離散無記憶信源 X 進行無損壓縮時,平均每個符號所需的最短碼長的理論下限。 也就是說,無論使用多么精巧的編碼方案(如霍夫曼編碼),壓縮后平均每個符號的比特數(shù)不可能低于 H(X) 比特。在上面硬幣的例子中,信源A(熵1比特)無法被壓縮到平均每符號少于1比特(公平硬幣的結果確實需要1比特來表示,正面=0,反面=1)。信源B(熵≈0.469比特)理論上可以用小于1比特/符號的平均長度進行無損編碼(例如,利用其偏向性,用更短的碼字表示更常出現(xiàn)的正面)。
從離散消息角度總結
單個消息(事件): 事件 x 發(fā)生的信息量 I(x) = -log?(p(x))。它量化了該事件發(fā)生所消除的不確定性。概率越小,信息量越大。
信源(消息產(chǎn)生器): 離散隨機變量 X(代表信源)的信息熵 H(X) = - Σ p(xi) log?(p(xi))。它量化了整個信源的平均不確定性或平均每產(chǎn)生一個符號(消息)所能提供的平均信息量。
關鍵關系: 熵 H(X) 是信息量 I(x) 在信源所有可能符號上的期望值(平均值)。
核心意義: 信息熵給出了對離散信源產(chǎn)生的消息進行最有效表示(無損壓縮)所需的最小平均比特數(shù)。它是數(shù)據(jù)壓縮的理論極限。
依賴因素: 信息熵只依賴于信源符號的概率分布 P(X),與符號本身的具體含義無關。