機(jī)器學(xué)習(xí):泊松分布與指數(shù)分布
我舉一個(gè)例子,什么是泊松分布和指數(shù)分布?恐怕大多數(shù)人都說(shuō)不清楚。
我可以在10分鐘內(nèi),讓你毫不費(fèi)力地理解這兩個(gè)概念。
一、泊松分布
日常生活中,大量事件是有固定頻率的。
某醫(yī)院平均每小時(shí)出生3個(gè)嬰兒
某公司平均每10分鐘接到1個(gè)電話
某超市平均每天銷售4包xx牌奶粉
某網(wǎng)站平均每分鐘有2次訪問(wèn)
它們的特點(diǎn)就是,我們可以預(yù)估這些事件的總數(shù),但是沒(méi)法知道具體的發(fā)生時(shí)間。已知平均每小時(shí)出生3個(gè)嬰兒,請(qǐng)問(wèn)下一個(gè)小時(shí),會(huì)出生幾個(gè)?
有可能一下子出生6個(gè),也有可能一個(gè)都不出生。這是我們沒(méi)法知道的。
泊松分布就是描述某段時(shí)間內(nèi),事件具體的發(fā)生概率。
上面就是泊松分布的公式。等號(hào)的左邊,P 表示概率,N表示某種函數(shù)關(guān)系,t 表示時(shí)間,n 表示數(shù)量,1小時(shí)內(nèi)出生3個(gè)嬰兒的概率,就表示為 P(N(1) = 3) 。等號(hào)的右邊,λ 表示事件的頻率。
接下來(lái)兩個(gè)小時(shí),一個(gè)嬰兒都不出生的概率是0.25%,基本不可能發(fā)生。
接下來(lái)一個(gè)小時(shí),至少出生兩個(gè)嬰兒的概率是80%。
泊松分布的圖形大概是下面的樣子。
可以看到,在頻率附近,事件的發(fā)生概率最高,然后向兩邊對(duì)稱下降,即變得越大和越小都不太可能。每小時(shí)出生3個(gè)嬰兒,這是最可能的結(jié)果,出生得越多或越少,就越不可能。