熵是隨機(jī)變量不確定性的度量,不確定性越大,熵值越大,若隨機(jī)變量退化成定值,熵為0,均勻分布是最不確定的分布。熵其實(shí)定義了一個(gè)函數(shù)(概率分布函數(shù))到一個(gè)值(信息熵)的映射。
熵的定義公式如下:
在經(jīng)典熵的定義中,底數(shù)是2,此時(shí)熵的單位是bit,若底數(shù)是e,則熵的單位是nat(奈特)
兩個(gè)隨機(jī)變量X, Y的聯(lián)合分布,可以形成聯(lián)合熵Joint Entropy,用H(X,Y)表示,那么我們不禁要問(wèn):H(X,Y) - H(Y)代表什么呢?
事實(shí)上,(X,Y)發(fā)生所包含的熵,減去Y單獨(dú)發(fā)生包含的熵,在Y發(fā)生的前提下,X發(fā)生的新帶來(lái)的熵。于是有了條件熵:H(X|Y)的定義
下面是條件熵的推導(dǎo)公式:
相對(duì)熵,又稱為互熵,交叉熵,鑒別信息,KL散度,假設(shè)p(x), q(x)是X中取值的兩個(gè)概率分布,則p對(duì)q的相對(duì)熵是:
對(duì)于相對(duì)熵,可以度量?jī)蓚€(gè)隨機(jī)變量的距離,一般的p對(duì)q的相對(duì)熵和q對(duì)p的相對(duì)熵不相等。
對(duì)于已知的隨機(jī)變量p,要使得相對(duì)簡(jiǎn)單的隨機(jī)變量q,盡量接近p,那么我們可以采用相對(duì)熵進(jìn)行求解:
假定使用KL(Q||P),為了讓距離最小,則要求在P為0的地方,Q盡量為0。會(huì)得到比較“窄”的分布曲線;
假定使用KL(P||Q),為了讓距離最小,則要求在P不為0的地方,Q也盡量不為0。會(huì)得到比較“寬”的分布曲線;
互信息
兩個(gè)隨機(jī)變量X,Y的互信息,定義為X,Y的聯(lián)合分布和獨(dú)立分布乘積的相對(duì)熵。
對(duì)于互信息,我們可以有如下的推導(dǎo)公式: