随机变量的自信息笔记

随机变量的自信息

X、Y、Z：随机变量

x、y、z：随机变量的具体取值

x 、 y 、 z x、y、z x、y、z：集合

∣ x ∣ 、 ∣ y ∣ 、 ∣ z ∣ |x|、|y|、|z| ∣x∣、∣y∣、∣z∣：集合的势（集合中元素的个数）

P X ( x ) = P ( X = x ) P_{X}(x)=mathbb{P}(X=x) PX(x)=P(X=x)：随机变量的概率分布

P X Y ( x , y ) = P ( X = x , Y = y ) P_{XY}(x,y)=mathbb{P}(X=x,Y=y) PXY(x,y)=P(X=x,Y=y)：联合概率（随机过程）

X n = X 1 , X 2 . . . X n X^{n}=X_{1},X_{2}...X_{n} Xn=X1,X2...Xn：长度为n的随机变量序列

x n = x 1 , x 2 . . . x n x^{n}=x_{1},x_{2}...x_{n} xn=x1,x2...xn：长度为n的数值序列

X i j = X i , X i + 1 . . . X j X_{i}^{j}=X_{i},X_{i+1}...X_{j} Xij=Xi,Xi+1...Xj：长度为（ j − i + 1 ）（j-i+1）（j−i+1）的随机变量序列

X n = ( X 1 , X 2 . . . X n ) X^{n}=(X_{1},X_{2}...X_{n}) Xn=(X1,X2...Xn)：维度为n的随机矢量

x n = ( x 1 , x 2 . . . x n ) x^{n}=(x_{1},x_{2}...x_{n}) xn=(x1,x2...xn)：维度为n的数值矢量

X i j = ( X i , X i + 1 . . . X j ) X_{i}^{j}=(X_{i},X_{i+1}...X_{j}) Xij=(Xi,Xi+1...Xj)：维度为（ j − i + 1 ）（j-i+1）（j−i+1）的随机矢量

信息是对不确定性的消除随机变量的自信息四个基本问题：

随机性与概率的关系：概率越低，随机事件所提供的自信息越大；反之，随机事件所提供的自信息越小。概率为1的事件的信息量：概率为1的事件为确定性事件，它所能够提供的信息量为0，因为没有任何的不确定性被消除。概率为0的事件的信息量：随着概率变得越来越小，它所能够提供的信息量越来越大，概率为0的事件的信息量$rightarrow infty $。两个独立事件的联合信息量：为它们各自自信息量的代数和。

↓

设 a 1 , a 2 a_{1},a_{2} a1,a2为两个随机事件，

（1）若 P ( a 1 ) > P ( a 2 ) P(a_{1})>P(a_{2}) P(a1)>P(a2)，则 f ( a 1 ) < f ( a 2 ) f(a_{1})

（2）若 P ( a 1 ) = 1 P(a_{1})=1 P(a1)=1，则 f ( a 1 ) = 0 f(a_{1})=0 f(a1)=0

（3）若 P a = 0 P_{a}=0 Pa=0，则 f ( a 1 ) = ∞ f(a_{1})=∞ f(a1)=∞

（4）如果 a 1 , a 2 a_{1},a_{2} a1,a2为独立事件，则 f ( a 1 , a 2 ) = f ( a 1 ) + f ( a 2 ) f(a_{1},a_{2})=f(a_{1})+f(a_{2}) f(a1,a2)=f(a1)+f(a2)

自信息

I ( a i ) = l o g 1 P ( a i ) I(a_{i})=logfrac{1}{P(a_{i})} I(ai)=logP(ai)1

这是一个减函数，当 P ( a i ) = 0 P(a_{i})=0 P(ai)=0时， I ( a i ) = ∞ I(a_{i})=∞ I(ai)=∞；当 P ( a i ) = 1 P(a_{i})=1 P(ai)=1时， I ( a i ) = 0 I(a_{i})=0 I(ai)=0。

对数底与信息的单位

以2为底： bit （binary unit）

以e为底： nat （nature unit）

以10为底：Hart （Hartley）

换算关系：

1 nat =1.44bit

1 Hart=3.32bit

一般不加说明，取以2为底。

随机变量的自信息笔记

Python相关栏目本月热门文章