X、Y、Z:随机变量
x、y、z:随机变量的具体取值
x 、 y 、 z x、y、z x、y、z:集合
∣ x ∣ 、 ∣ y ∣ 、 ∣ z ∣ |x|、|y|、|z| ∣x∣、∣y∣、∣z∣:集合的势(集合中元素的个数)
P X ( x ) = P ( X = x ) P_{X}(x)=mathbb{P}(X=x) PX(x)=P(X=x):随机变量的概率分布
P X Y ( x , y ) = P ( X = x , Y = y ) P_{XY}(x,y)=mathbb{P}(X=x,Y=y) PXY(x,y)=P(X=x,Y=y):联合概率(随机过程)
X n = X 1 , X 2 . . . X n X^{n}=X_{1},X_{2}...X_{n} Xn=X1,X2...Xn:长度为n的随机变量序列
x n = x 1 , x 2 . . . x n x^{n}=x_{1},x_{2}...x_{n} xn=x1,x2...xn:长度为n的数值序列
X i j = X i , X i + 1 . . . X j X_{i}^{j}=X_{i},X_{i+1}...X_{j} Xij=Xi,Xi+1...Xj:长度为 ( j − i + 1 ) (j-i+1) (j−i+1)的随机变量序列
X n = ( X 1 , X 2 . . . X n ) X^{n}=(X_{1},X_{2}...X_{n}) Xn=(X1,X2...Xn):维度为n的随机矢量
x n = ( x 1 , x 2 . . . x n ) x^{n}=(x_{1},x_{2}...x_{n}) xn=(x1,x2...xn):维度为n的数值矢量
X i j = ( X i , X i + 1 . . . X j ) X_{i}^{j}=(X_{i},X_{i+1}...X_{j}) Xij=(Xi,Xi+1...Xj):维度为 ( j − i + 1 ) (j-i+1) (j−i+1)的随机矢量
信息是对不确定性的消除 随机变量的自信息 四个基本问题:随机性与概率的关系:概率越低,随机事件所提供的自信息越大;反之,随机事件所提供的自信息越小。概率为1的事件的信息量:概率为1的事件为确定性事件,它所能够提供的信息量为0,因为没有任何的不确定性被消除。概率为0的事件的信息量:随着概率变得越来越小,它所能够提供的信息量越来越大,概率为0的事件的信息量$rightarrow infty $。两个独立事件的联合信息量:为它们各自自信息量的代数和。
↓
设 a 1 , a 2 a_{1},a_{2} a1,a2为两个随机事件,
(1)若
P
(
a
1
)
>
P
(
a
2
)
P(a_{1})>P(a_{2})
P(a1)>P(a2),则
f
(
a
1
)
<
f
(
a
2
)
f(a_{1}) (2)若
P
(
a
1
)
=
1
P(a_{1})=1
P(a1)=1,则
f
(
a
1
)
=
0
f(a_{1})=0
f(a1)=0 (3)若
P
a
=
0
P_{a}=0
Pa=0,则
f
(
a
1
)
=
∞
f(a_{1})=∞
f(a1)=∞ (4)如果
a
1
,
a
2
a_{1},a_{2}
a1,a2为独立事件,则
f
(
a
1
,
a
2
)
=
f
(
a
1
)
+
f
(
a
2
)
f(a_{1},a_{2})=f(a_{1})+f(a_{2})
f(a1,a2)=f(a1)+f(a2)
I
(
a
i
)
=
l
o
g
1
P
(
a
i
)
I(a_{i})=logfrac{1}{P(a_{i})}
I(ai)=logP(ai)1 这是一个减函数,当
P
(
a
i
)
=
0
P(a_{i})=0
P(ai)=0时,
I
(
a
i
)
=
∞
I(a_{i})=∞
I(ai)=∞;当
P
(
a
i
)
=
1
P(a_{i})=1
P(ai)=1时,
I
(
a
i
)
=
0
I(a_{i})=0
I(ai)=0。 以2为底: bit (binary unit) 以e为底: nat (nature unit) 以10为底:Hart (Hartley) 1 nat =1.44bit 1 Hart=3.32bit 一般不加说明,取以2为底。



