每一个随机事件都有自信息 I ( a i ) I(a_{i}) I(ai)
针对系统,取各随机事件自信息的统计平均:
E
p
I
(
a
i
)
=
∑
i
p
(
a
i
)
I
(
a
i
)
=
−
∑
i
p
(
a
i
)
l
o
g
p
(
a
i
)
E_{p}I(a_{i})=sum_{i}^{}p(a_{i})I(a_{i})=-sum_{i}^{}p(a_{i})logp(a_{i})
EpI(ai)=i∑p(ai)I(ai)=−i∑p(ai)logp(ai)
离散随机变量
X
X
X的信息熵
H
(
X
)
H(X)
H(X)定义为:
H
(
X
)
=
−
∑
x
∈
X
p
(
x
)
l
o
g
p
(
x
)
H(X)=-sum_{x∈X}^{}p(x)logp(x)
H(X)=−x∈X∑p(x)logp(x)
H ( . ) H(.) H(.)的综量是随机变量的分布,而非取值 0 l o g 0 = 0 0log0=0 0log0=0( x → 0 x→0 x→0时, x l o g x → 0 xlogx→0 xlogx→0),概率为0的事件不影响信息熵 信息熵的唯一性定理
香农给出了信息熵函数满足的三个条件
- 连续性:当随机系统的概率分布发生了微小的变化,信息量不应该发生显著的变化,二者应该是连续的。等概时的单调增函数特性:当随机系统是在一个集合上等概率分布的,那么随着集合中元素的个数的增加,信息熵的函数应该具有单调增的特性。可加性:一个随机系统的信息熵应该具有可加的性质。
定理1.1:满足上述三个条件的随机变量不确定性度量函数为:
f
(
p
1
,
p
2
,
.
.
.
p
N
)
=
−
C
∑
n
=
1
N
p
(
n
)
l
o
g
p
n
f(p_{1},p_{2},...p_{N})=-Csum_{n=1}^{N}p(n)logp_{n}
f(p1,p2,...pN)=−Cn=1∑Np(n)logpn



