带你深入理解期望、方差、协方差的含义

带你深入理解期望、方差、协方差的含义

基本概念

先梳理一下概率论中的几个基本概念。

事件 事件指某种情况的“陈述”,通俗来讲,事件就是一些case,比如A事件定义为,掷出骰子为偶数点=(2,4,6),这个case包含了多个结果,其中,每个结果叫做一个基本事件,一个事件是由若干基本事件构成的。由此可见,事件的本质是集合。

有了事件,自然就有事件之间的关系,因为事件的本质是集合,所以我们可以用集合的运算符号来表达事件之间的基本逻辑关系,以下关系都可以用集合中的韦恩图来理解,这里就不画了。 基本关系有 :

蕴含与相等:如果当A发生时B必发生 ,记

A

B

A\subset B

A⊂B,当

A

B

A,B

A,B相互蕴含时,称两事件相等,记

A

=

B

A=B

A=B

互斥与对立:在一次试验中不可能同时发生,但可以都不发生,有A就没有B,有B没有A,但是可以同时没有A和B。互斥事件的一个重要情况是“对立事件”,若

A

A

A为一事件,则事件 B={A不发生} ,记作

B

=

A

ˉ

B=\bar{A}

B=Aˉ

事件和(或称并):

A

,

B

A,B

A,B 中至少发生一个(并集),记作

C

=

A

+

B

C=A+B

C=A+B

事件积(或称并):

A

A

A发生且

B

B

B发生(交集),记作

C

=

A

B

C=AB

C=AB

事件差:

A

A

A发生且

B

B

B不发生,记作

C

=

A

B

=

A

B

ˉ

C=A-B=A \bar{B}

C=A−B=ABˉ

注意我们只是借用了算术中的运算符号来表达事件间的逻辑关系,算术的规则不一定能用于事件运算,这些符号不过是反映了事件间的一种逻辑关系,因而必须用逻辑思维的方式去验证。 由事件的基本关系可进一步定义出更复杂的关系,如条件概率、事件独立、全概率、贝叶斯等,其中相关公式可以自行查阅资料。

随机变量 随机变量就是试验结果的函数,它对试验结果的文字描述进行数字化,从而方便研究。比如抛一枚硬币,定义1=正面朝上 ,0=反面朝上,所以随机变量

X

X

X就代表抛硬币这个试验的结果,要么0要么1。 随机变量按其可能取的值的全体的性质,区分为两大类,一类是离散型随机变量,一类是连续型随机变量。

分布 研究一个随机变量的目的是为了进行预测,所以更重要的是它取各种值的概率如何,也就是分布如何,人们对生活中的现象进行规律总结,得到了一些比较常见的分布: 离散型随机变量常见的分布有:

伯努利分布(两点分布,Bernoulli distribution)二项分布(binomial distribution)几何分布(geometric distribution)泊松分布(Poisson distribution)

连续型随机变量常见的分布有:

正态分布(normal distribution)指数分布(exponential distribution)

这些分布之间相互做运算又有更加复杂的分布,这里墙裂推荐一本书 <<概率论与数理统计>> 陈希孺,看过的人都说棒!ヽ(ˋДˊ)ノ

分布是随机变量的概率性质最完整的刻画,而随机变量的数字特征,则是由随机变量的分布所决定的常数,它刻画了随机变量(或者说,刻画了其分布)的某一方面的性质,人们往往也比较关心这些指标,常见的有期望,方差、协方差,下面分别介绍公式。

期望

期望是随机变量取值的平均,以概率为权的对随机变量进行加权求和。

那么它和“平均数”有什么区别? 平均数是一个统计学的概念,是对一组已经观察到的样本进行统计的量,而期望是一个概率论的概念,是根据已经存在的概率分布来“预测”样本的平均值的量,由于概率是频率随样本趋于无穷的极限,所以期望其实就是平均数随样本趋于无穷的极限,两者是通过大数定理联系起来的。

性质 1.

E

(

X

1

+

X

2

+

+

X

n

)

=

E

(

X

1

)

+

E

(

X

2

)

+

+

E

(

X

n

)

E\left(X_{1}+X_{2}+\cdots+X_{n}\right)=E\left(X_{1}\right)+E\left(X_{2}\right)+\cdots+E\left(X_{n}\right)

E(X1​+X2​+⋯+Xn​)=E(X1​)+E(X2​)+⋯+E(Xn​)(无条件成立)

2.

E

(

X

1

X

2

X

n

)

=

E

(

X

1

)

E

(

X

2

)

E

(

X

n

)

E\left(X_{1} X_{2} \cdots X_{n}\right)=E\left(X_{1}\right) E\left(X_{2}\right) \cdots E\left(X_{n}\right)

E(X1​X2​⋯Xn​)=E(X1​)E(X2​)⋯E(Xn​)(独立情况下成立)

计算 上述的定义是在我们知道概率分布的情况下计算期望的公式,但在实际应用中,我们往往是知道一组样本,我们需要通过样本来估计出总体,所以我们通常是用样本的统计量来估计这些数字特征。假如给定一个含有n个样本的集合,我们是通过样本平均值来估计期望:

X

ˉ

=

i

=

1

n

X

i

n

\bar{X}=\frac{\sum_{i=1}^{n} X_{i}}{n}

Xˉ=n∑i=1n​Xi​​

方差

方差是用来衡量随机变量和其数学期望之间的偏离程度的量,通俗来说,就是用来衡量随机变量的波动程度,方差越大,那么这一组数据的波动幅度也就越大,稳定性就越小。

因为

X

X

X是随机的,所以偏离的量

X

E

X

X-EX

X−EX本身也是随机的,为了避免正负相互抵消,对其取平方作为偏离量,很自然方差就是该偏离量的期望,定义为:

Var

(

X

)

=

E

(

X

E

X

)

2

=

E

(

X

2

)

(

E

X

)

2

\operatorname{Var}(X)=E(X-E X)^{2}=E\left(X^{2}\right)-(E X)^{2}

Var(X)=E(X−EX)2=E(X2)−(EX)2 性质 1.常数的方差为0 2.若C为常数,则

V

a

r

(

X

+

C

)

=

V

a

r

(

X

)

Var(X+C)=Var(X)

Var(X+C)=Var(X) 3.若C为常数,则

V

a

r

(

C

X

)

=

C

2

V

a

r

(

X

)

Var(CX)=C^2Var(X)

Var(CX)=C2Var(X) 4.独立情况下,

Var

(

X

1

+

+

X

n

)

=

Var

(

X

1

)

+

+

Var

(

X

n

)

\operatorname{Var}\left(X_{1}+\cdots+X_{n}\right)=\operatorname{Var}\left(X_{1}\right)+\cdots+\operatorname{Var}\left(X_{n}\right)

Var(X1​+⋯+Xn​)=Var(X1​)+⋯+Var(Xn​),注意区别期望是无条件成立

计算 假如给定一个含有n个样本的集合,则方差计算为:

σ

2

=

i

=

1

n

(

X

i

X

ˉ

)

2

n

1

\sigma^{2}=\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}}{n-1}

σ2=n−1∑i=1n​(Xi​−Xˉ)2​ 之所以除以n-1而不是除以n,是因为我们是用样本去估计总体,除n-1才是统计学上的“无偏估计”,这样能使我们以较小的样本集更好的逼近总体的标准差(有严格的数学推导,可以查阅资料)

标准化 在机器学习中,我们的数据经常是一个向量

x

x

x,也就是多维随机变量,每个位置是一个特征,为了消除数据特征间 单位和量级差异的影响,往往需要对数据进行标准化,使每个特征的均值为 0、方差 1,这样特征间就是可比较的(以下符号都是向量):

x

=

x

x

ˉ

σ

x^{\prime}=\frac{x-\bar{x}}{\sigma}

x′=σx−xˉ​

协方差

协方差是多维随机变量的数字特征。在生活中,我们往往会从多个角度对一个事物进行观察,这些角度也就是所谓的“特征”,比如对于“人”,有身高、体重、胸围、臂长等特征,协方差就是用来衡量特征之前有没有相关关系的量。 以二维随机变量

(

X

,

Y

)

(X, Y)

(X,Y)为例,定义协方差为:

Cov

(

X

,

Y

)

=

E

[

(

X

E

X

)

(

Y

E

Y

)

]

=

E

(

X

Y

)

(

E

X

)

(

E

Y

)

\operatorname{Cov}(X, Y)=E\left[\left(X- EX\right)\left(Y-EY\right)\right]=E\left(XY\right)-(E X)(EY)

Cov(X,Y)=E[(X−EX)(Y−EY)]=E(XY)−(EX)(EY) 可以看到它的形式和方差非常相似,不过是吧其中一项换成了

(

Y

E

Y

)

(Y-EY)

(Y−EY),由定义可得

Cov

(

X

,

X

)

=

V

a

r

(

X

)

\operatorname{Cov}(X, X)={Var}(X)

Cov(X,X)=Var(X)

协方差的结果有什么意义呢?如果结果为正值,则说明两者是正相关的,如果为负,则为负相关。从协方差可以引出“相关系数”的定义,衡量随机变量之相关程度更多的是用相关系数,可以看这篇文章 相关系数——皮尔逊相关系数的公式及其理解

性质 1.若

X

,

Y

X, Y

X,Y 独立,则

Cov

(

X

,

Y

)

=

0

\operatorname{Cov}(X, Y)=0

Cov(X,Y)=0,反过来不一定成立 2.第一条的例外:当(

X

,

Y

X, Y

X,Y )为二维正态时, 由

Cov

(

X

,

Y

)

=

0

\operatorname{Cov}(X, Y)=0

Cov(X,Y)=0 能推出

X

,

Y

X, Y

X,Y 独立 3.c为常数,

Cov

(

c

1

X

+

c

2

,

c

3

Y

+

c

4

)

=

c

1

c

3

Cov

(

X

,

Y

)

\operatorname{Cov}\left(c_{1} X+c_{2}, c_{3} Y+c_{4}\right)=c_{1} c_{3} \operatorname{Cov}(X, Y)

Cov(c1​X+c2​,c3​Y+c4​)=c1​c3​Cov(X,Y)

计算 假如给定一个含有n个样本的集合,则协方差计算为:

Cov

(

x

,

y

)

=

1

n

1

i

=

1

n

(

x

i

x

ˉ

)

(

y

i

y

ˉ

)

\operatorname{Cov}(x, y)=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)

Cov(x,y)=n−11​i=1∑n​(xi​−xˉ)(yi​−yˉ​)

协方差矩阵 协方差也只能处理二维问题,维数多了就需要计算多个协方差,我们是用矩阵来进行组织,也就是协方差矩阵。以三维随机变量

(

x

,

y

,

z

)

(x,y,z)

(x,y,z)为例,则协方差矩阵为:

C

=

(

cov

(

x

,

x

)

cov

(

x

,

y

)

cov

(

x

,

z

)

cov

(

y

,

x

)

cov

(

y

,

y

)

cov

(

y

,

z

)

cov

(

z

,

x

)

cov

(

z

,

y

)

cov

(

z

,

z

)

)

C=\left(\begin{array}{ccc} \operatorname{cov}(x, x) & \operatorname{cov}(x, y) & \operatorname{cov}(x, z) \\ \operatorname{cov}(y, x) & \operatorname{cov}(y, y) & \operatorname{cov}(y, z) \\ \operatorname{cov}(z, x) & \operatorname{cov}(z, y) & \operatorname{cov}(z, z) \end{array}\right)

C=⎝⎛​cov(x,x)cov(y,x)cov(z,x)​cov(x,y)cov(y,y)cov(z,y)​cov(x,z)cov(y,z)cov(z,z)​⎠⎞​ 可见,协方差矩阵是一个对称的矩阵,而且对角线是各个维度上的方差,协方差矩阵很有用,可以用来对数据进行更高级的分析,这里就不说了。

如果对你有帮助,请点个赞:-D

相关推荐