概率与概率分布单元基础知识总结 本文关键词:概率,基础知识,单元,分布
概率与概率分布单元基础知识总结 本文简介:第六章概率与概率分布*【学习目的与要求】通过本章学习,要求了解在深刻理解随机事件、随机变量和概率分布等概念的基础上,熟练掌握几种常用随机变量性质、特点及其概率分布规律,尤其是正态分布的性质及应用;明确大数定理和中心极限定理的意义。【学习重点和难点】概率的定义几种常用的概率分布及应用大数定律和中心极限
概率与概率分布单元基础知识总结 本文内容:
第六章
概率与概率分布*
【学习目的与要求】
通过本章学习,要求了解在深刻理解随机事件、随机变量和概率分布等概念的基础上,熟练掌握几种常用随机变量性质、特点及其概率分布规律,尤其是正态分布的性质及应用;明确大数定理和中心极限定理的意义。
【学习重点和难点】
概率的定义
几种常用的概率分布及应用
大数定律和中心极限定理的意义
概率的基本运算和概率分布及应用
【课堂讲授内容】
概率分布是统计推断的基础。概率分布与统计推断之间的联系纽带是抽样分布。当我们掌握了概率分布及大数定理和中心极限定理之后,就能理解某个样本的抽取是随机的,作为其反映数量特征的样本指标就是随机变量,而随机变量的概率分布是理解抽样分布的关键。
第一节
随机变量及其概率分布
一、随机变量的概念
所谓随机变量,就是随机试验的定量描述。如果一个变量在随机试验中可以取得不同的数值,这些数值在试验前无法确定,而对于一次具体的试验它的取值又是确定的,则称这样的变量为随机变量。
随机变量用大写字母X、Y、Z等表示,其具体取值常用小写字母x、y、z来表示。
随机变量具有两个特点:一是取值的随机性,即事先不能确定取哪个值;二是取值的统计规律性,即随机变量取值的可能性大小(概率)是完全可以确定的。
随机变量按其取值情况可以分为离散型随机变量和连续型随机变量两类。如果一个随机变量的所有可能取值都可以逐个列举出来,则称这样的随机变量为离散随机变量。如果一个随机变量的可能取值不能一一列出,而是取某一区间的全部数值,则称这样的变量为连续随机变量。
二、随机变量的概率分布
随机变量X的所有可能取值与其对应的概率P(X)构成的概率分布规律,叫做随机变量的概率分布。
(一)离散型随机变量的概率分布——分布列
设离散型随机变量X的可能取值为
取这些值的概率分别为:,则称
(k=1,2,3,…)为离散型随机变量X的概率分布或分布列。用表格直观表示如下:
X
P
由概率的性质可知,任一分布都必须满足以下两个条件:
(1)0≤≤1
k=1,2,3,…
(2)
对于离散随机变量X,称为X的分布函数。
(二)连续型随机变量的概率分布
由于连续型随机变量的取值是某个区间,无法一一列举,因此不能用分布列来描述这类随机变量的统计规律。通常我们用数学函数的形式或分布函数的形式来描述。若函数f(x)满足下列两个条件:
(1)
(2),则称为连续型随机变量X的概率密度函数。
称为连续型随机变量X的分布函数。
易见,
分布函数具有下列性质:
,
为非降函数,即若,则
第二节
随机变量的数字特征
之所以称期望,是因为对未来的不确定的数求平均数。
一、随机变量的数学期望
随机变量的数学期望或均值,是反映随机变量集中趋势的一种重要统计指标,一般用E(X)或μ来表示,其又分为:
离散型随机变量的数学期望:
(当X的取值有限时)
(当X的取值无限时)
注意:实际上就是X的各个可能取值以其概率为权数的加权算术平均值。
连续型随机变量的数学期望:
数学期望反映了随机变量X可能取值的平均水平,是刻画随机变量性质的一个重要特征。数学期望具有如下重要性质:
(1)设C是常数,则E(C)=C;
(2)设C是常数,X是随机变量,则E(CX)=CE(X);
(3)设为n个随机变量,则有
(4)设X和Y为两个相互独立的随机变量,则E(XY)=E(X)E(Y)
二、随机变量的方差
随机变量的方差是用来反映随机变量取值的离散程度的统计指标,它是每一个随机变量取值与其期望值的离差平方的期望值。一般用D(X)或σ2表示,方差的平方根叫标准差,一般用σ表示。其计算公式为:
D(X)=E[X—E(X)]
2
可简化为:D(X)=E(X2)—[E(X)]
2
离散型随机变量:
连续型随机变量:
方差和标准差反映了随机变量X的可能取值在其均值周围的分散程度。方差具有以下几个重要性质:
(1)设C为常数,则D(C)=0
(2)设C是常数,X是随机变量,则D(CX)=C2D(X);
(3)设为n个相互独立的随机变量,则有
第三节
几种重要的离散型概率分布
一、二项分布
二项分布是最重要的概率分布之一,它是从著名的贝努里试验中推导出来的。所谓贝努里试验,是指只有两个可能结果的随机试验。如果贝努里试验在相同条件下重复n次,并且各次的实验结果相互独立,则这样的系列试验称为n重贝努里试验。
在每个特定的n重贝努里试验中,设每次试验成功的概率为p(p值不变),失败的概率为q=1—p,则成功次数X是一个离散型随机变量,它的可能取值是0,1,2,…,n。可以求出随机变量X的分布列为:
k=1,2,3,…,n。这种概率分布便称为二项分布。
这里是在n次试验中成功次数的组合数,其计算公式为:
二项分布列中的是对应于k值的每一种组合出现的概率。当一个随机变量X的分布为二项分布时,就称随机变量X服从二项分布,记作X~b(n,p)。
二项分布的数学期望和方差分别为:
和
根据二项分布,不仅可以知道随机变量概率分布的全貌,而且还可以推算出随机变量在某一区间取值的概率:
(1)事件A至多出现m次的概率为:
(2)事件A至少出现m次的概率为:
(3)事件A出现的次数不小于h不大于m的概率为:
(4)事件A恰好出现m次的概率为:
二、两点分布
在一次贝努里试验中,成功的次数X是只可能取0和1两个值的离散随机变量,它的分布列为P(X=1)=p
,P(X=0)=q这种概率分布称为两点分布。
注意:两点分布实际上是二项分布的一个特例,即b(1,p),它的数学期望和方差分别为:
和
二项分布在抽样推断中,成数及其方差的计算依据。
三、泊松分布
若随机变量X具有如下分布列:
k=1,2,3,…
(其中λ>0,e=2.7183是个常数)则称X服从参数为λ泊松分布。泊松分布的数学期望和方差分别为:
和
在λ=np恒定的情况下,当n趋于无穷,同时p趋向于0时,二项分布趋向于泊松分布。这个结论表明,当n很大,p很小时,有如下的近似公式:
其中λ=np,通常当n≥20,p≤0.05时,就可采用该近似公式。
四、超几何分布
设一批产品共N件,其中有M件不合格,从中任意取出n件,其中不合格品数X是一个随机变量,它的可能取值是0,1,2,…,min(n,N),可以导出X的分布列为:
k=1,2,3,…,,min(n,N)
这种概率分布称为超几何分布。
超几何分布的数学期望和方差分别为:
和
其中为产品的不合格率。
当N很大,n相对较小时,超几何分布近似于二项分布。即
用二项分布来近似计算超几何分布的各项概率,可以简化计算。
第四节
几种重要的连续型概率分布
一、正态分布
如果连续随机变量X的密度函数为:,-∞<x<+∞
则称X服从参数为μ,σ的正态分布,记作X~N(μ,),其中μ为随机变量的均值,σ为随机变量的标准差。
根据概率密度函数的定义,可以求得随机变量X的正态分布函数为:
-∞<x<+∞
特别当μ=0,σ=1时,称随机变量X服从标准正态分布,记为N(0,1)。此时X的密度函数记为:,-∞<x<+∞
分布函数记为:
,-∞<x<+∞
正态分布的概率密度函数曲线的特点
(1),即整个密度曲线都在轴的上方;
(2)曲线的图形是一个单峰钟型曲线,它相对于直线对称。
(3)曲线在处达到最高点,往正负两个方向下降,无限逼近轴。这条曲线与轴之间的面积等于1。而且,曲线下在与之间的面积为0.6826,在与之间的面积为0.9545,在与之间的面积为0.9973。
(4)曲线的陡缓程度完全由σ决定,σ越大,曲线越平缓,σ越小,曲线越陡峭;
正态分布的数学性质
(1)若X服从正态分布,则对任意常数a(a≠0),b,Z=a+bX也服从正态分布;
(2)若X、Y皆服从正态分布,且相互独立,则对任意的常数a、b(a、b不全为0),则Z=aX+bY也服从正态分布。
根据正态分布的数学性质,任何一个一般的正态分布都可以通过线性变换转化为标准正态分布。
设X~N(μ,σ2
),则Z=(X-μ)/σ~N(0,1)
将一般正态分布转化为标准正态分布后,通过查表,就可以解决正态分布的概率计算问题。
一般地,设X~N(μ,
σ2
),a<b则有:
二项分布的正态近似:二项分布B(n,p),当n很大,p和q都不太小时,不能用泊松分布近似计算。理论研究表明,当n很大,而0<p<1是一个定值时,二项分布的随机变量近似地服从正态分布N(np,npq)。
二、分布
设随机变量X1,X2,·
·
·
,Xn皆服从N(0,1)分布,且相互独立,则随机变量X=∑Xi2
所服从的分布称为分布。其数学期望和方差分别为:
分布可用于方差估计和检验,以及非参数统计中拟合优度检验和独立性检验等。
三、t分布
设随机变量X~N(0,1),Y~,且X和Y相互独立,则随机变量的分布称为自由度为n的t分布。其数学期望和方差分别为:
t分布可用于总体方差未知时正态总体均值的估计和检验,以及线性回归模型中回归系数的显著性检验等。
第五节
大数定律与中心极限定理
一、大数定律
大数定律是指在随机试验中,每次出现的结果不同,但是大量重复试验出现结果的平均值却几乎总是接近于某个确定的值的一系列定律的总称。大数定律也称大数法则。其中最著名的是切贝雪夫大数定律和贝努里大数定律。
(一)切贝雪夫大数定律
设随机变量X1,X2,…相互独立,且服从同一分布,它们的数学期望E(Xk)=μ,方差D(Xk)=σ2(k=1,2,…),则对任意正数ε,有:
由该定律可知,对于同一随机变量X进行n次独立观察,则所有观察值的平均数依概率收敛于随机变量的期望值。
该定律用于抽样推断有如下结论:随着样本单位数的增加,样本平均数将有接近总体平均数的趋势。大数定律为抽样推断中依据样本平均数估计总体平均数提供了理论基础,它是我们通过偶然现象,揭示必然性、规律性的工具。
(二)贝努里大数定律
设n次独立试验中,事件A发生的次数为m,事件A在每次试验中发生的概率为P,则对于任意的正数ε,有:
即当试验次数足够多时,“事件A发生的频率与事件A的概率之差,就其绝对值来说,可以充分小”的概率趋于1;也就是说,当试验次数很多时,事件A发生的频率与概率有较大偏差的可能性很小。
将该定律用于抽样推断有如下结论:随着样本单位数的增加,样本成数(比率)将有接近总体成数(比率)的趋势。这为抽样推断中依据样本比率估计总体比率平均数提供了理论基础。
二、中心极限定理
中心极限定理是指在一定条件下,大量相互独立的随机变量的分布是以正态分布为极限的一系列定理的总称。中心极限定理确定了样本推断总体的可能性;确定了样本平均数与总体平均数之差的可能范围;确定了样本标准差替代总体标准差的可能性。最常用的中心极限定理有:
(一)辛钦中心极限定理
如果随机变量X1,X2,…Xn相互独立,且服从同一分布,且有有限的数学期望μ和方差
σ2,则随机变量X=ΣXk/n,在n无限大时,服从参数为μ和σ2/n
的正态分布,即n趋于无穷大时,X~N(μ,σ2/n)
将该定理用于抽样推断有如下结论:不管总体是什么分布,只要其均值和方差存在,当样本单位数足够大(一般要大于30个)时,样本平均数的分布就趋于数学期望为μ,方差为σ2/n的正态分布。
(二)德棣莫佛——拉普拉斯中心极限定理
设μn是n次独立试验中事件A发生的次数,且事件A在每次试验中发生的概率为p,则当n无限大时,频率
μn/n的分布就趋于数学期望为p,方差为pq/n的正态分布。
将该定理用于抽样推断有如下结论:不管总体是什么分布,只要样本单位数n足够大(一般要大于30个),那么样本的频率(成数)分布就趋于数学期望为p,方差为pq/n的正态分布。
【知识要点网络图】
随机变量
分布列
分布函数
期望
方差
连续
离散
概率分布
二项分布
二点分布
泊松分布
超几何分布
正态分布
分布
т分布
逼近
大数定律
中心极限定理
【随堂练习】
1.一张考卷中有15道单项选择题,每题4个备选答案,只有1个正确答案。试求:①答对5至10题的概率;②至少答对9题的概率;③答对的期望值。
2.某车间为保证设备正常工作,要配备适量的维修工。设各台设备发生的故障是相互独立的,且每台设备发生故障的概率都是0.01。试求:①若由一个人负责维修20台,求设备发生故障而不能及时维修的概率;②若由3个人共同负责维修80台设备,求设备发生故障而不能及时维修的概率,并进行比较说明哪种效率高。
3.某电冰箱厂生产某种型号的电冰箱,其电冰箱压缩机使用寿命服从均值为10年,标准差为2年的正态分布。①求整批电冰箱压缩机的寿命大于9年的概率(比重);②求整批电冰箱压缩机寿介于9~11年的概率(比重);③如果该厂为了提高产品竞争力,提出其电冰箱压缩机在保险期限年遇有故障可免费换新,该厂预计免费换新的比重为1%,试确定该厂电冰箱压缩机免费换新的保用年限。