课件25张PPT。9.2.4总体离散程度的估计 样本的众数、中位数和平均数常用来表示样本数据的“中心值”,其中众数和中位数容易计算,不受少数几个极端值的影响,但只能表达样本数据中的少量信息. 平均数代表了数据更多的信息,但受样本中每个数据的影响,越极端的数据对平均数的影响也越大.当样本数据质量比较差时,使用众数、中位数或平均数描述数据的中心位置,可能与实际情况产生较大的误差,难以反映样本数据的实际状况,很多时候还不能使我们做出有效决策. 因此,我们需要一个统计数字刻画样本数据的离散程度. 新课引入思考:在一次射击选拔赛中,甲、乙两名运动员各射击10次,每次命中的环数如下:
甲:7 8 7 9 5 4 9 10 7 4
乙:9 5 7 8 7 6 8 6 7 7新课引入甲、乙两人本次射击的平均成绩分别为多少环?甲、乙两名运动员射击成绩中位数、众数分别为多少环?通过简单的排序可以发现甲、乙两名运动员射击成绩的中位数、众数也都是7如果你是教练,你如何对两位运动员的射击情况作出评价?在这一次选拔性考核中,你应当如何作出选择?思考:甲、乙两人射击的平均成绩相等,观察两人成绩的频率分布条形图,你能说明其水平差异在那里吗?环数甲的成绩比较分散,极差较大,
乙的成绩相对集中,比较稳定.新课引入一种简单的度量数据离散程度的方法就是用极差,根据甲、乙运动员的10次射击成绩,可以得到
甲命中环数的极差=10-4=6 乙命中环数的极差=9-5=4. 可以发现甲的成绩波动范围比乙的大,极差在一定程度上刻画了数据的离散程度,但因为极差只使用了数据中最大、最小两个值的信息,对其他数据的取值情况没有涉及,所以极差所含的信息量很少.
我们知道,如果射击的成绩很稳定,那么大多数的射击成绩离平均成绩不会太远;相反,如果射击的成绩波动幅度很大,那么大多数的射击成绩离平均成绩会比较远,
因此,我们可以通过这两组射击成绩与它们的平均成绩的“平均距离”来度量成绩的波动幅度新课引入学习新知思考:对于样本数据x1,x2,…,xn,用 表示这组数据的平均数设想通过各数据到其平均数的平均距离来反映样本数据的分散程度,那么这个平均距离如何计算? 为了避免式中含有绝对值,通常改用平方来代替,即我们称上式为这组数据的方差(variance).有时为了计算方差的方便,我们还把方差写成右式形式 那么标准差的取值范围是什么?
标准差为0的数据有何特点? s≥0,标准差为0的数据都相等. 由于方差的单位是原始数据的单位的平方,与原始数据不一致.为了使二者单位一致,我们对方差开平方,取它的算术平方根,即学习新知我们称上式为这组数据的标准差(standard deviation).如果总体中所有个体的变量值分别为Y1,Y2,…,YN,总体平均数为 ,则称学习新知与总体均值类似,总体方差也可以写成加权的形式,如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,...,Yk,其中Y,出现的频数为f(i=1,2,...,k),则总体方差为标准差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越大,数据较分散;标准差越小,数据的离散程度越小 ,数据较集中在平均数周围显然,在刻画数据的分散程度上,方差和标准差是一样的,但在解决实际问题中,一般多采用标准差。学习新知1.标准差的平方s2称为方差,有时用方差代替标准差测量样本数据的离散度.方差与标准差的测量效果是一致的,在实际应用中一般多采用标准差.2.现实中的总体所包含的个体数往往很多,总体的平均数与标准差是未知的,就像用样本平均数估计总体平均数一样,我们通常用样本的平均数和标准差去估计总体的平均数与标准差,在随机抽样中,样本标准差依赖于样本的选取,具有随机性.所以要求样本有较好的代表性,才能更好了解总体的情况.学习新知 计算甲、乙两名运动员的射击成绩的标准差,比较其射击水平的稳定性. 甲:7 8 7 9 5 4 9 10 7 4
乙:9 5 7 8 7 6 8 6 7 7s甲=2,s乙=1.095. 实际应用由s甲>s乙可知,甲的成绩离散程度大,乙的成绩离散程度小,由此可以估计,乙比甲的射击成绩稳定.
如果要从这两名选手中选择一名参加比赛,要看一下他们的平均成绩在所有参赛选手中的位置,如果两人都排在前面,就选成绩稳定的乙选手,否则可以选甲.典型例题例6在对树人中学高一年级学生身高的调查中,采用样本量比例分配的分层随机抽样,如果不知道样本数据,只知道抽取了男生23人,其平均数和方差分别为170.6和12.59,抽取了女生27人,其平均数和方差分别为160.6和38.62.你能由这些数据计算出总样本的方差,并对高一年级全体学生的身高方差作出估计吗?典型例题典型例题男生23人,其平均数和方差分别为170.6和12.59,
女生27人,其平均数和方差分别为160.6和38.62把已知的男生、女生样本平均数和方差的取值代入,可得某市教育部门采用分层随机抽样从甲、乙、丙三个学校选取了100名学生的某次考试数学成绩(单位:分),并制成如下表格:试估计这次考试数学成绩的平均数与方差.巩固练习9.0 13.6 14.9 5.9 4.0 7.1 6.4 5.4 19.4 2.0
2.2 8.6 13.8 5.4 10.2 4.9 6.8 14.0 2.0 10.5
2.1 5.7 5.1 16.8 6.0 11.1 1.3 11.2 7.7 4.9
2.3 10.0 16.7 12.0 12.4 7.8 5.2 13.6 2.4 22.4
3.6 7.1 8.8 25.6 3.2 18.3 5.1 2.0 3.0 12.0
22.2 10.8 5.5 2.0 24.3 9.9 3.6 5.6 4.4 7.9
5.1 24.5 6.4 7.5 4.7 20.5 5.5 15.7 2.6 5.7
5.5 6.0 16.0 2.4 9.5 3.7 17.0 3.8 4.1 2.3
5.3 7.8 8.1 4.3 13.3 6.8 1.3 7.0 4.9 1.8
7.1 28.0 10.2 13.8 17.9 10.1 5.5 4.6 3.2 21.6实际应用计算出样本平均数 = ,样本标准差s≈ .8.796.20实际应用例2 甲、乙两人同时生产内径为25.40mm的一种零件,为了对两人的生产质量进行评比,从他们生产的零件中各随机抽取20件,量得其内径尺寸如下(单位:mm):甲 :
25.46 25.32 25.45 25.39 25.36 25.34 25.42 25.45 25.38 25.42 25.39 25.43 25.39 25.40 25.44 25.40 25.42 25.35 25.41 25.39乙:
25.40 25.43 25.44 25.48 25.48 25.47 25.49 25.49 26.36 25.34 25.33 25.43 25.43 25.32 25.47 25.31 25.32 25.32 25.32 25.48 从生产零件内径的尺寸看,谁生产的零件质量较高? 典型例题 甲生产的零件内径更接近内径标准,且稳定程度较高,故甲生产的零件质量较高. 说明:1.生产质量可以从总体的平均数与标准差两个角度来衡量,但甲、乙两个总体的平均数与标准差都是不知道的,我们就用样本的平均数与标准差估计总体的平均数与标准差.
2.问题中25.40mm是内径的标准值,而不是总体的平均数.例3 在去年的足球甲A联赛中,甲队每场比赛平均失球数是1.5,全年比赛失球个数的标准差为1.1;乙队每场比赛平均失球数是2.1,全年比赛失球个数的标准差为0.4.你认为下列说法是否正确,为什么?
(1)平均来说甲队比乙队防守技术好;
(2)乙队比甲队技术水平更稳定;
(3)甲队有时表现很差,有时表现又非常好;
(4)乙队很少不失球.典型例题例4 以往招生统计显示,某所大学录取的新生高考总分的中位数基本稳定在550分,若某同学今年高考得了520分,他想报考这所大学还需收集哪些信息?要点:
(1)查往年录取的新生的平均分数.若平均数小于中位数很多,说明最低录取线较低,可以报考;
(2)查往年录取的新生高考总分的标准差.若标准差较大,说明新生的录取分数较分散,最低录取线可能较低,可以考虑报考.典型例题课堂小结(1)样本标准差反映了各样本数据聚集于样本平均数周围的程度,标准差越小,表明各个样本数据在样本平均数周围越集中;反之,标准差越大,表明各样本数据在样本平均数的周围越分散.
(2)若样本数据都相等,则s=0.
(3)当样本的平均数相等或相差无几时,就要用样本数据的离散程度来估计总体的数字特征,而样本数据的离散程度,就由标准差来衡量.
(4)数据的离散程度可以通过极差、方差或标准差来描述.极差反映了一组数据变化的最大幅度,它对一组数据中的极端值非常敏感;方差则反映了一组数据围绕平均数波动的大小.为了得到以样本数据的单位表示的波动幅度,通常用标准差——样本方差的算术平方根来描述.课堂小结(5)标准差的大小不会越过极差.
(6)方差、标准差、极差的取值范围为[0,+∞).当标准差、方差为0时,样本各数据全相等,表明数据没有波动幅度,数据没有离散性.
(7)因为方差与原始数据的单位不同,且平方后可能夸大了偏差的程度,所以虽然方差和标准差在刻画样本数据的分散程度上是一样的,但在解决实际问题时,一般采用标准差.
(8)在实际问题中,总体平均数和总体标准差都是未知的.就像用样本平均数估计总体平均数一样,通常我们也用样本标准差去估计总体标准差.在随机抽样中,样本标准差依赖于样本的选取,具有随机性.