高中数学第2章统计2.3总体特征数的估计学案(打包4套)苏教版必修3

文档属性

名称 高中数学第2章统计2.3总体特征数的估计学案(打包4套)苏教版必修3
格式 zip
文件大小 533.9KB
资源类型 教案
版本资源 苏教版
科目 数学
更新时间 2017-10-22 22:20:24

文档简介

2.3.1 平均数及其估计
案例探究
为了了解某地区高三学生的身体发育情况,抽查了地区内100名年龄为17.5~18岁的男生的体重情况,结果如下(单位:kg)
56.5
69.5
65
61.5
64.5
66.5
64
64.5
76
58.5
72
73.5
56
67
70
57.5
65.5
68
71
75
62
68.5
62.5
66
59.5
63.5
64.5
67.5
73
68
55
72
66.5
74
63
60
55.5
70
64.5
58
64
70.5
57
62.5
65
69
71.5
73
62
58
76
71
66
63.5
56
59.5
63.5
65
70
74.5
68.5
64
55.5
72.5
66.5
68
76
57.5
60
71.5
57
69.5
74
64.5
59
61.5
67
68
63.5
58
59
65.5
62.5
69.5
72
64.5
75.5
68.5
64
62
65.5
58.5
67.5
70.5
65
66
66.5
70
63
59.5
根据上述数据我们可以画出样本的频率分布直方图,并对相应的总体分布作出估计.
由于图中各小长方形的面积等于相应各组的频率,这个图形的面积反映了数据落在各个小组的频率的大小.在得到了样本的频率后,就可以对相应的总体情况作出估计.例如从这些样本数据的频率分布直方图可以看出,体重在(64.5,66.5)kg的学生比体重为其他值的学生数多,但他并没有告诉我们多多少.
试问:怎样将各个样本数据汇总为一个数值,并使它成为样本数据的“中心点”?
能否用一个数值来描写样本数据的离散程度?
初中我们曾经学过众数、中位数、平均数等各种数字特征.应当说,这些数字都能够为我们提供关于样本数据的特征信息.
我们常用算术平均数(其中ai(i=1,2,…,n)为n个实验数据)作为体重的最理想的近似值,它的依据是什么呢?
处理实验数据的原则是使这个近似值与实验数据之间的离差最小,设这个近似值为x,那么它与n个实验值ai(i=1,2,…,n)的离差分别为?x-a1,x-a2,x-a3,…,x-an.由于上述离差有正有负,故不宜直接相加.可以考虑将各个离差的绝对值相加,研究|x-a1|+|x-a2|+…+|x-an|取最小值时x的值.但由于含有绝对值,运算不太方便,所以,考虑离差的平方和,即
(x-a1)2+(x-a2)2+…+(x-an)2,
当此和最小时,对应的x的值作为近似值.因为
(x-a1)2+(x-a2)2+…+(x-an)2=nx2-2(a1+a2+…+an)x+a12+a22+…+an2,
所以当x=时离差的平方和最小,故可用作为表示体重的理想近似值,称其为这n个数据a1,a2,…,an的平均数(average)或均值(mean),一般记为=.
这样,我们可以用计算器求得,该地区内100名年龄为17.5~18岁的男生的体重的最佳近似值为x=65.5(kg).
这样我们就得到了样本平均数的求解方法:
样本数据的算术平均数,即=.
Excel中函数“AVERAGE(
)”可直接用于计算给定数据的平均数.如求12,12.4,12.8,13,12.2,12.8,12.3,12.5,12.5的平均数,可直接把它们输到工作表中A1∶J1区域后,在某空白单元格中输入“=AVERAGE(A1∶H1)”即可,即得它们的平均数为12.5(如下图).
自学导引
1.在频率分布直方图中,众数是指最高矩形的中点的横坐标,中位数是指样本数据中累积频率为0.5时所对应的样本数据值,平均数是指样本数据的算术平均数.?
2.下列数字特征一定是数据组中数据的是(  )
A.众数      B.中位数
C.标准差
D.平均数
答案:A
3.数据:1,1,3,3的众数和中位数分别是(  )
A.1或3,2
B.3,2
C.1或3,1或3
D.3,3
答案:A
4.频率分布直方图的重心是(  )
A.众数
B.中位数
C.标准差
D.平均数
答案:D
疑难剖析
【例1】
某校高一年级的甲、乙两个班级(均为50人)的语文测试成绩如下:(总分:150)
甲班:112 86 106 84 100 105 98 102 94 107 87 112 94 94 99 90 120
98 95 119
108 100 96 115 111 104 95 108 111 105
104 107 119 107 93
102 98 112 112 99
92 102 93 84 94
94 100 90 84 114
乙班:116 95 109 96 106 98 108 99 110 103
94 98 105 101 115 104 112 101 113 96
108 100 110 98 107
87 108 106 103 97
107 106 111 121
97 107 114 122 101 107
107 111 114
106 104 104 95 111 111 110
试确定这次考试中,哪个班的语文成绩更好些.
思路分析:我们可用一组数据的平均数衡量这组数据的水平,因此,分别求得甲、乙两个班级的平均分即可.
解析:用科学计算器或计算机分别求得甲班的平均分为101.1,乙班的平均分为105.4,故这次考试乙班成绩要好于甲班.
【例2】
某教师出了一份共3道题的测试卷,每题1分,全班得3分、2分、1分和0分的学生所占比例分别为0.3、0.5、0.1和0.1.
(1)若全班共10人,则平均分是多少?
(2)若全班共20人,则平均分是多少?
(3)若该班人数未知,能求出该班的平均分吗?
思路分析:上述所占比例就是各数据的频率.
解:由题意,
平均分=3×0.3+2×0.5+1×0.1=2.
答:全班的平均分为2分.
思维启示:各数据频率确定时,平均数不受样本容量的影响.
【例3】
某工厂人员及工资构成如下表:
人员
经理
管理人员
高级技工
工人
学徒
合计
周工资
2
200
250
220
200
100
人数
1
6
5
10
1
23
合计
2
200
1
500
1
100
2
000
100
6
900
(1)指出这个问题中周工资的众数、中位数、平均数;
(2)这个问题中,平均数能客观地反映该工厂的工资水平吗?为什么?
思路分析:根据众数、中位数、平均数各自的特点,选择合适的数据反映该厂的工资水平.
解析:由表格可知:众数=200,
∵23的中间位置众数是12,
∴中位数=220.
平均数=(2
200+1
500+1
100+2
000+100)÷23=300.
虽然平均数为300元/周,但由表格中所列出的数据可见,只有经理在平均数以上,其余的人都在平均数以下,故用平均数不能客观真实地反映该工厂的工资水平.
思维启示:平均数受数据中的极端值的影响较大,妨碍了对总体估计的可靠性,这时平均数反而不如众数、中位数更能反映客观情况.
拓展迁移
【拓展点1】
以往的招生统计数据显示,某大学录取的新生高考总分的中位数基本上稳定在550分.你的一位校友在今年的高考中得了520分,你是立即劝阻他报考这所大学,还是先查阅一下这所大学招生的其他信息?解释一下你的选择.
提示:应该查阅一下这所大学的其他招生信息,例如平均信息、最低录取分数线信息等,尽管该校友的分数位于中位数之下,而中位数本身并不能提供更多录取分数分布的信息.在已知最低录取分数线的情况下,很容易作出判断;在已知平均数的情况下,如果平均数小于中位数很多,则说明最低录取分数线较低,可以推荐该校友报考这所大学,否则还要获取其他的信息(如标准差的信息)来作出判断.
【拓展点2】
在一次人才招聘会上,有一家公司的招聘员告诉你,“我们公司的收入水平很高”,“去年,在50名员工中,最高年收入达到了100万,他们年收入的平均数是3.5万”.如果你希望获得年薪2.5万元,
(1)你是否能够判断自己可以成为此公司的一名高收入者?
(2)如果招聘员继续告诉你,“员工收入的变化范围是从0.5万到100万”,这个信息是否足以使你作出自己是否受聘的决定?为什么?
(3)如果招聘员继续给你提供了如下信息,员工收入的中间0.5(即去掉最少的0.25和最多的0.25后所剩下的)的变化范围是1万到3万,你又该如何使用这条信息来作出是否受聘的决定?
(4)你能估计出收入的中位数是多少吗?为什么均值比估计出的中位数高很多?
答案:(1)不能,因为平均收入和最高收入相差太多,说明高收入的职工只占极少数.现在已经知道至少有一个人的收入为x50=100万元,那么其他员工的收入之和为=3.5×50-100=75(万元),每人平均只有1.53万元.如果再有几个收入特别高者,那么初进公司的员工的工资会更低.
(2)公司的员工的收入将会很低.
(3)可以确定有0.75的员工工资在1万元以上,其中0.25的员工工资在3万元以上.
(4)收入的中位数大约是2万元.因为有年收入100万这个极端值的影响,使得年平均收入比中位数高许多.2.3.2 方差与标准差
平均数向我们提供了样本数据的重要信息,但是,平均数有时也会使我们作出对总体的片面判断,某地区的统计报表显示,此地区的年平均家庭收入是10万元,给人的印象是这个地区的家庭收入普遍较高.但是,如果这个平均数是从200户贫困家庭和20户极富有的家庭收入计算出来的,那么,它就既不能代表贫困户家庭的年收入,也不能代表极富有家庭的年收入.因为这个平均数掩盖了一些极端的情况,而这些极端情况显然是不能忽视的.因此,只有平均数还难以概括样本数据的实际状态.
案例探究
甲、乙两班学生各50人,其语文平均成绩都是80分,但甲班最高成绩98分,最低42分,而乙班最高成绩86分,最低60分.初步看出,两班语文成绩是不一样的,甲班学生的语文成绩个别差异程度大、水平参差不齐;而乙班学生的语文成绩差异程度小,语文水平整齐度大些.
如果你是老师,你应当如何对这两个班的成绩作出评价呢?
分析:我们把一组数据的最大值与最小值的差称为极差,由数据可知甲班的极差较大,数据点较分散,乙班的极差较小,数据点分布较集中,这说明乙班成绩比甲班稳定,运用极差对两组数据进行比较,操作简单方便,但如果两组数据的集中程度差异不大时,就不容易得出结论.我们还可以考虑每一个学生的成绩与平均成绩的离差,离差越小,稳定性就越高.结合上节有关离差的讨论,可用每个同学的成绩与平均成绩的差的平方和表示.由于两组数据的容量可能不同,因此应将上述平方和除以数据的个数,我们把由此所得的值称为这组数据的方差(variance).
因为方差与原始数据的单位不同,且平方后可能夸大了离差的程度,我们将方差开方后的值称为这组数据的标准差(standard
deviation).标准差也可以刻画数据的稳定程度.
一般地,设一组数据x1,x2,…,xn,其平均数为x,则称S2=为这个样本的方差,其算术平方根
S=(

为样本的标准差,分别简称样本方差、样本标准差.
根据上述方差计算公式可算出甲、乙两个班样本的方差,从而比较哪个班成绩好些.
计算标准差时,首先要计算数据的平均数,接着要计算各数据与平均数之间的离差平方,即(xi-)2,最后由公式(
)计算标准差S.
例如,4名儿童的身高分别是110厘米,100厘米,120厘米和150厘米,若求4名儿童身高数据的标准差时,其基本步骤如下:
(1)求平均数:==120(厘米)
(2)求离差平方和:
∑(xi-)2=(110―120)2+(100―120)2+(120―120)2+(150―120)2
=100+400+0+900=1
400(平方厘米)
(3)求标准差S:S===?18.71(厘米)
这样,我们大体可认为,这4名儿童身高差异程度,从平均角度来看,约相差18.71厘米.
自党导引
1.天气预报说今天最高气温7
℃,最低气温-2
℃,则今天气温的极差为多少?
答案:9℃?
2.据统计,某小区居民中年龄最大的为89岁,年纪最小的为1岁,那么小区人口年龄的极差为多少?
答案:88岁
3.你认为下面几种说法中正确的是(  )
A.一组数据的平均值总是正数
B.一组数据的方差有可能是负数
C.用一组数据中的每个数分别减去平均值,再将得到的差相加,和一定为零
D.一组数据的标准差一定比方差小
答案:C
4.我们可以用一组数据中的最大值减去最小值所得的差来反映这组数据的变化范围.用这种方法得到的差称为极差.
5.方差实际上是一种表示一组数据的离散程度的量,我们可以用“先平均,再求差,然后平方,最后再平均”的方法得到.
6.标准差与方差有什么关系?这二者与原数据在单位上有什么关系?
答案:标准差是方差的算术平方根,标准差与原数据具有相同的单位,方差的单位是原单位的平方.
7.反映数据离散程度的指标是什么?在一次数学测试中,甲、乙两班的平均成绩相同,甲班成绩的方差为42,乙班成绩的方差为35,这样的结果说明两个班的数学学习状况各有什么特点?
答案:反映数据离散程度的指标是方差和标准差.甲班的方差大于乙班的方差,说明甲班的学生成绩较分散,优生和成绩差的学生较多.而乙班的学生成绩较集中,优生和成绩差的学生较少.
8.观察下面的折线图,回答问题:
(1)a组数据的极差较大.
(2)a组数据的方差较大.
9.比较下面两幅频数分布图中的数据,哪组的平均值较大?哪组的标准差较大?
答案:b组的平均值较大,a组的标准差较大.
10.观察下面的几组图,分别指出各组中哪一组的标准差较大,并说说为什么.
(1)
(2)
(3)
答案:(1)标准差相同,因为虽然数据排列不同,但其实是相同的两组数据;(2)b组的标准差较大,因为a组有一些数距离平均值较近;(3)b组的标准差较大,因为b组中每个数据都是a组中的两倍,因此标准差也是它的两倍.?
疑难剖析
【例1】
某校团委举办了英语口语竞赛.甲、乙两个团小组成绩如下:
甲组:76 90 84 86 81 87 86
乙组:82 84 85 89 80 94 76
(1)分别求出甲、乙两个团小组的平均分、标准差(精确到0.01);
(2)说明哪个团小组成绩比较稳定?
思路分析:由于所给数据较整,用定义公式求x及S.再由所学统计知识即可作此判断.
?解:(1)∵=84.29,
=84.29,
(2)∵S1思维启示:方差的概念是本单元的一个重点,也是本章的重点和难点,中考命题常常涉及到方差的概念比较抽象,理解有一定的困难,因此在复习时要多接触一些实例,以加深理解计算方差的公式.
【例2】
某校从甲、乙两名优秀选手中选1名选手参加全市中学生田径百米比赛,该校预先对这两名选手测试了8次,测试成绩如下表:
甲成绩(秒)
乙成绩(秒)
1
12.1
12
2
12.2
12.4
3
13
12.8
4
12.5
13
5
13.1
12.2
6
12.5
12.8
7
12.4
12.3
8
12.2
12.5
根据测试成绩,请你运用所学过的统计知识作出判断,派哪一位选手参加比赛更好?为什么?
思路分析:首先计算甲、乙两选手的成绩的平均数,然后看每位同学成绩的方差
,利用方差比较两位同学成绩的稳定性.?
解:设甲的平均数是1,乙的平均数是2,甲的方差是S甲2,乙的方差是S乙2,则由题意可求得:
?1==12.5;
?2==12.5;
S甲2=[(12.1-12.5)2+(12.2-12.5)2+(13-12.5)2+(12.5-12.5)2+(13.1-12.5)2+(12.5-12.5)2+(12.4-12.5)2+(12.2-12.5)2]=0.12
S乙2=[(12-12.5)2+(12.4-12.5)2+(12.8-12.5)2+(13-12.5)2+(12.2-12.5)2+(12.8-12.5)2+(12.3-12.5)2+(12.5-12.5)2]=0.10.
∵S甲2>S乙2,∴虽然甲乙两人的平均成绩相同,但乙的成绩较稳定,应选乙选手参加比赛.
思维启示:在显示数据离散程度(波动大小)的一类数中,方差是刻画总体或样本波动大小的一个重要特征数据,其定义是用各偏差的平方的平均数建立起来的,对于一组数据,除需了解它们的平均水平外,还常常需要了解它们的波动大小(即偏离平均数的大小).对于两组可比的数据,平均数只能反映它们的集中趋势,而比较它们的波动大小,就要通过计算标准差或方差的大小来确定.还应注意,只有当两组数据的平均数相等或比较接近时,方差或标准差才能反映数据波动大小的实际情况——方差或标准差越大(小),波动也越大(小).
【例3】
为了保护学生的视力,教室内的日光灯在使用一段时间后必须更换,已知某校使用的100只日光灯在必须更换掉前的使用天数如下表:
天数
151~181
181~210
211~240
241~270
271~300
301~330
331~360
361~390
灯管数
1
11
18
20
25
16
7
2
(1)试估计这种日光灯的平均使用寿命;
(2)若定期更换,可选择多长时间统一更换合适?
思路分析:总体的平均数与标准差往往是很难求,甚至是不可能求的,通常的做法就是用样本的平均数与标准差去估计总体的平均数与标准差,只要样本的代表性好,这种做法就是合理的.
解:(1)各组中值分别为165,195,225,255,285,315,345,375,由此可算得平均数约为+=267.9≈268(天).
(3)将组中值对于此平均数求方差:
=2
128.60(天2)
故标准差为≈46(天).?
答:估计这种日光灯的平均使用寿命约为268天,故可在222天到314天左右统一更换较合适.
思维启示:(1)在刻画样本数据的分散程度上,方差与标准差是一样的,但在解决实际问题时,一般多采用标准差.
(2)平均数和标准差是工业生产中检测产品
质量的重要指标,当样本的平均数或标准差超过了规定界限的时候,说明这批产品的质量可能距生产要求有较大的偏离,应该进行检查,找出原因,从而及时解决问题.
在Excel中,可分别用函数“VARP(
)”和“STDEVP(
)”计算方差和标准差.也可用计算器,在“统计”模式下输入数据,按“SHIFT
SVAR
2”键,得标准差,再按x2键即为方差.
拓展迁移
【拓展点1】
标准差的取值范围是什么?标准差为0的样本数据有什么特点?
答案:非负,标准差为0意味着所有的样本数据都相等.
【拓展点2】
甲乙两人同时生产内径为25.4mm的一种零件,为了对两人的生产质量进行评比,从他们生产的零件中各抽取20件,量得其内径尺寸如下(单位mm):

25.46 25.32 25.45 25.39 25.36
25.34
25.42 25.45 25.38 25.42 25.39 25.43
25.39 25.40 25.44
25.40
25.42 25.35
25.41 25.39

25.40 25.43 25.44 25.48 25.48 25.47
25.49 25.49 25.36 25.34 25.33 25.43
25.43 25.32 25.47
25.31 25.32 25.32
25.32 25.48
从生产的零件内径的尺寸看,谁生产的质量较高?
思考:两个总体的平均数与标准差知不知道?25.40
mm是不是它们的平均数?
答案:每一个工人生产的所有零件的内径尺寸组成一个总体.由于零件的生产标准已经给出(内径25.40mm),生产质量可以从总体的平均数与标准差两个角度来衡量.总体的平均数与内径标准尺寸25.40
mm的差异大时质量低,差异小时质量高,当总体的平均数与标准尺寸很接近时,总体的标准差小时质量高,标准差大时质量低.这样,比较两人的生产质量,只要比较他们所生产的零件尺寸所组成的两个总体的平均数与标准差的大小即可.但是,这两个总体的平均数与标准差都是不知道的,根据用样本估计总体的思想,我们可以通过抽样分别获得相应的样本数据,然后比较这两个样本的平均数、标准差,以此作为两个总体之间差异的估计值.
∵甲=25.400
5,
乙=25.405
5,
S甲≈0.037,S乙≈0.068,∴S甲因此,甲生产的质量较高.2.3.1
平均数及其估计
庖丁巧解牛
知识·巧学
一、平均数公式
样本数据a1,a2,…,an的平均数或均值:.
在总体中抽取样本求出样本的平均数,这样就可以用它来估计总体的平均水平,应注意到样本平均数只是总体平均数的近似.在样本频率分布直方图中,平均数是直方图的“重心”,即平衡点.
学法一得
求和符号的使用:“∑”希腊字母,表示求和的意思,读作“西格马”,ai中i是变量,i从1到n,即a1,a2,…,an,只是一个符号,表示a1,a2,…,an相加,因此,=a1+a2+…+an,用它书写比较方便.再如,等等.在统计学及高等数学中普遍使用这个符号.
二、平均数的性质
(1)若给定一组数据x1,x2,…,xn的平均数为,则ax1,ax2,…,axn的平均数为a;
(2)若给定一组数据x1,x2,…,xn的平均数为,则ax1+b,ax2+b,…,axn+b的平均数为a+b;
(3)若给定的一组数据x1,x2,…,xn较大,直接求平均数较为烦琐时,可以将每个数据都减去常数a,得到一组新数据x1′,x2′,…,xn′,计算出新数据组的平均数为,则原数据组的平均数为+a;
(4)若M个数的平均数是X,N个数的平均数是Y,则这M+N个数的平均数是.如果两组数x1,x2,…,xn和y1,y2,…,yn的样本平均数分别是和,那么一组数x1+y1,x2+y2,
…,xn+yn的平均数是.
三、众数,中位数,平均数各自的作用
(1)众数体现了样本数据的最大集中点,容易计算,但它只能表达样本数据中很少一部分信息,显然对其他数据信息的忽略使得无法客观地反映总体特征.
(2)中位数是样本数据所占频率的等分线,它不受少数几个极端值的影响,容易计算,它仅利用了数据中排在中间数据的信息.但它对极端值的不敏感有时也会成为缺点.
(3)由于平均数与每一个样本的数据有关,“越离群”的数据,对平均数的影响也越大,所以任何一个样本数据的改变都会引起平均数的改变,这是众数、中位数都不具有的性质.也正因为这个原因,与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息.但平均数受数据中的极端值的影响较大,使平均数在估计总体时可靠性降低.
联想发散
如在体育、文艺等各种比赛的评分中,使用的是平均数,计分过程中采用“去掉一个最高分,去掉一个最低分”的方法,就是为了防止个别裁判的人为因素而给出过高或过低的分数,对选手的得分造成较大的影响,从而降低误差,尽量保证公平性.
四、加权平均数
一般地,若取值x1,x2,
…,xn,其频率分别为p1,p2,
…,pn,
则平均数为=x1p1+x2p2+…+xnpn.
证明:设总体为n,样本x1,x2,
…,xn出现的次数为m1,m2,
…,mn,
则p1=,p2=,…,pn=,
∴=x1p1+x2p2+…+xnpn.
使用此公式可简化计算.
典题·热题
知识点一
样本平均数的基本概念
例1
若s2=,写出其展开式.
思路分析:原式是求x1-15,x2-15,…,x10-15共10项的平方和的.
解:s2=[(x1-15)2+(x2-15)2+…+(x10-15)2].
例2
若a、b、c的平均数是x,则2a+1,2b-1,2c+3的平均数是(

A.2a
B.+1
C.
D.2+1
思路解析:[(2a+1)+(2b-1)+(2c+3)]/3=2+1.
答案:D
知识点二
利用众数、中位数、平均数对总体进行分析
例3
被誉为“杂交水稻之父”的中国科学院院士袁隆平,为得到良种水稻,进行了大量的试验,下表是在10个试验点对甲、乙两个品种的对比试验结果:
品种
各试验点亩产量(kg)
1
2
3
4
5
6
7
8
9
10

390
409
427
397
420
482
397
389
438
432

404
386
363
375
375
430
373
370
353
412
试估计哪个品种的平均产量更高一些
思路分析:需要计算甲、乙两个品种的平均亩产量.
解:甲、乙两个品种的样本平均数分别是
=(390+409+…+432)÷10=418.1,
=(404+386+…+412)÷10=384.1.
由>可以估计,甲种水稻的平均产量比乙种水稻的平均产量要高一些.
巧解提示
本题解法中计算平均数较繁,一般地,可以以400为常数a,所有各数分别减去400得出一组新数据,再求10个新数据的平均数x′,从而求出平均数x=x′+400,这样计算过程较为简便.
例4
某工厂人员及工资构成如下表:
人员
经理
管理人员
高级技工
工人
学徒
合计
周工资
2
200
250
220
200
100
人数
1
6
5
10
1
23
合计
2
200
1
500
1
100
2
000
100
6
900
(1)指出这个问题中的众数、中位数、平均数;
(2)在这个问题中,平均数能客观地反映该工厂的工资水平吗?为什么?
思路分析:本题应着眼于众数、中位数、平均数各自的特点及适应对象.众数是数据中出现次数最多的数.中位数是指如果将一组数据按从小到大的顺序依次排列,当数据有奇数个时,处在最中间的一个数;当数据有偶数个时,处在最中间两个数的平均数,是这组数据的中位数.一组数据的总和除以数据的个数所得的商就是平均数.
解:(1)由表格数据可知众数为200.
∵2
200+1
500=3
700>1
100+2
000+100=3
200,∴中位数为250.
平均数为(2
200+1
500+1
100+2
000+100)÷23=300.
(2)虽然平均数为300元/周,但由表格中所列出的数据可以看出,只有经理在平均数以上,其余的人都在平均数以下,故用平均数不能客观真实地反映该工厂的工资水平.
误区警示
该题进一步说明平均数受数据中的极端值的影响较大,妨碍了对总体估计的可靠性,这时平均数反而不如众数、中位数更客观.
问题·探究
思想方法探究
问题
我们常用算术平均数〔其中ai(i=1,2,
…,n)为n个实验数据〕作为数据a1,a2,
…,an的“最理想”的近似值,它的依据是什么呢?
探究过程:处理实验数据的原则是使这个近似值与实验数据之间的离差最小.
设这个近似值为x,那么它与n个实验值ai(i=1,2,
…,n)的离差分别为x-a1,x-a2,x-a3,…,x-an.由于上述离差有正有负,故不宜直接相加.
可以考虑离差的平方和,即
(x-a1)2+(x-a2)2+…+(x-an)2
=nx2-2(a1+a2+…+an)x+a12+a22+…+an2,
所以当x=时,离差的平方和最小,
故可用作为表示这个物理量的理想近似值.
探究结论:平均数最能代表一个样本数据的集中趋势,也就是说它与样本数据的离差最小.2.3.2
方差与标准差
庖丁巧解牛
知识·巧学
一、样本方差与样本标准差
1.极差(全距)是数据组的最大值与最小值的差.它反映了一组数据的变化的最大幅度,它对一组数据中的极端值非常敏感.
2.方差是各数据与平均数的差xi-(i=1,2,…,n)平方的平均数.它反映了一组数据围绕平均数波动的大小.
一般地,设样本数据分别是x1,x2,x3,…,xn,样本的平均数为,则方差s2=.
3.标准差是各个样本数据到平均数的一种平均距离.一般用s表示.
标准差s=.
深化升华
标准差越小,表明各个样本数据在样本平均数的周围越集中;反之,标准差越大,表明各个样本数据在样本平均数的两边越分散.在实际应用中,标准差常被理解为稳定性.例如,在比较两人的成绩时,标准差小就意味着成绩稳定;在描述产品的质量时,标准差越小,说明产品的质量越稳定.
二、计算标准差的计算步骤
(1)算出样本数据的平均数;
(2)算出每个样本数据与样本平均数的差xi-x(i=1,2,…,n);
(3)算出(xi-)2(i=1,2,…,n);
(4)算出(xi-x)2(i=1,2,…,n)这n个数的平均数,即为样本方差
s2=;
(5)算出方差的算术平方根,即为样本标准差s=.
说明:
①标准差的大小受样本中每个数据的影响,如数据之间变化大,求得的标准差也大,反之则小.标准差、方差都较好地反映了一组数据的离散程度,标准差、方差越大,数据的离散程度越大,反之,标准差、方差越小,数据的离散程度越小.
②在计算标准差时,在各数据上加上或减去一个常数,其数值不变.
③当每个数据乘以或除以一个常数a,则所得的标准差是原来标准差的a倍或1/a.
④标准差的大小不会超过极差,其取值范围是[0,+∞),若一组数据的值大小相等,没有波动变化,则标准差为0.
⑤若对数据处理时的计算量较大,要借助科学计算器或计算机,一般科学计算器上都设有计算平均数、方差、标准差的按键,使用时要看说明书(不同的计算机,参数可能不同)进入统计状态就可以求值了.
因为方差与原始数据的单位不一致,且平方后可能夸大了偏差的程度,所以虽然标准差、方差都较好地反映了一组数据的离散程度,但在解决实际问题时标准差应用广泛.
联想发散
(1)若给定一组数据x1,x2,…,xn,方差为s2,则ax1+b,ax2+b,…,axn+b的方差为a2s2;特别地,当a=1时,则有x1+b,x2+b,…,xn+b的方差为s2,这说明将一组数据的每一个数据都减去相同的一个常数,其方差是不变的,即不影响这组数据的波动性;
(2)方差的另一表示形式:s2=(x12+x22+…+xn2-).
三、对总体平均数、标准差的估计
如何获得总体的平均数与标准差呢?通常的做法是用样本的平均数与标准差去估计总体的平均数与标准差.这与前面用样本的频率分布来近似地代替总体分布是类似的.只要样本的代表性好,只要样本的代表性强就可以用来对总体作出客观的判断.
如要考察一批灯泡的质量,我们可以从中随机抽取一部分作为样本;要分析一批钢筋的强度,可以随机抽取一定数目作为样本.
误区警示
需要注意的是,同一个总体,抽取的样本可以是不同的.如一个总体包含6个个体,现在要从中抽出3个作为样本,所有可能的样本会有20种不同的结果,若总体与样本容量较大,可能性就更多,而只要其中的个体是不完全相同的,这些相应的样本频率分布与平均数、标准差都会有差异.这就会影响到我们对总体情况的估计.
典题·热题
知识点一
方差与标准差的计算
例1
求下列各组数据的方差与标准差(结果保留到小数点后一位):
(1)1,2,3,4,5,6,7,8,9;
(2)11,12,13,14,15,16,17,18,19;
(3)10,20,30,40,50,60,70,80,90.
并分析由这些结果可得出什么一般的结论?
思路分析:通过三组数据的特点总结出一般规律,利用方差、标准差求解.
解:(1)=5,
s2=[(1-5)2+(2-5)2+…+(9-5)2]=6.7,
s==2.6.
(2)==15.
s2=[(11-15)2+(12-15)2+…+(19-15)2]=6.7,
s==2.6.
(3)=50.
s2=[(10-50)2+(20-50)2+…+(90-50)2]=666.7,
s==25.8.
巧妙变式
一组数据加上相同的数后,方差、标准差不变,都乘以相同的倍数n后,方差变为原来的n2倍,标准差变为原来的n倍.即一组数据x1,x2,…,xn,方差为s2,标准差为s,则x1+a,x2+a,
…,xn+a方差为s2,标准差为s;nx1,nx2,…,nxn方差为n2s2,标准差为ns.
知识点二
利用方差、标准差对样本进行分析
例2
对自行车运动员甲乙在相同条件下进行了6次测试,测得他们的最大速度(m/s)的数据如下表:

27
38
30
37
35
31

33
29
38
34
28
36
试判断选谁参加某项重大比赛更合适.
思路分析:可以从平均成绩及方差、标准差方面来考察样本数据的水平及稳定性.
解:他们的平均速度为:
=(27+38+…+31)=33.
=(33+29+…+36)=33.
他们的平均速度相同,再看他们的方差:
s甲2=[(-6)2+52+(-3)2+42+22+(-2)2]=.
s乙2=[(-4)2+52+12+(-5)2+32]=.
则s甲2>s乙2,即s甲>s乙.
故乙的成绩比甲稳定.
所以选乙参加比赛更合适.
标准差、方差是反映数据波动程度的量,它们取值的大小,说明数据的离散程度.即样本数据对于平均数的平均波动幅度.
例3
甲、乙两人数学成绩的茎叶图如图2-3-1:
图2-3-1
(1)求出这两名同学的数学成绩的平均数、标准差;
(2)比较两名同学的成绩,谈谈你的看法.
思路分析:首先由茎叶图读出数据,再利用科学计算器求出平均数、标准差,依据结果进行比较,并与茎叶图比较统计作用.
解:(1)用科学计算器得=87,s甲=12.7,=95,s乙=9.7.
(2)由=87<=95,且s甲=12.7>s乙=9.7,故甲的数学学习状况不如乙的数学学习状况.“从这个茎叶图上可以看出,乙同学的得分情况是大致对称的,中位数是99;甲同学的得分情况除一个特殊得分外,也大致对称,中位数是86.因此乙同学发挥比较稳定,总体得分情况比甲同学好.
误区警示
通过以上实例分析,可以看出反映样本数据的基本特征量众数、中位数、平均数、标准差是从不同的方面或角度来“看待”样本数据的,对于不同的样本它们各有优、缺点.在实际问题中平均值使用频率较高,但它受极端值的影响较明显,故容易掩盖实际情况,此时常常用标准差来进一步刻画样本数据的离散程度,以便更准确地反映样本数据的真实情况,在实际生活中,也往往利用这个道理来比较水平的高低、质量好坏等.
由于平均数和标准差更容易刻画样本数据的数字特征,所以对求解样本数据的平均数、标准差的运算必须熟练,必要时可使用计算器.
例4
甲、乙两工人同时加工一种圆柱零件,在他们所加工的零件中各抽取10个进行直径检测,测得数据如下(单位:mm):
甲:19.9,19.7,19.8,20.0,19.9,20.2,20.1,20.3,20.2,20.1;
乙:20.0,20.2,19.8,19.9,19.7,20.2,20.1,19.7,20.2,20.4.
(1)分别计算上面两个样本的平均数和方差;
(2)若零件规定直径为20.0±0.5(mm),根据两个样本的平均数和方差,说明谁加工的零件的质量较稳定.
思路分析:此题数据较大,但发现所有数据都在某个数值上下摆动,
可利用s2=.
推导如下:一般地,如果将一组数据x1,x2,…,xn同时减去一个数a,
得到x1′=x1-a,x2′=x2-a,
…,xn′=xn-a,
所以=(x1+x2+…+xn)=(x1′+x2′+…+xn′+na)=+a.
得公式s2=可使计算简便.
解:因为样本数据在20.0上下波动,故取a=20.0,列表如下
.
表1
(甲工人)
xi
xi′(x1-20.0)
xi′2
19.919.719.820.019.920.220.120.320.220.1
-0.1-0.3-0.20-0.10.20.10.30.20.1
0.010.090.0400.010.040.010.090.040.01
合计
0.2
0.34
表2
(乙工人)
xi
xi′(x1-20.0)
xi′2
20.020.219.819.919.720.220.119.720.220.4
00.2-0.2-0.1-0.30.20.1-0.30.20.4
00.040.040.010.090.040.010.090.040.16
合计
0.2
0.52
=0.02+20.0=20.02(mm),
=0.02+20.0=20.02(mm),
s甲2=0.1×[0.34-10×0.022]=0.033
6(mm2),
s乙2=0.1×[0.52-10×0.022]=0.051
6(mm2).
∵s甲2<s乙2,
∴甲工人加工零件的质量比较稳定.
巧解提示
比较两人加工零件的质量的稳定性,这里通过平均数比较不出来,需要使用方差来比较,方差越大说明波动性较大,质量越不稳定.一般地,方差和标准差通常用来反映一组数据的波动大小,在统计中,样本的方差和标准差通常用来估计总体数据的波动大小.
当数据较大且数据都在某个数值上下摆动时可考虑利用s2=.
计算方差可减少数据运算量.
问题·探究
交流讨论探究
问题
估计总体的数字特征过程中,我们经常用到样本均值与样本标准差,这两个有什么差别吗
探究过程:学生甲:我认为它们两个在表达式上就不同,假设经过随机抽样得到样本为x1、x2,
…,xn,
则样本均值.
样本标准差s==.
学生乙:我看出来它们还有一些不同的地方,先来看下面的例子.
(1)有两个学生A和B,两个人两次连续考试的平均分都是60分,A是40分和80分,
B是65分和55分.显然A的成绩忽上忽下,而B的成绩较稳定.
(2)有两组学生(每组3人),一次数学考试成绩如下(单位:分):
甲组3人得分分别为60
80
100
乙组3人得分分别为79
80
81
显然,甲组学生和乙组学生的平均分都为80,但是这两组学生分数有很大的差异,甲组学生的成绩波动较大,相对于平均分数的差异很大,即分散程度(离中趋势)较大,而乙组学生的成绩波动较小,相对于平均分数的差异较小,即分散程度较小.因此,我们仅用平均值来描述这一组分数的特征是不够的,还要考虑一组分数相对于平均值的差异的大小.在考试研究中,均值反应了考生团体成绩集中的位置,根据以上分析,显然还需有一个刻画考生团体成绩离散程度的量,显然在刚才举的例子(1)中,,但
sA==20,sB==5.
在(2)中,=,甲组学生的s甲=.
乙组学生的s乙=.
探究结论:明显地发现样本平均数能反映总体的水平,而标准差对于衡量分散程度很有用.