课件56张PPT。第二章 统计2.2 用样本估计总体
2.2.2 用样本的数字特征估计总体的数字特征出现次数最多 中间 中间 和 平均距离 样本数据 样本容量 样本平均数 众数、中位数、平均数 方差与标准差 频率分布直方图与数字特征的综合应用 点击右图进入…Thank you for watching !2.2.2 用样本的数字特征估计总体的数字特征
学 习 目 标
核 心 素 养
1.会求样本的众数、中位数、平均数、标准差、方差.(重点)
2.理解用样本的数字特征来估计总体数字特征的方法.(重点)
3.会应用相关知识解决实际统计问题.(难点)
1.通过数字特征的计算,提升数学运算素养.
2.借助实际统计问题的应用,培养数学建模素养.
1.众数、中位数、平均数的概念
(1)众数:一组数据中出现次数最多的数.
(2)中位数:一组数据按大小顺序排列后,处于中间位置的数.如果个数是偶数,则取中间两个数据的平均数.
(3)平均数:一组数据的和除以数据个数所得到的数.
2.三种数字特征的比较
名称
优点
缺点
众数
①体现了样本数据的最大集中点;
②容易计算
①它只能表达样本数据中很少的一部分信息;
②无法客观地反映总体的特征
中位数
①不受少数几个极端数据(即排序靠前或靠后的数据)的影响;
②容易计算,便于利用中间数据的信息
对极端值不敏感
平均数
代表性较好,是反映数据集中趋势的量.一般情况下,可以反映出更多的关于样本数据全体的信息
任何一个数据的改变都会引起平均数的改变.数据越“离群”,对平均数的影响越大
3.标准差、方差的概念与计算公式
(1)标准差:
标准差是样本数据到平均数的一种平均距离,一般用s表示,
s=.
(2)方差:
标准差的平方s2叫做方差.
s2=[(x1-)2+(x2-)2+…+(xn-)2].
其中,xn是样本数据,n是样本容量,是样本平均数.
思考:在统计中,计算方差的目的是什么?
[提示] 方差与标准差描述了一组数据围绕平均数波动的大小,其值越大,数据离散程度越大,当其值为0时,说明样本各数据相等,没有离散性.
1.为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )
A.x1,x2,…,xn的平均数
B.x1,x2,…,xn的标准差
C.x1,x2,…,xn的最大值
D.x1,x2,…,xn的中位数
B [标准差能反映一组数据的稳定程度.]
2.数据101,98,102,100,99的标准差为( )
A. B.0
C.1 D.2
A [x=(101+98+102+100+99)=100.
∴s=]
=.
3.10名工人某天生产同一零件,生产的件数是15,17,14,10,15,17,17,16,14,12,设其平均数为a,中位数为b,众数为c,则有( )
A.a>b>c B.b>c>a
C.c>a>b D.c>b>a
D [将数据从小到大排列为10,12,14,14,15,15,16,17,17,17,则中位数b=15,众数c=17.平均数a=(10+12+14×2+15×2+16+17×3)=14.7.显然a4.某高校有甲、乙两个数学建模兴趣班.其中甲班有40人,乙班有50人.现分析两个班的一次考试成绩,算得甲班的平均成绩是90分,乙班的平均成绩是81分,则该校数学建模兴趣班的平均成绩是________分.
85 [由题意知,该校数学建模兴趣班的平均成绩是=85(分).]
众数、中位数、平均数
【例1】 某公司的33名职工的月工资(以元为单位)如下表:
职务
董事长
副董事长
董事
总经理
经理
管理员
职员
人数
1
1
2
1
5
3
20
工资
5 500
5 000
3 500
3 000
2 500
2 000
1 500
(1)求该公司职工月工资的平均数、中位数、众数;
(2)假设副董事长的工资从5 000元提升到20 000元,董事长的工资从5 500元提升到30 000元,那么新的平均数、中位数、众数又是多少?(精确到元)
(3)你认为哪个统计量更能反映这个公司员工的工资水平?结合此问题谈一谈你的看法.
[解] (1)平均数是:x=1 500+
≈1 500+591=2 091(元),中位数是1 500元,众数是1 500元.
(2)新的平均数是x′=1 500+
≈1 500+1 788=3 288(元),新的中位数是1 500元,新的众数是1 500元.
(3)在这个问题中,中位数或众数均能反映该公司员工的工资水平,因为公司中少数人的工资额与大多数人的工资额差别较大,这样导致平均数与中位数偏差较大,所以平均数不能反映这个公司员工的工资水平.
对众数、中位数、平均数的几点说明
(1)如果样本平均数大于样本中位数,说明数据中存在较大的极端值.在实际应用中,样本中位数和样本平均数可以使我们了解样本数据中的极端数据信息,帮助我们作出决策.
(2)众数、中位数、平均数三者比较,平均数更能体现每个数据的特征,它是各个数据的重心.
1.某小区广场上有甲、乙两群市民正在进行晨练,两群市民的年龄如下(单位:岁):
甲群:13,13,14,15,15,15,15,16,17,17;
乙群:54,3,4,4,5,6,6,6,6,56.
(1)甲群市民年龄的平均数、中位数和众数各是多少岁?其中哪个统计量能较好地反映甲群市民的年龄特征?
(2)乙群市民年龄的平均数、中位数和众数各是多少岁?其中哪个统计量能较好地反映乙群市民的年龄特征?
[解] (1)甲群市民年龄的平均数为=15(岁),中位数为15岁,众数为15岁.
平均数、中位数和众数相等,因此它们都能较好地反映甲群市民的年龄特征.
(2)乙群市民年龄的平均数为=15(岁),中位数为6岁,众数为6岁.
由于乙群市民大多数是儿童,所以中位数和众数能较好地反映乙群市民的年龄特征,而平均数的可靠性较差.
方差与标准差
【例2】 甲、乙两机床同时加工直径为100 cm的零件,为检验质量,从中抽取6件测量数据为:
甲:99 100 98 100 100 103
乙:99 100 102 99 100 100
(1)分别计算两组数据的平均数及方差;
(2)根据计算说明哪台机床加工零件的质量更稳定.
思路点拨:(1)直接利用求x与s2的公式求解.
(2)先比较x的大小,再分析s2的大小并下结论.
[解] (1)x甲=[99+100+98+100+100+103]=100,
x乙=[99+100+102+99+100+100]=100,
s=[(99-100)2+(100-100)2+(98-100)2+(100-100)2+(100-100)2+(103-100)2]=,
s=[(99-100)2+(100-100)2+(102-100)2+(99-100)2+(100-100)2+(100-100)2]=1.
(2)由(1)知x甲=x乙,比较它们的方差,∵s>s,故乙机床加工零件的质量更稳定.
用样本的标准差、方差估计总体的方法
(1)用样本估计总体时,样本的平均数、标准差只是总体的平均数、标准差的近似.实际应用中,当所得数据的平均数不相等时,需先分析平均水平,再计算标准差(方差)分析稳定情况.
(2)标准差、方差的取值范围是[0,+∞).
(3)因为标准差与原始数据的单位相同,且平方后可能夸大了偏差的程度,所以虽然方差与标准差在刻画样本数据的离散程度上是一样的,但在解决实际问题时,一般多采用标准差.
2.甲、乙、丙、丁四名射手在选拔赛中所得的平均环数x及其方差s2如下表所示,则选送决赛的最佳人选应是( )
甲
乙
丙
丁
x
7
8
8
7
s2
6.3
6.3
7
8.7
A.甲 B.乙 C.丙 D.丁
B [∵乙=丙>甲=丁,且s=s频率分布直方图与数字特征的综合应用
[探究问题]
1.观察频率分布直方图,能获得样本数据的原始信息吗?
[提示] 把样本数据做成频率分布直方图后就失去了原始数据.
2.给出样本数据的频率分布直方图,可以求出数据的众数,中位数和平均数吗?
[提示] 可以近似求出.
【例3】 统计局就某地居民的月收入(元)情况调查了10 000人,并根据所得数据画出了样本频率分布直方图(如图),每个分组包括左端点,不包括右端点,如第一组表示月收入在[500,1 000)内.
(1)为了分析居民的收入与年龄、职业等方面的关系,必须按月收入再从这10 000人中用分层抽样的方法抽出100人作进一步分析,则月收入在[2 000,2 500)内的应抽取多少人?
(2)根据频率分布直方图估计样本数据的中位数;
(3)根据频率分布直方图估计样本数据的平均数.
思路点拨:结合频率分布直方图求解.
[解] (1)因为(0.000 2+0.000 4+0.000 3+0.000 1)×500=0.5,所以a==0.000 5,月收入在[2 000,2 500)内的频率为0.25,所以100人中月收入在[2 000,2 500)内的人数为0.25×100=25.
(2)因为0.000 2×500=0.1,
0.000 4×500=0.2.
0.000 5×500=0.25.
0.1+0.2+0.25=0.55>0.5,
所以样本数据的中位数是
1 500+=1 900(元).
(3)样本平均数为(750×0.000 2+1 250×0.000 4+1 750×0.000 5+2 250×0.000 5+2 750×0.000 3+3 250×0.000 1)×500=1 900(元).
1.(变条件)某校从参加高二年级学业水平测试的学生中抽出80名学生,其数学成绩(均为整数)的频率分布直方图如图所示.
(1)求这次测试数学成绩的中位数.
(2)求这次测试数学成绩的平均分.
[解] (1)由图知,设中位数为x,由于前三个矩形面积之和为0.4,第四个矩形面积为0.3,0.3+0.4>0.5,因此中位数位于第四个矩形内,得0.1=0.03(x-70),所以x≈73.3.
(2)由图知这次数学成绩的平均分为:
×0.005×10+×0.015×10+×0.02×10+×0.03×10+×0.025×10+×0.005×10=72.
2.(变结论)本例条件不变.
(1)若再从这10 000人中用分层抽样的方法抽出若干人,分析居民收入与幸福指数的关系,已知月收入在[2 000,2 500)内的抽取了40人.则月收入在[3 000,3 500]内的该抽多少人?
(2)根据频率分布直方图估计样本数据的众数.
[解] (1)因为(0.000 2+0.000 4+0.000 3+0.000 1)×500=0.5.
所以a==0.000 5.
故月收入在[2 000,2 500)内的频率为0.000 5×500=0.25.
∴新抽样本容量为=160(人).
∴月收入在[3 000,3 500]内的该抽:160×(0.000 1×500)=8(人).
(2)由图知众数为2 000元.
用频率分布直方图估计众数、中位数、平均数
(1)众数:取最高小长方形底边中点的横坐标作为众数.
(2)中位数:在频率分布直方图中,把频率分布直方图划分为左右两个面积相等的部分的分界线与x轴交点的横坐标称为中位数.
(3)平均数:平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
1.一组数据中的众数可能不止一个,中位数是唯一的,求中位数时,必须先排序.
2.利用频率分布直方图求数字特征
(1)众数是最高的矩形的底边的中点.
(2)中位数左右两边直方图的面积应相等.
(3)平均数等于每个小矩形的面积乘以小矩形底边中点的横坐标之和.
3.标准差的平方s2称为方差,有时用方差代替标准差测量样本数据的离散程度.方差与标准差的测量效果是一致的,在实际应用中一般多采用标准差.
1.判断下列结论的正误(正确的打“√”,错误的打“×”)
(1)在一组样本数据中,众数一定是唯一的. ( )
(2)中位数是样本数据中最中间的那个数. ( )
(3)方差的值越小,数据的离散程度越小. ( )
[答案] (1)× (2)× (3)√
2.下列说法中,不正确的是( )
A.数据2,4,6,8的中位数是4,6
B.数据1,2,2,3,4,4的众数是2,4
C.一组数据的平均数、众数、中位数有可能是同一个数据
D.8个数据的平均数为5,另3个数据的平均数为7,则这11个数据的平均数是
A [数据2、4、6、8的中位数为=5,A错,B、C、D都是正确的.]
3.一组样本数据a,3,5,7的平均数是b,且a,b是方程x2-5x+4=0的两根,则这个样本的方差是( )
A.3 B.4 C.5 D.6
C [x2-5x+4=0的两根为1,4,当a=1时,a,3,5,7的平均数是4;当a=4时,a,3,5,7的平均数不是1,所以a=1,b=4,s2=5.]
4.某校高二年级在一次数学选拔赛中,由于甲、乙两人的竞赛成绩相同,从而决定根据平时在相同条件下进行的六次测试确定出最佳人选,这六次测试的成绩数据如下:
甲
127
138
130
137
135
131
乙
133
129
138
134
128
136
求两人比赛成绩的平均数以及方差,并且分析成绩的稳定性,从中选出一位参加数学竞赛.
[解] 设甲、乙二人成绩的平均数分别为x甲、x乙,方差分别为s、s.
则x甲=130+(-3+8+0+7+5+1)=133,
x乙=130+(3-1+8+4-2+6)=133,
s=[(-6)2+52+(-3)2+42+22+(-2)2]=,
s=[02+(-4)2+52+12+(-5)2+32]=.
因此,甲、乙的平均数相同,由于乙的方差较小,所以乙的成绩比甲的成绩稳定,应选乙参加竞赛较合适.
课时分层作业(十三) 用样本的数字特征估计总体的数字特征
(建议用时:60分钟)
[基础达标练]
一、选择题
1.下列说法中正确的个数为( )
①数据的极差越小,样本数据分布越集中、稳定;
②数据的平均数越小,样本数据分布越集中、稳定;
③数据的标准差越小,样本数据分布越集中、稳定;
④数据的方差越小,样本数据分布越集中、稳定.
A.1 B.2
C.3 D.4
C [由数据的极差、标准差、方差的定义可知,它们都可以影响样本数据的分布和稳定性,而数据的平均数则与之无关,故②不正确,①③④正确.]
2.16位参加百米半决赛同学的成绩各不相同,按成绩取前8位进入决赛.如果小刘知道了自己的成绩后,要判断能否进入决赛,则其他15位同学成绩的下列数据中,能使他得出结论的是( )
A.平均数 B.众数
C.中位数 D.方差
C [判断是不是能进入决赛,只要判断是不是前8位,所以只要知道其他15位同学的成绩中是不是有8位高于他,也就是把其他15位同学的成绩排列后看第8位的成绩即可,小刘的成绩高于这个成绩就能进入决赛,低于这个成绩就不能进入决赛,第8位的成绩就是这15位同学成绩的中位数.]
3.某班全体学生参加物理测试成绩的频率分布直方图如图所示,则估计该班物理测试的平均成绩是( )
A.70分 B.75分
C.68分 D.66分
C [平均成绩就是频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标再求和,即0.005×20×30+0.01×20×50+0.02×20×70+0.015×20×90=68(分).]
4.对某小区100户居民的月均用水量进行统计,得到样本的频率分布直方图如图所示,则估计此样本的众数、中位数分别为( )
A.2.25,2.5 B.2.25,2.02
C.2,2.5 D.2.5,2.25
B [众数是指样本中出现频率最高的数,在频率分布直方图中通常取该组区间的中点,所以众数为=2.25.中位数是频率为0.5的分界点,由频率分布直方图,可知前4组的频率和为(0.08+0.16+0.30+0.44)×0.5=0.49,因此中位数出现在第5组,设中位数为x,则(x-2)×0.5=0.01,解得x=2.02,故选B.]
5.某公司10位员工的月工资(单位:元)为x1,x2,…,x10,其平均数和方差分别为x和s2,若从下月起每位员工的月工资增加100元,则这10位员工下月工资的平均数和方差分别为( )
A.,s2+1002 B.+100,s2+1002
C.,s2 D.+100,s2
D [法一:因为每个数据都加上100,所以平均数也增加100,而离散程度应保持不变,即方差不变.
法二:由题意知x1+x2+…+x10=10 ,s2=[(x1-)2+(x2-)2+…+(x10-)2],
则所求平均数=[(x1+100)+(x2+100)+…+(x10+100)]=(10+10×100)=+100,
所求方差为[(x1+100-)2+(x2+100-)2+…+(x10+100-)2]=[(x1-)2+(x2-)2+…+(x10-)2]=s2.]
二、填空题
6.如图是某赛季甲、乙两名篮球运动员每场比赛得分的茎叶图,
甲
乙
5
3
1
3
6
8
2
4
5
4
7
9
3
2
6
3
7
8
1
4
5
7
则甲、乙两人这几场比赛得分的中位数之和是________.
64 [由茎叶图知,甲的中位数为28,乙的中位数为36,所以甲、乙二人得分的中位数之和为64.]
7.用一组样本数据8,x,10,11,9来估计总体的标准差,若该组样本数据的平均数为10,则总体标准差s=________.
[因为样本数据的平均数为10,由(8+x+10+11+9)=10,得x=12,∴s2=(4+4+0+1+1)=2,∴s=.]
8.已知一组数据按从小到大排列为-1,0,4,x,6,15,且这组数据的中位数是5,那么数据的众数是________,平均数是________.
6 5 [∵中位数为5,∴=5,即x=6.
∴该组数据的众数为6,平均数为=5.]
三、解答题
9.某工厂人员及月工资构成如下:
人员
经理
管理人员
高级技工
工人
学徒
合计
月工
资(元)
22 000
2 500
2 200
2 000
1 000
29 700
人数
1
6
5
10
1
23
合计
22 000
15 000
11 000
20 000
1 000
69 000
(1)指出这个表格中月工资的众数、中位数、平均数;
(2)这个表格中,平均数能客观地反映该工厂的月工资水平吗?为什么?
[解] (1)由表格可知,众数为2 000元.
把23个数据按从小到大(或从大到小)的顺序排列,排在中间的数应是第12个数,其值为2 200,故中位数为2 200元.
平均数为69 000÷23=3 000(元).
(2)虽然平均数为3 000元,但由表格中所列出的数据可见,只有经理的工资在平均数以上,其余人的工资都在平均数以下,故用平均数不能客观真实地反映该工厂的工资水平.
10.对甲、乙两名自行车赛手在相同条件下进行了6次测试,测得他们的最大速度(单位:m/s)的数据如下:
甲
27
38
30
37
35
31
乙
33
29
38
34
28
36
(1)画出茎叶图,由茎叶图你能获得哪些信息?
(2)分别求出甲、乙两名自行车赛手最大速度(m/s)数据的平均数、极差、方差,并判断选谁参加比赛比较合适?
[解] (1)画茎叶图如下:中间数为数据的十位数.
从茎叶图上看,甲、乙的得分情况都是分布均匀的,只是乙更好一些.乙发挥比较稳定,总体情况比甲好.
(2)甲==33.
乙==33.
s=[(27-33)2+(38-33)2+(30-33)2+(37-33)2+(35-33)2+(31-33)2]≈15.67.
s=[(33-33)2+(29-33)2+(38-33)2+(34-33)2+(28-33)2+(36-33)2]≈12.67.
甲的极差为11,乙的极差为10.
综合比较以上数据可知,选乙参加比赛较合适.
[能力提升练]
1.如图,样本A和B分别取自两个不同的总体,它们的样本平均数分别为A和B,样本标准差分别为sA和sB,则( )
A.A>B,sA>sB B.A<B,sA>sB
C.A>B,sA<sB D.A<B,sA<sB
B [由题图知,A组的6个数分别为2.5,10,5,7.5,2.5,10;B组的6个数分别为15,10,12.5,10,12.5,10,
所以A==,
B==.
显然A又由图形可知,B组数据的分布比A组的均匀,变化幅度不大,故B组数据比较稳定,方差较小,从而标准差较小,所以sA>sB.]
2. 在发生某公共卫生事件期间,有专业机构认为该事件在一段时间内没有引起大规模群体感染的标志为“连续10天,每天新增疑似病例不超过7人”.根据过去10天甲、乙、丙、丁四地新增疑似病例数据,一定符合该标志的是( )
A.甲地:总体均值为3,中位数为4
B.乙地:总体均值为1,总体方差大于0
C.丙地:中位数为2,众数为3
D.丁地:总体均值为2,总体方差为3
D [根据信息可知,连续10天内,每天新增的疑似病例不能超过7人,选项A中,中位数为4,可能存在大于7的数;同理,在选项C中也有可能;选项B中的总体方差大于0,叙述不明确,如果方差太大,也有可能存在大于7的数;选项D中,根据方差公式,如果有大于7的数存在,那么方差不可能为3.故选D.]
3.某示范农场的鱼塘放养鱼苗8万条,根据这几年的经验知道,鱼苗的成活率为95%,一段时间后准备打捞出售,第一网捞出40条,称得平均每条鱼的质量为2.5 kg;第二网捞出25条,称得平均每条鱼的质量为2.2 kg,第三网捞出35条,称得平均每条鱼的质量为2.8 kg.试估计鱼塘中鱼的总质量为________kg.
192 280 [鱼塘中平均每条鱼的质量约为==2.53(kg),所以估计鱼塘中鱼的总质量为80 000×95%×2.53=192 280(kg).]
4.若40个数据的平方和是56,平均数是,则这组数据的方差是________,标准差是________.
0.9 [设这40个数据为xi(i=1,2,…,40),平均数为.
则s2=×[(x1-)2+(x2-)2+…+(x40-)2]
=[x+x+…+x+402-2(x1+x2+…+x40)]
=
=×
=0.9.
∴s===.]
5.某地区100位居民的人均月用水量(单位:t)的分组及各组的频数如下:
[0,0.5),4;[0.5,1),8;[1,1.5),15;[1.5,2),22;
[2,2.5),25;[2.5,3),14;[3,3.5),6;[3.5,4),4;
[4,4.5],2.
(1)列出样本的频率分布表;
(2)画出频率分布直方图,并根据直方图估计这组数据的平均数、中位数、众数;
(3)当地政府制定了人均月用水量为3t的标准,若超出标准加倍收费,当地政府说,85%以上的居民不超过这个标准,这个解释对吗?为什么?
[解] (1)频率分布表
分组
频数
频率
[0,0.5)
4
0.04
[0.5,1)
8
0.08
[1,1.5)
15
0.15
[1.5,2)
22
0.22
[2,2.5)
25
0.25
[2.5,3)
14
0.14
[3,3.5)
6
0.06
[3.5,4)
4
0.04
[4,4.5]
2
0.02
合计
100
1
(2)频率分布直方图如图:
众数:2.25,中位数:2.02,平均数:2.02.
(3)人均月用水量在3t以上的居民所占的比例为6%+4%+2%=12%,即大约有12%的居民月用水量在3t以上,88%的居民月用水量在3t以下,因此政府的解释是正确的.