(共61张PPT)
9.2 用样本估计总体
9.2.1 总体取值规律的估计
9.2.2 总体百分位数的估计
基础认知·自主学习
4.百分位数
(1)第p百分位数的定义
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有
____的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
(2)计算一组n个数据的第p百分位数的步骤
第1步,按_________排列原始数据.
第2步,计算i=n×p%.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;
若i是整数,则第p百分位数为第i项与第(i+1)项数据的_______.
p%
从小到大
平均数
能力形成·合作探究
组号 分组 频数 频率
第1组 [160,165) 5 0.05
第2组 [165,170) ① 0.35
组号 分组 频数 频率
第3组 [170,175) 30 ②
第4组 [175,180) 20 0.20
第5组 [180,185] 10 0.10
合计 100 1.00
分组 频数 频率
[41.5,45.5) 2 0.045 5
[45.5,49.5) 7 0.159 1
[49.5,53.5) 8 0.181 8
[53.5,57.5) 16 0.363 6
[57.5,61.5) 5 0.113 6
[61.5,65.5) 4 0.090 9
[65.5,69.5) 2 0.045 5
素养发展·创新应用
学情诊断·课堂测评(共57张PPT)
9.2 用样本估计总体
9.2.1 总体取值规律的估计
9.2.2 总体百分位数的估计
【情境探究】
1.频率分布直方图
美国历届总统中,就任时年纪最小的是罗斯福,他于1901年就任,当时年仅
42岁;就任时年纪最大的是特朗普,他于2017年就任,当时70岁.下面按时间顺
序(从1789年的华盛顿到2017年的特朗普,共45任)给出了历届美国总统就任时
的年龄:
57,61,57,57,58,57,61,54,68,51,49,64,50,48,65,52,56,46,54,49,51,
47,55,55,54,42,51,56,55,51,54,51,60,62,43,55,56,61,52,69,64,46,54,
48,70
必备知识生成
请根据上述材料回答下列问题:
(1)上述45个数据中最大值与最小值的差是多少
提示:70-42=28.
(2)若将上述数据分成下列几组,[41.5,45.5),[45.5,49.5),[49.5,53.5),
[53.5,57.5),[57.5,61.5),[61.5,65.5),[65.5,69.5),[69.5,73.5],各组中数
据个数是多少
提示:各组数据的个数依次为2,7,8,16,5,4,2,1.
(3)画频率分布直方图时,数据的分组,组数、组距和极差有何关系 组数一般如
何确定
提示:组数k= ,如果k∈Z,则组数为k,否则组数为大于k的最小整数.取样
容量越大,分的组数越多.当样本容量不超过100时,常分为5~12组.
2.思考如何求一组数据的中位数 中位数在总体中百分位数是多少
提示:将一组数据从小到大排列后,位于最中间的数(或者中间两数的平均数).中位数在总体中是50%分位数.
【知识生成】
1.频率分布表与频率分布直方图的特征
(1)频数指某组中包含的个体数,各组频数和=样本容量;频率= ,各组
频率和等于1.
(2)在频率分布直方图中,纵轴表示 ,数据落在各小组内的频率用_______
_________来表示,各小长方形的面积的总和等于__.
小长方
形的面积
1
2.百分位数
(1)第p百分位数:一般地,一组数据的第p百分位数是这样一个值,它使得这组
数据中至少有___的数据小于或等于这个值,且至少有_________的数据大于或
等于这个值.
(2)四分位数:在实际应用中,除了_______外,常用的分位数还有第25百分位数,
第______位数,这三个分位数把一组由小到大排列后的数据分成_______,因此
称为四分位数,其中第25百分位数也称为第一四分位数或下四分位数等,第75
百分位数也称为第三四分位数或上四分位数等.
p%
(100-p)%
中位数
75百分
四等份
关键能力探究
探究点一 频率分布直方图的画法
【典例1】调查某校高一年级男生的身高,随机抽取40名高一男生,实测身高数
据(单位:cm)如下:
171 163 163 166 166 168 168 160 168 165
171 169 167 169 151 168 170 168 160 174
165 168 174 159 167 156 157 164 169 180
176 157 162 161 158 164 163 163 167 161
(1)作出频率分布表;
(2)画出频率分布直方图.
【思维导引】找出最值,计算极差,确定组距与组数,列表、画图.
【解析】(1)最低身高151,最高身高180,它们的差是180-151=29,即极差为29;
确定组距为3,组数为10,列表如下:
分组 频数 频率
[150.5,153.5) 1 0.025
[153.5,156.5) 1 0.025
[156.5,159.5) 4 0.1
[159.5,162.5) 5 0.125
分组 频数 频率
[162.5,165.5) 8 0.20
[165.5,168.5) 11 0.275
[168.5,171.5) 6 0.150
[171.5,174.5) 2 0.050
[174.5,177.5) 1 0.025
[177.5,180.5] 1 0.025
合计 40 1.0
(2)频率分布直方图如图所示:
【类题通法】
绘制频率分布直方图的基本步骤
第一步,求极差(即一组数据中最大值与最小值的差).
第二步,确定组距与组数.
组距是指每个小组的两个端点之间的距离.极差、组距、组数有如下关系:
①若 为整数,则 =组数;
②若 不为整数,则 +1=组数.([x]表示不大于x的最大整数).
第三步,分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间.
第四步,统计各组数据的频数,计算频率,填入表格中,完成频率分布表.
第五步,画频率分布直方图:画图时,应以横轴表示分组,纵轴表示频率/组距.
其相应组距上的频率等于该组上的小长方形的面积.
提醒:(1)解决此类问题的关键是绘制频率分布表,在绘制频率分布表时要体现
分组的合理性,针对具体问题具体分析,体会组数太多或太少对处理问题的影响.
(2)如果极差不利于分组(如不能被组数整除),可适当增大极差,如在左右两端
各增加适当范围(尽量使两端增加的量相同).
【定向训练】
某家庭记录了使用了节水龙头50天的日用水量数据(单位:m3),得到频数分布表
如表:
使用了节水龙头50天的日用水量频数分布表
日用
水量 [0,0.1) [0.1,0.2) [0.2,0.3) [0.3,0.4) [0.4,0.5) [0.5,0.6]
频数 1 5 13 10 16 5
请作出使用了节水龙头50天的日用水量(单位:m3)数据的频率分布直方图:
【解析】频率分布直方图为:
探究点二 频率分布直方图的应用
【典例2】(1)(2020·天津高考)从一批零件中抽取80个,测量其直径(单位:
mm),将所得数据分为9组:[5.31,5.33),[5.33,5.35),…,[5.45,5.47),
[5.47,5.49],并整理得到如下频率分布直方图,则在被抽取的零件中,直径落
在区间[5.43,5.47)内的个数为 ( )
A.10 B.18 C.20 D.36
(2)学校为了调查学生在课外读物方面的支出情况,抽出了一个容量为n的样本,
其频率分布直方图如图所示,其中支出在[40,50)元的同学有30人,则n的值为
________.
【思维导引】(1)根据直方图确定直径落在区间[5.43,5.47)内的零件频率,然后结合样本总数计算其个数即可.
(2)先根据频率分布直方图求出,支出在[40,50)元的频率,再由频率计算公式求出n的值.
【解析】(1)选B.根据直方图,直径落在区间[5.43,5.47)内的零件频率为:
(6.25+5.00)×0.02=0.225,则区间[5.43,5.47)内零件的个数为:80×0.225=18.
(2)由频率分布直方图可得,支出在[40,50)元的频率为1-(0.01+0.024+0.036)×
10=0.3.
根据题意得 =0.3,解得n=100.
答案:100
【类题通法】
1.由频率分布直方图进行相关计算时需掌握的两个关系式
(1) ×组距=频率.
(2) =频率,此关系式的变形为 =样本容量,样本容量×频率=频数.
2.频率分布直方图的应用中常见的三种问题
(1)频数、频率及频率分布直方图:这类问题是高考考查的重点和热点问题.主
要考查频率分布(图)表的画法、识别和运用.
(2)填表、补图、估算:填表、补图、估算是频率分布估计总体分布的常考查
形式,读懂图表、直方图,活用公式:组距× =频率; =样本容量.
(3)开放性问题:要选择适当的数据特征进行分析,根据数据特征分析得出实际
问题的结论.
【定向训练】
2019年高考已经结束,山东省为了了解和掌握高考考生的实际答卷情况,随机地取
出了100名考生的数学成绩,数据如下(单位:分)
135 98 102 110 99 121 110 96 100 103 125 97 117 113 110
92 102 109 104 112 105 124 87 131 97 102 123 104 104 128
109 123 111 103 105 92 114 108 104 102 129 126 97 100
115 111 106 117 104 109 111 89 110 121 80 120 121 104
108 118 129 99 90 99 121 123 107 111 91 100 99 101 116
97 102 108 101 95 107 101 102 108 117 99 118 106 119 97
126 108 123 119 98 121 101 113 102 103 104 108
(1)列出频率分布表;
(2)画出频率分布直方图和折线图;
(3)估计该省考生数学成绩在[100,120)分之间的比例.
【解析】100个数据中,最大值为135,最小值为80,极差为135-80=55.把100个
数据分成11组,这时组距= =5.
(1)频率分布表如下:
分组 频数 频率
[80,85) 1 0.01 0.002
[85,90) 2 0.02 0.004
[90,95) 4 0.04 0.008
分组 频数 频率
[95,100) 14 0.14 0.028
[100,105) 24 0.24 0.048
[105,110) 15 0.15 0.030
[110,115) 12 0.12 0.024
[115,120) 9 0.09 0.018
[120,125) 11 0.11 0.022
[125,130) 6 0.06 0.012
[130,135] 2 0.02 0.004
合计 100 1 0.2
注:表中加上“ ”一列,这是为画频率分布直方图准备的,因为它是频率
分布直方图的纵坐标.
(2)根据频率分布表中的有关信息画出频率分布直方图及折线图,如图所示.
(3)从频率分布表中可知,这100名考生的数学成绩在[100,120)分之间的频率
为0.24+0.15+0.12+0.09=0.60,据此估计该省考生数学成绩在[100,120)分之
间的比例为60%(0.60=60%).
探究点三 统计图表的应用
【典例3】某省有关部门要求各中小学要把“每天锻炼一小时”写入课程表,为了响应这一号召,某校围绕着“你最喜欢的体育活动项目是什么 (只写一项)”的问题,对在校学生进行了随机抽样调查,从而得到一组数据.图1是根据这组数据绘制的柱形图.请结合柱形图回答下列问题:
(1)该校对多少名学生进行了抽样调查
(2)本次抽样调查中,最喜欢篮球活动的有多少人 占被调查人数的百分比是多少
(3)若该校九年级共有200名学生,图2是根据各年级学生人数占全校学生总人
数的百分比绘制的扇形图,请你估计全校学生中最喜欢跳绳活动的人数约为多
少
【思维导引】弄清楚统计图中的各个数据的含义是解题关键.
【解析】(1)由题图1知4+8+10+18+10=50(名),所以该校对50名学生进行了抽
样调查.
(2)本次调查中,最喜欢篮球活动的有18人,占被调查人数的 ×100%=36%.
(3)1-(30%+26%+24%)=20%,200÷20%=1 000(人),
×100%×1 000=160(人),
所以估计全校学生中最喜欢跳绳活动的人数约为160.
【类题通法】(1)柱形图是用一个单位长度表示一定的数量,根据数量的多少
画成高度不同的小矩形,然后把这些小矩形按照一定的顺序排列起来.其特点
是便于看出和比较各种数量的多少,即柱形图能清楚地表示出每个项目的具
体数目.
(2)扇形图是用整个圆面积表示总数(100%),用圆内的扇形面积表示各部分所
占总数的百分数.
总之,用统计图来表示数量关系更生动形象、具体,使人一目了然.
【定向训练】
如表给出了2018年A,B两地的降水量(单位:mm):
(1)根据统计表绘制折线图;
(2)根据折线图比较A,B两地的降水量,分析哪个地方的降水量较大
1月 2月 3月 4月 5月 6月
A 9.2 4.9 5.4 18.6 38.0 106.3
B 41.4 53.3 178.8 273.5 384.9 432.4
7月 8月 9月 10月 11月 12月
A 54.4 128.9 62.9 73.6 26.2 10.6
B 67.5 228.5 201.4 147.3 28.0 19.1
【解析】(1)建立直角坐标系,用横坐标上的点表示月份,用纵坐标上的点表示
降水量,描出每个月份对应的点,然后用直线段顺次连接相邻的点,得到折线统
计图如图表示.
(2)观察折线图,从整体上看,B地降水量较大.
探究点四 总体百分位数的估计
【典例4】根据如表和图估计月均用水量的样本数据的80%和95%分位数.
分组 频数累计 频数 频率
[1.2,4.2) 23 0.23
[4.2,7.2) 32 0.32
[7.2,10.2) 13 0.13
[10.2,13.2) 9 0.09
[13.2,16.2) 9 0.09
[16.2,19.2) 正 5 0.05
[19.2,22.2) 3 0.03
[22.2,25.2) 4 0.04
[25.2,28.2] 2 0.02
合计 100 1.00
【思维导引】在某些情况下我们只能获得整理好的统计表或图,与原始数据相比,它们损失了一些信息,例如表中我们知道在[16.2,19.2)内有5个数据,但不知道这5个数据具体是多少,此时,我们通常把它们看成均匀地分布在此区间上.
【解析】由表可知月均用水量在13.2t以下的居民用户所占比例为
23%+32%+13%+9%=77%,
16.2t以下的居民用户所占的比例为77%+9%=86%,
因此80%分位数一定位于[13.2,16.2)内,由
13.2+3× =14.2,
可以估计月均用水量的样本数据的80%分位数约为14.2,
类似地,由22.2+3× =22.95,
可以估计月均用水量的样本数据的95%分位数约为22.95.
【类题通法】求第p百分位数的步骤
第1步:从小到大排列原始数据;
第2步:计算i=n×p%;
第3步:若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
【定向训练】
一个容量为30的样本数据,分组后组距与频数如下:(10,20],3;(20,30],4;
(30,40],6;(40,50],7;(50,60],6;(60,70],4.估计样本数据的70%分位数.
【解析】样本落在(0,50]上的频数为3+4+6+7=20,所以频率= ≈67%,样本落
在(0,60]上的频数为3+4+6+7+6=26,所以频率= ≈87%,又30×70%=21,
因此70%分位数一定位于(50,60]内,由50+10× ≈51.67,所以估计样本
数据的70%分位数约为51.67.
【课堂小结】
课堂素养达标
1.下列四个图中,用来表示不同品种的奶牛的平均产奶量(A,B,C,D,E,F为牛的
品种)最为合适的是 ( )
【解析】选D.用统计图表示不同品种的奶牛的平均产奶量,即从图中可以比较各种数量的多少,因此“最为合适”的统计图是条形统计图.注意B选项中的图不能称为统计图.
2.观察如图所示的统计图,下列结论正确的是 ( )
A.甲校女生比乙校女生多
B.乙校男生比甲校男生少
C.乙校女生比甲校男生少
D.甲、乙两校女生人数无法比较
【解析】选D.图中数据只是百分比,甲、乙两个学校的学生总数不知道,因此男生与女生的具体人数也无法得知.
3.一个频率分布表(样本量为30)不小心被损坏了一部分,只记得样本中数据在
[20,60)内的频率为0.8,则估计样本在[40,50),[50,60)内的数据个数共为
( )
A.14 B.15 C.16 D.17
【解析】选B.因为样本中数据在[20,60)内的频率为0.8,所以样本数据在
[20,60)内的频数为30×0.8=24,所以样本在[40,50),[50,60)内的数据个数共
为24-4-5=15.
4.容量为60的样本的频率分布直方图共有n(n>1)个小矩形,若其中一个小矩形
的面积等于其余n-1个小矩形面积和的 ,则这个小矩形对应的频数是_____.
【解析】设其余n-1个小矩形面积和为x,由题意得 x+x=1,所以x= .所以这
个小矩形对应的频数为 × ×60=10.
答案:10
5.从高三参加数学竞赛的学生中抽取50名学生的成绩,成绩的分组及各组的频
数如下(单位:分):
[40,50),2;[50,60),3;[60,70),10;[70,80),15;[80,90),12;[90,100],8.
(1)列出样本的频率分布表;
(2)画出频率分布直方图;
(3)估计成绩在[60,90)分的学生比例;
(4)估计成绩在80分以下的学生比例.
【解析】(1)频率分布表如表:
成绩分组 频数 频率
[40,50) 2 0.04
[50,60) 3 0.06
[60,70) 10 0.2
[70,80) 15 0.3
[80,90) 12 0.24
[90,100] 8 0.16
合计 50 1
(2)频率分布直方图如图所示.
(3)样本中成绩在[60,90)分的学生比例为(0.2+0.3+0.24)×100%=0.74×100%
=74%.由样本估计总体,成绩在[60,90)分的学生约占74%.
(4)样本中成绩在80分以下学生比例为[1-(0.24+0.16)]×100%=60%.由样本估
计总体,成绩在80分以下的学生约占60%.总体取值规律的估计 总体百分位数的估计
环境部门根据空气污染指数对空气质量状况划分为重度污染(300以上)、中度污染(201-300)、轻度污染(151-200)、轻微污染(101-150)、良(51-100)、优(0-50)六个级别。某市2020年12月1日~12月30日对空气污染指数的监测数据如下:
61,76,70,56,81,91,92,91,75,81,88,67,101,103,95,91,77,86,81,83,82,82,64,79,86,85,75,71,49,45.
【问题1】这些数据看上去有明显的规律吗?
【问题2】要评价该市本月空气质量状况,应对上
述数据作怎样的处理?
【问题3】某人说:该市空气质量有待进一步改善,
你知道他的依据是什么吗?
1.频率分布直方图的画法
2.总体取值规律的估计
(1)从频率分布表可以看出,样本观测数据落在各个小组的比例大小,例如哪组最多,哪组最少.
(2)从频率分布直方图可以看出,样本的观测数据分布对称情况,左右高低情况,数据集中情况,从左到右的变化趋势等.
1.本质:频率分布表与频率分布直方图是对纷杂的样本数据整理和表示的一种方法,目的是可以清晰地得到样本数据的频率分布,从而估计总体分布.
2.混淆:频率分布直方图的纵坐标是,不要误认为是频率.
3.几点说明:
(1)组距和组数的确定没有固定的标准,将数据分组时,组数力求合适,纵使数据的分布规律能较清楚地呈现出来,组数太多或太少,都会影响我们了解数据的分布情况,若样本容量不超过100,按照数据的多少常分为5~12组,一般样本容量越大,所分组数越多.
(2)频率分布直方图的纵坐标是,每一组数对应的矩形高度与频率成正比,而且每个矩形的面积等于这一组数对应的频率,所有矩形的面积之和为1.
(3)总体分布指的是总体取值的频率分布规律,由于总体分布不易知道,因此我们往往用样本的频率分布去估计总体的分布.
1.为什么要对样本数据进行分组?
提示:不分组很难看出样本中的数字所包含的信息,分组后,计算出频率,从而估计总体的分布特征.
2.频数分布表与频率分布直方图有什么不同?
提示:频数分布表能使我们清楚地知道数据分布在各个小组的个数,而频率分布直方图则是从各个小组数据在样本容量中所占比例大小的角度来表示数据分布的规律.
3.其它统计图表
统计图表 主要应用
扇形图 直观描述各类数据占总数的比例
条形图和直方图 直观描述不同类别或分组数据的频数和频率
折线图 描述数据随时间的变化趋势
4.百分位数
(1)第p百分位数的定义
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
(2)计算一组n个数据的第p百分位数的步骤
第1步,按从小到大排列原始数据.
第2步,计算i=n×p%.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
如何理解第25,50,75百分位数?
提示:第25,50,75百分位数把一组由小到大排列后的数据恰好分成四等份,因此称为四分位数.第25百分位数也叫第一四分位数或下四分位数,第50百分位数即中位数,第75百分位数也叫第三四分位数或上四分位数.
1.样本容量越大,所分组数越多;样本容量越小,所分组数越小吗?
2.若一组样本数据的第10百分位数是23,则在这组数据中有10%的数据大于23吗?
3.一组数据的第20百分位数与第80百分位数相同,是吗?
4.样本容量越大,用样本的频率分布估计总体的分布就越精确吗?
提示:1.是;2.不是;3.不是;4.是.
教材P201问题2中,如果市政府希望90%的居民用户生活用水支出不受影响,那么居民用户月均用水量标准大致是多少?
提示:=16.5(t).
1.下列一组数据的第25百分位数是( )
2.1,3.0,3.2,3.8,3.4,4.0,4.2,4.4,5.3,5.6
A.3.2 B.3.0
C.4.4 D.2.5
【解析】选A.把该组数据按照由小到大排列,可得:
2.1,3.0,3.2,3.4,3.8,4.0,4.2,4.4,5.3,5.6,
由i=10×25%=2.5,不是整数,则第3个数据3.2,是第25百分位数.
2.已知样本:
7 10 14 8 7 12 11 10 8 10
13 10 8 11 8 9 12 9 13 12
那么这组样本数据落在范围8.5~11.5内的频率为________.
【解析】样本量是20,落在8.5~11.5内的数据有2个9,4个10,2个11,共8个数据,所以要求的频率是8÷20=0.4.
答案:0.4
基础类型一 扇形图、条形图与折线图(直观想象)
1.如图是甲、乙、丙、丁四组人数的扇形统计图的部分结果,根据扇形统计图的情况可以知道丙、丁两组人数和为( )
A.250 B.150 C.400 D.300
【解析】选A.甲组人数是120,占30%,则总人数是=400.则乙组人数是400×7.5%=30,则丙、丁两组人数和为400-120-30=250.
2.如图是某市2021年5月1日至5月7日每天最高、最低气温的折线统计图,在这7天中,日温差最大的一天是( )
A.5月1日 B.5月2日
C.5月3日 D.5月5日
【解析】选D.由折线图可以看出,该市日温差最大的一天是5月5日.
3.某校为了了解学生的睡眠情况,随机调查了50名学生,得到他们在某一天各自的睡眠时间的数据,结果用如图所示的条形图表示.根据条形图可得这50名学生这一天平均每人的睡眠时间为______h.
【解析】方法一:要确定这50名学生的平均睡眠时间,就必须计算其总睡眠时间.总睡眠时间为5.5×0.1×50+6×0.3×50+6.5×0.4×50+7×0.1×50+7.5×0.1×50=27.5+90+130+35+37.5=320.故平均睡眠时间为320÷50=6.4(h).
方法二:根据图形得平均每人的睡眠时间为
t=5.5×0.1+6×0.3+6.5×0.4+7×0.1+7.5×0.1=6.4(h).
答案:6.4
(1)扇形图是用整个圆面积表示总数(100%),用圆内的扇形面积表示各个部分所占总数的百分数.
(2)条形图是用一个单位长度表示一定的数量或频率,根据数量的多少或频率的大小画成长短不同的矩形条,条形图能清楚地表示出每个项目的具体数目或频率.
(3)在折线统计图中,从折线的上升、下降可分析统计数量的增减变化情况,从陡峭程度上,可分析数据间相对增长、下降的幅度.
微提醒:(1)不同总量下的扇形统计图,其不同的百分比不可以作为比较的依据.(2)在画折线图时,要注意明确横轴、纵轴的实际含义.
基础类型二 百分位数(数学抽象、数据分析)
【典例】1.以下数据为参加数学竞赛决赛的15人的成绩:(单位:分)
78,70,72,86,88,79,80,81,94,84,56,98,83,90,91,则这15人成绩的第80百分位数是( )
A.90 B.90.5 C.91 D.91.5
【解析】选B.把成绩按从小到大的顺序排列为:
56,70,72,78,79,80,81,83,84,86,88,90,91,94,98,
因为15×80%=12,所以这15人成绩的第80百分位数是=90.5.
2.考察某校高二年级男生的身高,随机抽取38名高二男生,实测身高数据(单位:cm)如下:
171 163 163 166 166 168 168 160 168 165 171 169 167 169 168 170 160 168 174 165 168 174 159 167 156 157 164 169 176 157 162 161 158 164 163 163 167 161
则该校高二年级男生身高的第75百分位数估计为______.
【解析】把这38名男生的身高数据按从小到大排序,可得
156 157 157 158 159 160 160 161 161 162 163 163 163 163 164 164 165 165 166 166 167 167 167 168 168 168 168 168 168 169 169 169 170 171 171 174 174 176
由75%×38=28.5,可知样本数据的第75百分位数为169.据此可估计该校高二男生身高的第75百分位数分别约为169.
答案:169
求百分位数时的注意点
(1)一定要将数据按照从小到大的顺序排列;
(2)一定要确定i=n×p%的结果是否为整数.
1,2,3,4,5,6,7,8,9,10的25%分位数为______,75%分位数为______,90%分位数为______.
【解析】因为数据个数为10,而且10×25%=2.5,10×75%=7.5,10×90%=9.
所以该组数据的25%分位数为x3=3,75%分位数为x8=8,90%分位数为==9.5.
答案:3 8 9.5
【加固训练】
某经销商从外地一水殖厂购进一批小龙虾,并随机抽取40只进行统计,按重量分类统计结果如图:
(1)估计这批小龙虾质量的第10百分位数与第90百分位数.
(2)该经销商将这批小龙虾分成三个等级,如表:
等级 三等品 二等品 一等品
重量/克 [5,25) [25,45) [45,55]
试估计这批小龙虾划为几等品比较合理?
【解析】(1)因为40×10%=4,所以第10百分位数为第4项与第5项的平均数,在[5,15)范围内约为=10,因为40×90%=36,所以第90百分位数为第36项与第37项的平均数,在[35,55]范围内,约为=45,所以估计这批小龙虾重量的第10百分位数为10,第90百分位数为45.
(2)由(1)知,将这批小龙虾重量集中在[10,45]范围内,所以划为二等品比较合理.
综合类型 频率分布表、频率分布直方图
(数据分析、直观想象)
频率分布表、频率分布直方图的画法
【典例】某高校对2019年该校自主招生的数据又做了新的研究,从考试成绩中随机抽取100名学生的笔试成绩,按成绩分组,得到的频率分布表如下:
组号 分组 频数 频率
第1组 [160,165) 5 0.05
第2组 [165,170) ① 0.35
第3组 [170,175) 30 ②
第4组 [175,180) 20 0.20
第5组 [180,185] 10 0.10
合计 100 1.00
请先求出频率分布表中①②处应填写的数据,并完成如图所示的频率分布直方图;
【解析】由题意可知,第2组的频数为0.35×100=35,第3组的频率为=0.30,故①处填35,②处填0.30.频率分布直方图如图所示.
本例中,若从中随机抽取44名考生的面试成绩如下:
57,61,57,57,58,57,61,54,68,51,49,64,50,48,65,52,56,46,54,49,51,47,55,55,54,42,51,56,55,51,54,51,60,62,43,55,56,61,52,69,64,46,54,48
请将数据进行适当的分组,并画出相应的频率分布表与频率分布直方图。
【解析】以4为组距,列表如下:
分组 频数 频率
[41.5,45.5) 2 0.045 5
[45.5,49.5) 7 0.159 1
[49.5,53.5) 8 0.181 8
[53.5,57.5) 16 0.363 6
[57.5,61.5) 5 0.113 6
[61.5,65.5) 4 0.090 9
[65.5,69.5) 2 0.045 5
频率分布直方图如图所示.
绘制频率分布直方图的关注点
(1)分组:数据要合理分组,组距要选取恰当,一般尽量取整,数据为30~100个左右时,应分成5~12组.
(2)关键:画频率分布直方图的关键就是确定小矩形的高,其大小为“频率/组距”.
(3)在频率分布直方图中,各个小长方形的面积等于各组的频率,各组频数之和等于样本容量,频率之和为1.
频率分布直方图的应用
【典例】(1)某厂对一批产品进行抽样检测,如图是抽检产品净重(单位:克)的频率分布直方图,样本数据分组为[76,78),[78,80),…,[84,86].若这批产品有120个,估计其中净重大于或等于78克且小于84克的产品的个数是( )
A.12 B.18 C.25 D.90
【解析】选D.净重大于或等于78克且小于84克的频率为(0.100+0.150+0.125)×2=0.75,所以在该范围内的产品个数为120×0.75=90.
(2)一组样本数据的频率分布直方图如图所示,试估计此样本数据的第50百分位数为______.
【解析】样本数据低于10的比例为(0.08+0.02)×4=0.40,样本数据低于14的比例为0.40+0.09×4=0.76,所以此样本数据的第50百分位数在[10,14)内,估计此样本数据的第50百分位数为10+×4=.
答案:
1.解决与频率分布直方图有关问题的关系式
由频率分布直方图进行相关计算时,需掌握下列关系式:
(1)×组距=频率.
(2)=频率,此关系式的变形为:样本容量×频率=频数.
2.由频率分布直方图求百分位数的方法
(1)要注意频率分布直方图中小矩形的面积,就是数据落在该组的频率.
(2)一般采用方程的思想,设出第p百分位数,根据其意义列出方程并求解即可.
【加固训练】
某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层随机抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…,[80,90],并整理得到如下频率分布直方图:
(1)估计总体400名学生中分数小于70的人数;
(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;
(3)根据该大学规定,把15%的学生划定为不及格,利用(2)中的数据,确定本次测试的及格分数线,低于及格分数线的学生需要补考.
【解析】(1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,
所以样本中分数小于70的频率为1-0.6=0.4.
所以估计总体400名学生中分数小于70的人数为400×0.4=160.
(2)根据题意,样本中分数不小于50的频率为(0.01+0.02+0.04+0.02)×10=0.9,
分数在区间[40,50)内的人数为100-100×0.9-5=5.
所以总体中分数在区间[40,50)内的人数估计为400×=20.
(3)设分数的第15百分位数为x,
分数小于50的频率为1-(0.01+0.02+0.04+0.02)×10=0.1,分数小于60的频率为0.1+0.1=0.2,所以x∈[50,60),则0.1+(x-50)×0.01=0.15,解得x=55,
则本次考试的及格分数线为55分.
创新题型 多选题(数学直观、数据分析)
【典例】(多选题)为征求个人所得税法修改建议,某机构调查了10 000名当地职工的月收入情况,并根据所得数据画出了样本的频率分布直方图.
下列说法正确的是( )
A.月收入低于5 000元的职工有5 500名
B.如果个税起征点调整至5 000元,估计有50%的当地职工会被征税
C.月收入高于或等于7 000元的职工约为当地职工的5%
D.根据此次调查,为使60%以上的职工不用缴纳个税,起征点应位于[5 000,6 000)内
【解析】选ACD.月收入低于5 000元的职工有10 000×(0.000 1+0.000 2+0.000 25)×1 000=5 500(名),A正确;如果个税起征点调整至5 000元,由(0.000 25+0.000 15+0.000 05)×1 000×100%=45%,可估计有45%的当地职工会被征税,B不正确;月收入高于或等于7 000元的职工约占0.000 05×1 000×100%=5%,C正确;月收入低于5 000元的频率为0.55,低于6 000元的频率为0.8,D正确.
多选题的关注点
(1)解题方法:与单选题的方法大致相同,除了基本解题方法外,排除法、特殊值法是常用方法.
(2)解题技巧:多选题的正确选项一般有两个或三个,如果不会做,按单选题处理.
【加固训练】
(多选题)甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则( )
A.甲的成绩的平均数小于乙的成绩的平均数
B.甲的成绩的平均数等于乙的成绩的平均数
C.甲的成绩的第80百分位数等于乙的成绩的第80百分位数
D.甲的成绩的极差等于乙的成绩的极差
【解析】选BCD.由图可得,甲==6,
乙==6,A项错误,B项正确;
甲的成绩的第80百分位数=7.5,乙的成绩的第80百分位数=7.5,所以二者相等,所以C项正确;甲的成绩的极差为4,乙的成绩的极差也为4,D项正确.
1.一个容量为80的样本中数据的最大值是140,最小值是51,组距是10,则应将样本数据分为( )
A.10组 B.9组 C.8组 D.7组
【解析】选B.极差为140-51=89,而组距为10,故应将样本数据分为9组.
2.200辆汽车经过某一雷达地区,时速的频率分布直方图如图所示,则时速超过60 km/h(含60 km/h)的汽车数量为( )
A.65辆 B.76辆 C.88辆 D.95辆
【解析】选B.由频率分布直方图可得数据落在[60,80)内的频率是(0.028+0.010)×10=0.38,故时速超过60 km/h(含60 km/h)的汽车数量为200×0.38=76(辆).
3.观察如图所示的统计图,下列结论正确的是( )
A.甲校女生比乙校女生多
B.乙校男生比甲校男生少
C.乙校女生比甲校男生少
D.甲、乙两校女生人数无法比较
【解析】选D.图中数据只是百分比,甲、乙两个学校的学生总数不知道,因此男生与女生的具体人数也无法得知.
4.900,920,920,930,930的20%分位数是______.
【解析】因为5×20%=1,所以该组数据的20%分位数是=910.
答案:910
5.甲、乙两个城市2018年4月中旬每天的最高气温统计图如图所示,则这9天里,气温比较稳定的是______城市(填“甲”“乙”).
【解析】从折线统计图可以很清楚的看到乙城市的气温变化较大,而甲城市气温相对来说较稳定,变化基本不大.
答案:甲
PAGE
13(共59张PPT)
9.2.3 总体集中趋势的估计
9.2.4 总体离散程度的估计
基础认知·自主学习
数字
参数 定义与求法 优点与缺点
众数 一组数据中重复出现次数
_____的数 众数通常用于描述变量的值出现次数最多的数.但显然它对其他数据信息的忽视使得无法客观地反映总体特征
中位数 把一组数据按从小到大(或从大到小)排列,处在_______位置的一个数据(或两个数据的_______) 中位数等分样本数据所占频率,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点
最多
最中间
平均数
形状 关系
对称 平均数与中位数差不多
右边“拖尾” 平均数大于中位数
左边“拖尾” 平均数小于中位数
平均数总是在“长尾巴”那边
众数
数据离散程度
平均数
能力形成·合作探究
用水量分组 频数 频率
[0.5,2.5) 12
[2.5,4.5)
[4.5,6.5) 40
[6.5,8.5) 0.18
[8.5,10.5] 6
合计 100 1.00
用水量分组 频数 频率
[0.5,2.5) 12 0.12
[2.5,4.5) 24 0.24
[4.5,6.5) 40 0.40
[6.5,8.5) 18 0.18
[8.5,10.5] 6 0.06
合计 100 1.00
素养发展·创新应用
学情诊断·课堂测评
(1)中位数不受少数极端值的影响
(2)众数无法客观地反映总体的特征(3)平均数受极端值的影响较大
数字
特征
(1)数学抽象:通过样本的数字
特征,培养数学抽象的核心素养
(2)数学运算:通过数字特征的计算,培养数学运算的核心素养
(3)数据分析:利用样本的数字特征的分析数据、预测问题
利用频率分布直方图求数字特征的方法
(1)众数是最高的矩形的底边的中点的横坐标.
(2)中位数左右两侧直方图的面积相等。
(3)平均数等于每个小矩形的面积乘以小矩形底边中点的横坐标之和。
中位数
众数
频率分布直方图中的数字特征
平均数
标准差:
方差:
集中
离散
易错提醒
核心知识
核心素养
方法总结
总体集中趋势的估计
总体离散程度的估计(共39张PPT)
9.2.3 总体集中趋势的估计
9.2.4 总体离散程度的估计
【情境探究】
1.回顾初中学习的众数、中位数、平均数,思考下列问题:
(1)众数是一组数据中出现次数最多的数,在频率分布直方图中,众数应出现在
哪个位置
提示:在频率分布直方图中,众数应该出现在 最大的那一组中,它是最高
的矩形的中点.
必备知识生成
(2)在频率分布直方图中,中位数应出现在哪个位置
提示:在频率分布直方图中,中位数左边和右边直方图的面积应该相等.
(3)在频率分布直方图中,平均数是如何估计的
提示:在频率分布直方图中,平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
2.通过预习教材,回答下列问题:
(1)如何考查样本数据的分散程度
提示:最常用的统计量是样本数据的方差与标准差.
(2)样本数据的分散程度是计算样本数据的什么值
提示:样本数据的分散程度是样本数据到平均数的平均距离.
【知识生成】
1.刻画“中心位置”的量
(1)众数:在一组数据中,出现次数_____的数据叫做这一组数据的众数.
(2)中位数:将一组数据按_____依次排列,把处在_______位置的一个数据(或两
个数据的平均数)叫做这组数据的中位数.
(3)平均数:假设样本数据是x1,x2,…,xn, 表示这组数据的平均数,则
最多
大小
最中间
2.刻画离散程度的量
(1)极差:一组数据中___________值的差.
(2)方差与标准差:
假设一组数据x1,x2,……,xn,用 表示这组数据的平均数,则
称为这组数据的方差; 称为这组数据的标准差.
最大、最小
关键能力探究
探究点一 众数、中位数、平均数的应用
【典例1】某小区广场上有甲、乙两群市民正在进行晨练,两群市民的年龄如下
(单位:岁):
甲群 13,13,14,15,15,15,15,16,17,17;
乙群 54,3,4,4,5,5,6,6,6,57.
(1)甲群市民年龄的平均数、中位数和众数各是多少岁 其中哪个统计量能较好反
映甲群市民的年龄特征
(2)乙群市民年龄的平均数、中位数和众数各是多少岁 其中哪个统计量能较好反
映乙群市民的年龄特征
【思维导引】结合平均数、中位数和众数的概念计算分析.
【解析】(1)甲群市民年龄的平均数为 (岁),
中位数为15岁,众数为15岁.
平均数、中位数和众数相等,因此它们都能较好地反映甲群市民的年龄特征.
(2)乙群市民年龄的平均数为 (岁),
中位数为5.5岁,众数为6岁.
由于乙群市民大多数是儿童,所以中位数和众数能较好地反映乙群市民的年龄
特征,而平均数的可靠性较差.
【类题通法】中位数的求法
(1)当数据个数为奇数时,中位数是按大小顺序排列的中间那个数.
(2)当数据个数为偶数时,中位数为按大小顺序排列的最中间的两个数的平均数.
【定向训练】
下面是某快餐店所有工作人员一月的收入表:
①计算所有人员的月平均收入.
②这个平均收入能反映打工人员的月收入的一般水平吗 为什么
③去掉老板的收入后,再计算平均收入,这能代表打工人员的月收入的一般水
平吗
老板 大厨 二厨 采购员 杂工 服务生 会计
30 000元 4 500元 3 500元 4 000元 3 200元 3 200元 4 100元
【解析】①月平均收入 = (30 000+4 500+3 500+4 000+3 200+3 200+
4 100)=7 500(元).
②这个平均收入不能反映打工人员的月收入水平,可以看出打工人员的收入都
低于平均收入,但是老板收入特别高,这是一个异常值,对平均收入产生了较大
的影响,并且他不是打工人员.
③去掉老板的收入后的月平均收入 = (4 500+3 500+4 000+3 200+3 200
+4 100)=3 750(元).
这能代表打工人员的月收入的一般水平.
【补偿训练】
10名工人某天生产同一零件,生产的件数是15,17,14,10,15,17,17,16,14,12,
设其平均数为a,中位数为b,众数为c,则有 ( )
A.a>b>c B.b>c>a C.c>a>b D.c>b>a
【解析】选D.将数据从小到大排列为10,12,14,14,15,15,16,17,17,17,则平
均数a= (10+12+14×2+15×2+16+17×3)=14.7,
中位数b=15,众数c=17,显然a探究点二 数据方差、标准差的应用
【典例2】某大学有甲、乙两位航模运动员参加了国家队集训,现分别从他们
在集训期间参加的若干次预赛成绩中随机抽取8次,记录如下:
甲:82 81 79 78 95 88 93 84 乙:92 95 80 75 83 80 90 85
现要从中派一人参加国际比赛,从平均成绩和方差的角度考虑,你认为派哪位
学生参加合适 请说明理由.
【思维导引】分别求出甲、乙两人的平均值与方差,比较大小,再选出合适人选.
【解析】派甲参加比较合适,理由如下:
= (70×2+80×4+90×2+9+8+8+4+2+1+5+3)=85,
= (70×1+80×4+90×3+5+3+5+2+5)=85,
= [(78-85)2+(79-85)2+(81-85)2+(82-85)2+(84-85)2+(88-85)2+(95-
85)2+(93-85)2]=35.5,
= [(75-85)2+(80-85)2+(80-85)2+(83-85)2+(85-85)2+(90-85)2+(92-
85)2+(95-85)2]=41.
因为 = , < ,
所以甲的成绩比较稳定,派甲参加比较合适.
【类题通法】计算标准差的步骤
第一步:算出样本数据的平均数 ;
第二步:算出每个样本数据与样本平均数的差xi- (i=1,2,…,n);
第三步:算出(xi- )2(i=1,2,…,n);
第四步:算出(xi- )2(i=1,2,…,n)这n个数的平均数,即为样本方差s2;
第五步:算出方差的算术平方根,即为样本标准差s.
【知识延拓】
方差的两种化简形式
方差描述一组数据围绕平均数波动的幅度. 在应用时注意其公式
的两个简化形式:
其中
a是接近原数据平均数的一个常数.
【定向训练】
从甲、乙两种玉米中各抽10株,分别测得它们的株高如下:
甲:25、41、40、37、22、14、19、39、21、42;
乙:27、16、44、27、44、16、40、40、16、40.
(1)分别计算两组数据的平均数与方差;
(2)由(1)的结果分析哪种玉米的苗长得高 哪种玉米的苗长得齐
【解析】
由方差公式得:
同理
(2)由(1)知 ,故乙种玉米的苗长得高,又 ,故甲种玉米的苗长得齐.
探究点三 利用频率分布直方图求众数、中位数、平均数
【典例3】从高三抽出50名学生参加数学竞赛,由成绩得到如图的频率分布直
方图.
由于一些数据丢失,试利用频率分布直方图求:
(1)这50名学生成绩的众数与中位数;
(2)这50名学生的平均成绩.
【思维导引】明确众数、中位数、平均数的概念及它们与频率分布直方图的
关系.
【解析】(1)由众数的概念可知,众数是出现次数最多的数.在直方图中高度最
高的小长方形的底边中点的横坐标即为所求,所以众数应为75.
由于中位数是所有数据中的中间值,故在频率分布直方图中体现的是中位数的
左右两边频数应相等,即频率也相等,从而就是小矩形的面积和相等.因此在频
率分布直方图中将所有小矩形的面积一分为二的垂直于横轴的直线与横轴交
点的横坐标所对应的成绩即为所求.
因为0.004×10+0.006×10+0.02×10=0.04+0.06+0.2=0.3,
所以前三个小矩形面积的和为0.3.
而第四个小矩形面积为0.03×10=0.3,0.3+0.3>0.5,
所以中位数应位于第四个小矩形内.
设其底边为x,高为0.03,所以令0.03x=0.2,得x≈6.7,
故中位数应约为70+6.7=76.7.
(2)样本平均值应是所有数据的平均值,即每个小矩形底边的中点的横坐标乘
以每个小矩形的面积求和即可.所以平均成绩为45×(0.004×10)+55×(0.006×10)+65×(0.02×10)+75×(0.03×10)+85×
(0.024×10)+95×(0.016×10)=76.2.
【类题通法】
频率分布直方图的数字特征
(1)众数:众数一般用频率分布表中频率最高的一组的组中值来显示,即在样本
数据的频率分布直方图中,最高矩形的底边中点的横坐标;
(2)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等;
(3)平均数:平均数在频率分布表中等于组中值与对应频率之积的和.
【定向训练】
为了调查某厂工人生产某种产品的能力,随机抽查了20名工人某天生产该产品
的数量得到频率分布直方图如图,则:
(1)这20名工人中一天生产该产品数量在[55,75)的人数是______;
(2)这20名工人中一天生产该产品数量的中位数为________;
(3)这20名工人中一天生产该产品数量的平均数为________.
【解析】(1)在[55,75)的人数为(0.040×10+0.025×10)×20=13.
(2)设中位数为x,则0.2+(x-55)×0.04=0.5,x=62.5.
(3)0.2×50+0.4×60+0.25×70+0.1×80+0.05×90=64.
答案:(1)13 (2)62.5 (3)64
【课堂小结】
课堂素养达标
1.某学习小组在一次数学测验中,得100分的有1人,95分的有1人,90分的有2
人,85分的有4人,80分和75分的各有1人,则该小组成绩的平均数、众数、中位
数分别是 ( )
A.85分、85分、85分 B.87分、85分、86分
C.87分、85分、85分 D.87分、85分、90分
【解析】选C.从小到大列出所有数学成绩(单位:分):75,80,85,85,85,85,90,
90,95,100,观察知众数和中位数均为85分,计算得平均数为87分.
2.甲、乙、丙、丁四名射手在选拔赛中所得的平均环数 及其方差s2如表所
示,则选送决赛的最佳人选应是 ( )
A.甲 B.乙 C.丙 D.丁
【解析】选B.因为 且 所以应选择乙进入决赛.
项目 甲 乙 丙 丁
7 8 8 7
s2 6.3 6.3 7 8.7
3.如图是一次考试结果的统计图,根据该统计图可估计,这次考试的平均分数
约为 ( )
A.46 B.36 C.56 D.60
【解析】选A.根据题中统计图,可知有4人成绩在[0,20)之间,其考试分数之
和约为4×10=40;有8人成绩在[20,40)之间,其考试分数之和约为8×30=240;
有10人成绩在[40,60)之间,其考试分数之和约为10×50=500;有6人成绩在
[60,80)之间,其考试分数之和约为6×70=420;有2人成绩在[80,100]之间,其
考试分数之和约为2×90=180,由此可知,考生总人数为4+8+10+6+2=30,考试
总成绩约为40+240+500+420+180=1 380,平均分数约为 =46.
【补偿训练】
某射手在一次训练中五次射击的成绩分别为9.4,9.4,9.4,9.6,9.7,则该射手五次射击的成绩的方差是 ( )
A.0.127 B.0.016 C.0.08 D.0.216
【解析】选B. = ×(9.4+9.4+9.4+9.6+9.7)=9.5,
所以s2= ×[(9.4-9.5)2+(9.4-9.5)2+(9.4-9.5)2+(9.6-9.5)2+(9.7-9.5)2]
=0.016.
4.已知样本9,10,11,x,y的平均数是10,标准差为 ,则xy=________.
【解析】由平均数得9+10+11+x+y=50,所以x+y=20.又由(9-10)2+(10-10)2
+(11-10)2+(x-10)2+(y-10)2=( )2×5=10,得x2+y2-20(x+y)=-192,(x+y)2
-2xy-20(x+y)=-192,所以xy=96.
答案:96
5.甲、乙两人参加某体育项目训练,近期的五次测试成绩得分情况如图所示.
(1)分别求出两人得分的平均数与方差;
(2)根据图和(1)中的计算结果,对两人的训练成绩作出评价.
【解析】(1)由题图可得甲、乙两人五次测试的成绩分别为
甲:10,13,12,14,16;乙:13,14,12,12,14.
(2)由 可知乙的成绩较稳定.从折线图看,甲的成绩基本呈上升状态,而乙
的成绩上下波动,可知甲的成绩在不断提高,而乙的成绩则无明显提高.总体离散程度的估计
现从甲、乙、丙三个厂家生产的同一种耐用家电产品中,各抽取8件产品,对其使用寿命进行跟踪调查,其结果如下:(单位:年)
甲:3,4,5,6,8,8,8,10;
乙:4,6,6,6,8,9,12,13;
丙:3,3,4,7,9,10,11,12.
【问题1】如果要确定哪家的产品更耐用,你觉得应该研究样本数据的哪些数字特征?
【问题2】三家广告中都称其产品的使用寿命为8年,你能说明为什么吗?
【问题3】能否用样本的数字特征估计总体的数字特征?
1.众数、中位数、平均数
数字参数 定义与求法 优点与缺点
众数 一组数据中重复出现次数最多的数 众数通常用于描述变量的值出现次数最多的数.但显然它对其他数据信息的忽视使得无法客观地反映总体特征
中位数 把一组数据按从小到大(或从大到小)排列,处在最中间位置的一个数据(或两个数据的平均数) 中位数等分样本数据所占频率,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点
平均数 如果有n个数据x1,x2,…,xn,那么这n个数据的平均数x=(x1+x2+…+xn) 平均数和每一个数据都有关,可以反映样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计总体时可靠性降低
2.总体集中趋势的估计
(1)平均数和中位数都描述了数据的集中趋势,它们的大小关系和数据分布的形态有关.
(2)单峰频率分布直方图的平均数与中位数
形状 关系
对称 平均数与中位数差不多
右边“拖尾” 平均数大于中位数
左边“拖尾” 平均数小于中位数
平均数总是在“长尾巴”那边
(3)对数值型数据(如用水量、身高、收入、产量等)集中趋势的描述,可以用平均数、中位数;对分类型数据(如校服规格、性别、产品质量等级等)集中趋势的描述,可以用众数.
1.本质:众数、中位数、平均数都是刻画“中心位置”的量,它们从不同角度刻画了一组数据的集中趋势.
2.混淆:
(1)如果一组数有奇数个数,且按照从小到大排列后为x1,x2,…,x2n+1,则称xn+1为这组数的中位数;如果一组数有偶数个数,且按照从小到大排列后为x1,x2,…,x2n,则称为这组数的中位数.
(2)如果有几个数据出现的次数相同,并且比其他数据出现的次数都多,那么这几个数据都是这组数据的众数;若一组数据中,每个数据出现的次数一样多,则认为这组数据没有众数.
一组数据的众数可以有几个?中位数是否也具有相同的结论?
提示:一组数据的众数可能有一个,也可能有多个,中位数只有唯一一个.
3.总体离散程度的估计
(1)极差
一种简单的度量数据离散程度的方法就是用极差.极差越大,波动范围越大.
(2)平均距离
假设一组数据是x1,x2,…,xn,用x表示这组数据的平均数.①距离:每个数据与平均数的差的绝对值,表示:|xi-x|(i=1,2,…,n).
②平均距离:xi-x|.
(3)方差、标准差
①方差:(xi-x)2=-x2.
②标准差:.
(4)总体方差、总体标准差
如果总体中所有个体的变量值分别为Y1,Y2,…,YN,总体平均数为,则总体方差:S2=(Yi-)2,总体标准差:S=.
如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频率为fi(i=1,2,…,k),则总体方差为S2=i(Yi-)2.
(5)样本方差、样本标准差
如果一个样本中个体的变量值分别为y1,y2,…,yn,样本平均数为,则样本方差:s2=(yi-)2,样本标准差:s=.
标准差、方差与数据离散程度有何关系?
提示:标准差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.在刻画数据的分散程度上,方差和标准差是一样的.
1.一组数据的平均数只有一个,是吗?
2.一组数据中,有一半的数据不大于中位数,而另一半则不小于中位数,是吗?
3.标准差越大,表明各个样本数据在样本平均数周围越集中吗?
4.若一组数据的值大小相等,则标准差为1,是吗?
提示:1.是;2.是;3.不是;4.不是.
阅读教材P204“思考”及下面的解释两段文字,因为中位数对样本数据不敏感,是不是个别数据录入错误时,一定不会影响中位数的大小?
提示:不是.
1.一组样本数据为:19,23,12,14,14,17,10,12,18,14,27,则这组数据的众数和中位数分别为( )
A.14,14 B.12,14
C.14,15.5 D.12,15.5
【解析】选A.把这组数据按从小到大排列为:10,12,12,14,14,14,17,18,19,23,27,则可知其众数为14,中位数为14.
2.学员在一次射击测试中射靶10次,命中环数如下:7,8,7,9,5,4,9,10,7,4则:命中环数的标准差为______.
【解析】==7.
s2=[(7-7)2+(8-7)2+(7-7)2+(9-7)2+(5-7)2+(4-7)2+(9-7)2+(10-7)2+(7-7)2+(4-7)2]=4,所以s=2.
答案:2
学生用书P108
基础类型一 众数、中位数、平均数的计算
与应用(数学运算、数据分析)
1.某班50名学生的一次安全知识竞赛成绩分布如表所示:(满分10分)
成绩 0 1 2 3 4 5 6 7 8 9 10
人数 0 0 0 1 0 1 3 5 6 19 15
这次安全知识竞赛成绩的众数是( )
A.5分 B.6分 C.9分 D.10分
【解析】选C.根据众数是一组数据中出现次数最多的进行判断,由表中数据可知成绩9分出现了19次,最多,所以众数是9分.
2.如果5个数x1,x2,x3,x4,x5的平均数是7,那么x1+1,x2+1,x3+1,x4+1,x5+1这5个数的平均数是( )
A.5 B.6 C.7 D.8
【解析】选D.依题意x1+x2+…+x5=35,所以(x1+1)+(x2+1)+…+(x5+1)=40,故所求平均数为=8.
3.某小区广场上有甲、乙两群市民正在进行晨练,两群市民的年龄(单位:岁)如下:
甲群 13,13,14,15,15,15,15,16,17,17;
乙群 54,3,4,4,5,5,6,6,6,57.
(1)甲群市民年龄的平均数、中位数和众数各是多少岁?其中哪个统计量能较好地反映甲群市民的年龄特征?
(2)乙群市民年龄的平均数、中位数和众数各是多少岁?其中哪个统计量能较好地反映乙群市民的年龄特征?
【解析】(1)甲群市民年龄的平均数为
=15(岁),中位数为15岁,众数为15岁.平均数、中位数和众数相等,因此它们都能较好地反映甲群市民的年龄特征.
(2)乙群市民年龄的平均数为
=15(岁),
中位数为5.5岁,众数为6岁.
由于乙群市民大多数是儿童,所以中位数和众数能较好地反映乙群市民的年龄特征,而平均数的可靠性较差.
众数、中位数、平均数的计算方法与意义
样本的众数、中位数和平均数常用来表示样本数据的“中心值”,其中众数和中位数可以将数据排序后计算、不受少数几个极端值的影响,但只能表达样本数据中的少量信息,平均数一般利用公式计算,代表了数据更多的信息,但受样本中每个数据的影响,越极端的数据对平均数的影响也越大.
基础类型二 总体集中趋势的估计(数据分析)
【典例】某地遭遇严重干旱,乡政府计划向上级申请支援,为上报需水量,乡长事先抽样调查了100户村民的月均用水量,得到这100户村民月均用水量的频率分布表如表:(月均用水量的单位:吨)
用水量分组 频数 频率
[0.5,2.5) 12
[2.5,4.5)
[4.5,6.5) 40
[6.5,8.5) 0.18
[8.5,10.5] 6
合计 100 1.00
(1)请完成该频率分布表,并画出相对应的频率分布直方图.
(2)估计样本的中位数是多少.
(3)已知上级将按每户月均用水量向该乡调水,若该乡共有1 200户,请估计上级支援该乡的月调水量是多少吨?
【解析】(1)频率分布表与相应的频率分布直方图如下:
用水量分组 频数 频率
[0.5,2.5) 12 0.12
[2.5,4.5) 24 0.24
[4.5,6.5) 40 0.40
[6.5,8.5) 18 0.18
[8.5,10.5] 6 0.06
合计 100 1.00
(2)设中位数为x,因为月均用水量在[0.5,4.5)内的频率是0.12+0.24=0.36,月均用水量在[0.5,6.5)内的频率是0.12+0.24+0.40=0.76,所以x∈[4.5,6.5),则(x-4.5)×0.2=0.5-0.36,解得x=5.2.
所以中位数是5.2.
(3)该乡每户月均用水量估计为1.5×0.12+3.5×0.24+5.5×0.40+7.5×0.18+9.5×0.06=5.14,5.14×1 200=6 168,所以上级支援该乡的月调水量是6 168吨.
用频率分布直方图估计众数、中位数、平均数
(1)众数:取最高小长方形底边中点的横坐标作为众数.
(2)中位数:在频率分布直方图中,把频率分布直方图划分为左右两个面积相等的部分的分界线与x轴交点的横坐标称为中位数.
(3)平均数:平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
某校从参加高一年级期末测试的学生中抽出80名学生,其数学成绩(均为整数)的频率分布直方图如图所示.
则这次测试数学成绩的众数、中位数、平均分分别为____________.
【解析】由题图知众数为=75.设中位数为x,由于前三个矩形面积之和为0.4,第四个矩形面积为0.3,0.3+0.4>0.5,因此中位数位于第四个矩形内,得0.1=0.03(x-70),所以x≈73.3.
这次数学成绩的平均分为:×0.005×10+×0.015×10+×0.02×10+×0.03×10+×0.025×10+×0.005×10=72.
答案:75,73.3,72
综合类型 总体离散程度的估计(数学运算)
极差、方差、标准差的计算
【典例】1.若样本数据x1,x2,…,x10的标准差为8,则数据2x1-1,2x2-1,…,2x10-1的标准差为( )
A.8 B.15 C.16 D.32
【解析】选C.令yi=2xi-1(i=1,2,3,…,10),则所求的标准差为s=2×8=16.
2.样本中共有五个个体,其值分别为a,0,1,2,3.若该样本的平均数为1,则样本的极差为______,方差为______.
【解析】由题可知样本的平均数为1,
所以=1,解得a=-1,
所以样本的极差为:3-(-1)=4;
样本的方差为:s2=[(-1-1)2+(0-1)2+(1-1)2+(2-1)2+(3-1)2]=2.
答案:4 2
计算标准差的5步骤
(1)求出样本数据的平均数.
(2)求出每个样本数据与样本平均数的差xi-(i=1,2,…,n).
(3)求出xi-(i=1,2,…,n)的平方值.
(4)求出上一步中n个平方值的平均数,即为样本方差.
(5)求出上一步中平均数的算术平方根,即为样本标准差.
已知总体的各个个体的值由小到大依次为2,3,3,7,a,b,12,13.7,18.3,21,且总体的中位数为10,若要使该总体的方差最小,则ab=______.
【解析】由题意得a+b=10×2=20,要使该总体的方差最小,方差化简后即满足(a-10)2+(b-10)2最小,故a=b=10,ab=100.
答案:100
总体离散程度的估计
【典例】假定以下数据是甲、乙两个供货商的交货时间(单位:天):
甲:10 9 10 10 11 11 9 11 10 10
乙:8 10 14 7 10 11 10 8 15 12
估计两个供货商的交货情况,并判断哪个供货商的交货时间短一些,哪个供货商的交货时间比较具有一致性和可靠性.
【解析】甲=(10+9+10+10+11+11+9+11+10+10)=10.1,
s=[(10-10.1)2+(9-10.1)2+(10-10.1)2+(10-10.1)2+(11-10.1)2+(11-10.1)2+(9-10.1)2+(11-10.1)2+(10-10.1)2+(10-10.1)2]=0.49;
乙=(8+10+14+7+10+11+10+8+15+12)=10.5,
s=[(8-10.5)2+(10-10.5)2+(14-10.5)2+(7-10.5)2+(10-10.5)2+(11-10.5)2+(10-10.5)2+(8-10.5)2+(15-10.5)2+(12-10.5)2]=6.05.
从交货时间的平均数来看,甲供货商的交货时间短一些;从交货时间的方差来看,甲供货商的交货时间较稳定,因此甲供货商的交货时间比较具有一致性和可靠性.
研究两个样本的波动情况或比较它们的稳定性、可靠性等性能好坏的这类题,先求平均数,比较一下哪一个更接近标准,若平均数相等,则再比较两个样本方差的大小来作出判断.
【加固训练】
某工厂甲、乙两名工人参加操作技能培训,他们在培训期间参加的8次测试成绩记录如下:
甲:95 82 88 81 93 79 84 78
乙:83 92 80 95 90 80 85 75
(1)试比较哪个工人的成绩较好.
(2)甲、乙成绩位于x-s与x+s之间的有多少?
【解析】(1)x甲=×(95+82+88+81+93+79+84+78)=85,
x乙=×(83+92+80+95+90+80+85+75)=85.
s=×[(95-85)2+(82-85)2+(88-85)2+(81-85)2+(93-85)2+(79-85)2+(84-85)2+(78-85)2]=35.5, s=×[(83-85)2+(92-85)2+(80-85)2+(95-85)2+(90-85)2+(80-85)2+(85-85)2+(75-85)2]=41.
因为x甲=x乙,s综上可知,甲的成绩较好.
(2)因为s甲= eq \r(s) =≈5.96,
x甲-s甲=79.04,x甲+s甲=90.96,
所以甲位于x-s与x+s之间的数据有4个.
又s乙= eq \r(s) =≈6.4,
x乙-s乙=78.6,x乙+s乙=91.4,
所以乙的成绩位于x-s与x+s之间的有5个.
创新题型 动态样本平均数、
方差问题(数学抽象、数据分析)
【典例】若一个样本量为8的样本的平均数为5,方差为2.现样本中又加入一个新数据5,此时样本量为9,平均数为,方差为s2,则( )
A.=5,s2<2 B.=5,s2>2
C.>5,s2<2 D.>5,s2>2
【解析】选A.因为(x1+x2+…+x8)=5,所以(x1+x2+…+x8+5)=5,所以=5.
由方差定义及意义可知加入新数据5后,样本数据取值的稳定性比原来强,所以s2<2.
动态样本求平均数、方差的策略
(1)平均数、方差的基本公式不变,但要注意变化前后的关系;
(2)可适当结合平均数、方差的意义估值.
【加固训练】
某班有48名学生,在一次考试中统计出平均分为70分,方差为75,后来发现有2名同学的分数登记错了,甲实得80分,却记了50分,乙实得70分,却记了100分,更正后平均分和方差分别是__________,
__________.
【解析】因甲少记了30分,乙多记了30分,
故平均分不变,设更正后的方差为s2,则由题意可得s2=[(x1-70)2+(x2-70)2+…+(80-70)2+(70-70)2+…+(x48-70)2],而更正前有75=[(x1-70)2+(x2-70)2+…+(50-70)2+(100-70)2+…+(x48-70)2],化简整理得s2=50.
答案:70 50
1.下列说法中,不正确的是( )
A.数据2,4,6,8的中位数是4,6
B.数据1,2,2,3,4,4的众数是2,4
C.一组数据的平均数、众数、中位数有可能是同一个数据
D.8个数据的平均数为5,另3个数据的平均数为7,则这11个数据的平均数是
【解析】选A.数据2,4,6,8的中位数为=5,显然A是错误的,B、C、D都是正确的.
2.奥运会体操比赛的计分规则为:当评委亮分后,其成绩先去掉一个最高分,去掉一个最低分,再计算剩下分数的平均值,这是因为( )
A.减少计算量 B.避免故障
C.剔除异常值 D.活跃赛场气氛
【解析】选C.因为在体操比赛的评分中使用的是平均分,计分过程中采用“去掉一个最高分,去掉一个最低分”的方法,就是为了防止个别裁判的人为因素给出过高或过低的分数对选手的得分造成较大的影响,从而降低误差,尽量公平.
3.下列说法中不正确的是( )
A.数据的极差越小,样本数据分布越集中、稳定
B.数据的平均数越小,样本数据分布越集中、稳定
C.数据的标准差越小,样本数据分布越集中、稳定
D.数据的方差越小,样本数据分布越集中、稳定
【解析】选B.由数据的极差、标准差、方差的定义可知,它们都可以影响样本数据的分布和稳定性,而数据的平均数则与之无关.
4.已知一个样本中的数据为1,2,3,4,5,则该样本的标准差为______.
【解析】因为样本容量n=5,所以=(1+2+3+4+5)=3,
所以s=
=.
答案:
5.已知甲、乙两组数据按从小到大排列后如下所示:
甲:27,m,39;乙:n,32,34,38.
若这两组数据的中位数相同,平均数也相同,则=______.
【解析】因为两组数据的中位数相同,所以m=(32+34)=33,由于两组数据的平均数相同,所以(27+33+39)=(n+32+34+38).解得n=28,故=.
答案:
PAGE
11