(共46张PPT)
高中数学
同步复习
9.2 用样本估计总体
01
知识剖析
考点01 总体取值规律的估计
1
频率分布直方图
(1)频率分布表与频率分布直方图的意义
为了探索一组数据的取值规律,一般先要用表格对数据进行整理,或者用图将数据直观表示出来.在初中,我们曾用频数分布表和频数分布图来整理和表示这种数值型数据,由此能使我们清楚地知道数据分布在各个小组的个数.
有时,我们更关心各个小组的数据在样本容量中所占比例的大小,所以选择频率分布表和频率分布直方图来整理和表示数据.
01
考点01 总体取值规律的估计
(2)频率分布表与频率分布直方图的制作步骤
与画频数分布直方图类似,我们可以按以下步骤制作频率分布表、画频率分布直方图.
第一步,求极差
极差为一组数据中最大值与最小值的差.
第二步,决定组距与组数
第三步,将数据分组
通常对组内数据取左闭右开区间,最后一组数据取闭区间.
01
考点01 总体取值规律的估计
第四步,列频率分布表
计算各小组的频率,作出频率分布表.
第五步,画频率分布直方图
画图时,以横轴表示分组,纵轴(小长方形的高度)表示
01
考点01 总体取值规律的估计
2
其他几类常用统计图——条形图、折线图、扇形图
01
条形图 折线图 扇形图
特 点 一般地,条形图中,一条轴上显示的是所关注的数据类型,另一条轴上对应的是数量、个数或者比例,条形图中每一长方形都是等宽的. 用一个单位长度表示一定的数量,用折线的起伏表示数量的增减变化. 用整个圆表示总体,扇形图中,每一个扇形的圆心角以及弧长,都与这一部分表示的数据大小成正比.
作用及选用情景 能清楚地表示每个项目的具体数量,便于相互比较大小. 能清楚地看出数量增减变化的情况及各部分数量的多少.常用来表示随时间变化的数据,当然,也可以用在其他合适的情形中. 可以形象地表示出各部分数据在全部数据中所占的比例情况.
图例
考点02 总体百分位数、集中趋势与离散程度的估计
1
总体百分位数的估计
(1)概念
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
(2)求解步骤
可以通过下面的步骤计算一组n个数据的第p百分位数:
第1步,按从小到大排列原始数据.
第2步,计算i=n×p%.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
考点02 总体百分位数、集中趋势与离散程度的估计
2
总体集中趋势的估计
在初中的学习中我们已经了解到,平均数、中位数和众数等都是刻画“中心位置”的量,它们从不同角度刻画了一组数据的集中趋势.具体概念回顾如下:
考点02 总体百分位数、集中趋势与离散程度的估计
3
总体离散程度的估计
(1)方差和标准差
假设一组数据是 用 表示这组数据的平均数,则我们称
为这组数据的
方差.有时为了计算方差的方便,我们还把方差写成 的形式.
我们对方差开平方,取它的算数平方根 ,称为这组数据的标准差.
考点02 总体百分位数、集中趋势与离散程度的估计
(2)总体(样本)方差和总体标准差
①一般式:如果总体中所有个体的变量值分别为 ,总体平均数为 ,则总体方差
②加权式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为
,其中 出现的频数为 , ,则总体方差为
.
总体标准差:S= .
考点02 总体百分位数、集中趋势与离散程度的估计
(3)标准差与方差的统计意义
①标准差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.
②在刻画数据的分散程度上,方差与标准差是一样的,但在解决实际问题时,一般多采用标准差.
③标准差(方差)的取值范围为[0,+∞).若样本数据都相等,表明数据没有波动幅度,数据没有离散性,则标准差为0.反之,标准差为0的样本,其中的数据都相等.
考点02 总体百分位数、集中趋势与离散程度的估计
4
频率分布直方图中的统计参数
(1)频率分布直方图中的“众数”
根据众数的意义可知,在频率分布直方图中最高矩形中的某个(些)点的横坐标为这组数据的众数.一般用中点近似代替.
(2)频率分布直方图中的“中位数”
根据中位数的意义,在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.
因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可估计中位数的值.
考点02 总体百分位数、集中趋势与离散程度的估计
(3)频率分布直方图中的“平均数”
平均数是频率分布直方图的“重心”.因为平均数可以表示为数据与它的频率的乘积之和,所以在频率分布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.
03
综合训练
一个容量为80的样本中数据的最大值是140,最小值是51,组距是10,则应将样本数据分为( )
A.10组 B.9组 C.8组 D.7组
根据统计数据确定极差组距和组数
01
【答案】B
【解答】解:∵数据中的最大值是140,最小值是51,
故该组数据的极差为140﹣51=89
又∵组距为10,
89÷10=8.9
故可将该组数据分成9组,
故选:B.
根据统计数据确定极差组距和组数
01
对某电子元件进行寿命追踪调查,情况如下.
(1)列出频率分布表;
(2)画出频率分布直方图及频率分布折线图;
(3)估计元件寿命在100~400h以内的在总体中占的比例;
(4)从频率分布直方图可以看出电子元件寿命的众数,平均数和中位数是多少?
列频率分布表及补全频率分布表
01
寿命(h) 100~200 200~300 300~400 400~500 500~600
个 数 20 30 80 40 30
【答案】见试题解答内容
【解答】解:(1)样本容量为200,可得样本频率分布表:
(2)频率分布直方图如下:
列频率分布表及补全频率分布表
01
范围 100~200 200~300 300~400 400~500 500~600
频率 0.1 0.15 0.4 0.2 0.15
列频率分布表及补全频率分布表
01
(3)估计电子元件寿命在100﹣﹣400 h以内的在总体中占的比例为1﹣(0.20+0.15)=0.65.
(4)从频率分布直方图可以看出电子元件寿命的众数,平均数和中位数分别是:
估计该电子元件寿命的众数为
平均数
中位数
频率分布表的应用
01
学校从参加高一年级期中考试的学生中抽出50名学生,并统计了他们的数学成绩(成绩均为整数且满分为100分),数学成绩分组及各组频数如下:[40,50),2;[50,60),3;[60,70),14;[70,80),15;[80,90),12;[90,100],4.
(1)在给出的样本频率分布表中,求A,B,C,D的值;
(2)估计成绩在80分以上(含80分)学生的比例;
(3)为了帮助成绩差的学生提高数学成绩,学校决定成立“二帮一”小组,即从成绩在[90,100]的学生中选两位同学,共同帮助成绩在[40,50)中的某一位同学.已知甲同学的成绩为42分,乙同学的成绩为95分,求甲、乙两同学恰好被安排在同一小组的概率.
样本频率分布表:
频率分布表的应用
01
分组 频数 频率
[40,50) 2 0.04
[50,60) 3 0.06
[60,70) 14 0.28
[70,80) 15 0.30
[80,90) A B
[90,100] 4 0.08
合计 C D
频率分布表的应用
01
【答案】见试题解答内容
【解答】解:(1)由题意知:A=12; B=0.24; C=50; D=1;
(2)估计成绩在80分以上(含80分)的数据包括[80,90)和[90,100]两组数据,
两组数据的频率之和为0.24+0.08=0.32,
∴成绩在80分以上(含80分)学生的比例为32%;
(3)成绩在[90,100]的学生有4人,成绩在[40,50)的学生有2人,实行“二帮一”小组,共有 种情形,
其中甲、乙两同学恰好被安排在同一小组的有 种情形,
∴甲、乙两同学恰好被安排在同一小组的概率为
画频率分布直方图
01
某班50名同学参加数学测验,成绩的分组及各组的频数如下:
[40,50),2;[50,60),3;[60,70),10;[70,80),15;[80,90),12;[90,100),8.
(1)列出样本的频率分布表;
(2)画出频率分布直方图.
画频率分布直方图
01
【答案】见试题解答内容
【解答】解:(1)频率分布表如下:
成绩分组 频数 频率
[40,50) 2 0.04
[50,60) 3 0.06
[60,70) 10 0.2
[70,80) 15 0.3
[80,90) 12 0.24
[90,100) 8 0.16
画频率分布直方图
01
(2)频率分布直方图如图所示:
补全频率分布直方图
01
某地区教研机构对该地区模拟考试成绩进行分析,随机抽取了200分到450分之间的1000名学生的成绩,并根据这些学生的成绩画出样本的频率分布直方图,如图所示,则成绩在[350,450]内的学生人数为( )
A.300 B.400 C.600 D.1200
补全频率分布直方图
01
【答案】B
【解答】解:由频率分布直方图可得,(0.002+0.004+a+a+0.002)×50=1,
解得a=0.006,
所以成绩在[350,450]内的学生人数为1000×(0.006+0.002)×50=400.
故选:B.
频率分布直方图的应用
01
某地教育局为了解“双减”政策的落实情况,在辖区内初一年级在校学生中抽取了100名学生,调查了他们课下做作业的时间,得到如图所示的频率分布直方图,则下列结论不正确的是( )
频率分布直方图的应用
01
A.该地初一年级学生做作业的时间超过3小时的概率估计为35%
B.估计该地初一年级有一半以上的学生做作业的时间超过2小
C.估计该地初一年级学生做作业的时间的众数为2.25小时
D.估计该地初一年级有一半以上的学生做作业的时间在2小时至3小时之间
频率分布直方图的应用
01
【答案】D
【解答】解:对于A,超过3小时的概率估计为:(0.3+0.2+0.1+0.1)×0.5=35%,故A正确;
对于B,超过2小时的概率估计为:(0.5+0.4+0.3+0.2+0.1+0.1)×0.5=0.8>0.5,故B正确;
对于C,由图知众数约为 (小时),故C正确;
对于D,时间在2小时至3小时之间的概率估计为:(0.5+0.4)×0.5=0.45,
所以没有一半以上的学生做作业的时间在2小时至3小时之间,故D错误.
故选:D.
频率分布折线图、密度曲线
01
(多选)甲、乙两名篮球运动员连续5场比赛的得分如图所示,则( )
A.甲得分的极差大于乙得分的极差
B.甲得分的平均数大于乙得分的平均数
C.甲得分的中位数大于乙得分的中位数
D.甲得分的方差大于乙得分的方差
频率分布折线图、密度曲线
01
【答案】BC
【解答】解:首先整理甲、乙得分数据并排序,
甲:15,16,18,21,30,乙:4,10,16,22,38,
A.极差:甲极差:30﹣15=15,乙极差:38﹣4=34,甲极差小于乙,A错误;
B.平均数:甲平均数:
乙平均数: 甲平均数大于乙,B正确;
C.中位数:甲排序后中位数为18,乙排序后中位数为16.甲中位数大于乙,C正确;
D.方差:甲方差:
乙方差: 甲方差小于乙,D错误.
故选:BC.
平均数
01
下列说法正确的是( )
A.数据1,8,3,5,6的第60百分位数是5
B.若一组样本数据4,6,7,8,9,a的平均数为7,则a=7
C.用分层随机抽样时,个体数最多的层里的个体被抽到的概率最大
D.若x1,x2, ,x10的标准差为4,则﹣2x1+3,﹣2x2+3,﹣2x3+3,…,﹣2x10+3的标准差是8
平均数
01
【答案】D
【解答】解:对于A,数据1,8,3,5,6从小到大为1,3,5,6,8,5×0.6=3,
∴数据1,8,3,5,6的第60百分位数是 故A错误;
对于B,一组样本数据4,6,7,8,9,a的平均数为7,
解得a=8,故B错误;
对于C,用分层随机抽样时,个体数最多的层里的个体被抽到的概率与其它层里的个体被抽到的概率相等,故C错误;
对于D,若x1,x2, ,x10的标准差为4,
则﹣2x1+3,﹣2x2+3,﹣2x3+3,…,﹣2x10+3的标准差是 故D正确.
故选:D.
中位数
01
已知一组样本数据为“2,2,3,5,6,7,8”,该样本数据的中位数是( )
A.6 B.5 C.3 D.2
中位数
01
【答案】B
【解答】解:由中位数定义可知,从小到大,选择第4个数为作为中位数,即5.
故选:B.
众数
01
某校举行“勇士杯”学生篮球比赛,统计高一年级部分班级的得分数据如下:
则下列说法正确的是( )
A.得分的众数为34
B.得分的中位数为28
C.得分的75%分位数为33
D.得分的极差为6
班级 1 2 3 4 5 6 7 8
得分 28 34 34 30 26 28 28 32
众数
01
【答案】C
【解答】解:根据表格中数据可知,出现次数最多的是28,所以得分的众数为28,即A错误;
将8个数据从小到大排列为26,28,28,28,30,32,34,34,
所以中位数为 可知B错误;
易知75%×8=6为整数,
所以第75%分位数为第6个和第7个数的平均值 即C正确;
得分的极差为34﹣26=8,即D错误.
故选:C.
标准差
01
已知一组数据x1,x2,x3,…,x10的标准差为2,将这组数据x1,x2,x3,…,x10中的每个数先同时减去2,再同时乘以3,得到一组新数据,则这组新数据的标准差为( )
A.2 B.4 C.6 D.
标准差
01
【答案】C
【解答】解:因为数据x1,x2,x3,…,x10的标准差为2,所以方差为4,
由题意知,得到的新数据为3x1﹣6,3x2﹣6,3x3﹣6,…,3x10﹣6,
这组新数据的方差为4×32=36,标准差为6.
故选:C.
方差
01
已知x1,x2,…,xn的方差为3,则2x1+1,2x2+1,…,2xn+1的方差为( )
A.6 B.7 C.12 D.18
方差
01
【答案】C
【解答】解:由已知方差为3,
得2x1+1,2x2+1,…,2xn+1的方差为22×3=12.
故选:C.
极差
01
已知一组样本数据8,11,9,7,a,5的极差为6,则a的取值范围是( )
A.[5,11] B.{5,11} C.{5} D.[6,17]
极差
01
【答案】A
【解答】解:因为数据的极差为6,而11﹣5=6,
所以所以5≤a≤11,
即a的取值范围是[5,11].
故选:A.
百分位数
01
制造业采购经理指数(PMI)是衡量制造业经济运行状况的重要指标.现将2024年10月至2025年10月的制造业PMI指数从小到大排列为49.0,49.0,49.1,49.3,49.4,49.5,49.7,49.8,50.1,50.1,50.2,50.3,50.5,则这组数据的第90百分位数为( )
A.50.2 B.50.3 C.50.4 D.50.5
百分位数
01
【答案】B
【解答】解:由题意可知,数据从小到大排列为49.0,49.0,49.1,49.3,49.4,49.5,49.7,49.8,50.1,50.1,50.2,50.3,50.5,
因为13×90%=11.7,
所以该组数据的第90百分位数是第12个数据50.3.
故选:B.