1、了解样本估计总体
2、掌握总体百分位的估计
3、理解总体集中趋势的估计
一、用样本估计总体
1、总体取值规律的估计
为了探索-组数据的取值规律,一般先要用表格对数据进行整理,或者用图将数据直观表示出来.在初中,我们曾用频数分布表和频数分布图来整理和表示这种数值型数据,由此能使我们清楚地知道数据分布在各个小组的个数.
在这个实际问题中,因为我们更关心月均用水量在不同范围内的居民用户占全市居民用户的比例,所以选择频率分布表和频率分布直方图来整理和表示数据.与画频数分布直方图类似,我们可以按以下步骤制作频率分布表、画频率分布直方图.
2.求极差
极差式一组数据中最大值与最小值的差
3.决定组距与组数
合适的组距与组数对发现数据分布规律有重要意义.组数太多或太少,都会影响我们了解数据的分布情况组距与组数的确定没有固定的标准,常常需要-一个尝试和选择的过?程。数据分组的组数与数据的个数有关,:一般数据的个数越多,所分组数也越多.
4.将数据分组
5.列频率分布表
6.画频率分布直方图
小长方形的面积=组距×
二、总体百分位数的估计
把100个样本数据按从小到大排序,得到第80个和第81个数据分别为13.6和13.8.可以发现,区间(13.6,?13.8)内的任意一个数,都能把样本数据分成符合要求的两部分.一般地,我们取这两个数的平均数=13.7,并称此数为这组数据的第80百分位数,或80%分位数.
一般地,一组数据的第p百分位数是这样-一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且少有(100-p)%的数据大于或等于这个值.
可以通过下面的步骤计算一组n个数据的第力百分位数:
第1步,按从小到大排列原始数据.
第2步,计算i=n×p%.
第3步,若i不是整数,而大于i的比邻整数为j,则第力百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
三、总体集中趋势的估计
(1)平均数:如果给定的一组数是
,
,…
,则这组数的平均数为
即
(2)中位数:如果一组数有奇数个数,且按照从小到大排列后为则称为这组数的中位数;如果一组数有偶数个数,且按照从小到大排列后为则称为这组数的中位数
(3)众数:一组数据中,某个数据出现的次数称为这个数据的频数,出现次数最多的数据称为这组数据的众数,若一组数据中,每个数据出现的次数一样多,则认为这组数据没有众数
三、频率分布直方图中的中位数和平均数的大小规律
一般来说,对一个单峰的频率分布直方图来说,如果直方图的形状是对称的(图9.2-8(1)),那么平均数和中位数应该大体上差不多;如果直方图在右边“拖尾”(图?9.2-8(2)),那么平均数大于中位数;如果直方图在左边“拖尾”(图9.2-8(3)),?那么平均数小于中位数,也就是说,和中位数相比平均数总是在‘长尾巴’那边.
在频率分布直方图中,我们无法知道每个组内的数据是如何分布的.此时,通常假设它们在组内均匀分布.这样就可以获得样本的平均数、中位数和众数的近似估计,进而估计总体的平均数、中位数和众数.
总体离散趋势的估计
假设一组数据是,,?..?,用表示这组数据的平均数,则
这组数据的方差.有时为了计算方差的方差,我们还把方差写成以下形式
由于方差的单位是原始数据的单位的平方,与原始数据?不一致.为了使二者单位一致,我们对方差开平方,取它的算术平方根,即
(2)
我们称(2)式为这组数据的标准差.
如果总体中所有个体的变量值分别为总体平均数为,则称
为总体方差,S=为总体标准差.
与总体均值类似,总体方差也可以写成加权的形式。如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为,?其中;出现的频数为(i=1,?2,?.?k),则总体方差为
如果一个样本中个体的变量值分别为样本平均数为则称
为样本方差,s=?为样本标准差.
1.2020年10月,中共中央办公厅、国务院办公厅印发了《关于全面加强和改进新时代学校体育工作的意见》,某地积极开展中小学健康促进行动,发挥以体育智、以体育心功能,决定在2021年体育中考中再增加一定的分数,规定:考生须参加立定跳远、掷实心球、一分钟跳绳三项测试,其中一分钟跳绳满分20分.学校为掌握九年级学生一分钟跳绳情况,随机抽取了100名学生测试,其成绩均在
间,并得到如图所示频率分布直方图,计分规则如下表:
一分钟跳绳个数
得分
16
17
18
19
20
(1)补全频率分布直方图,并根据频率分布直方图估计样本中位数;
(2)若两人可组成一个小队,并且两人得分之和小于35分,则称该小队为“潜力队”,用频率估计概率,求从进行测试的100名学生中任意选取2人,恰好选到“潜力队”的概率.
.【答案】
(1)解:如图,在
的频率为
,
则频率/组距
;
的频率为:
;
的频率为:
;
的频率为:
,
则样本中位数一定落在
,
则中位数为
(2)解:根据频率分布直方图,一分钟跳绳个数在
则可得16分,
人数为:
(人);
一分钟跳绳个数在
则可得17分,人数为:
(人);
一分钟跳绳个数在
则可得18分,人数为:
(人).
则“潜力队”的两人构成有4种情况,分别得分之和为
,
,
,
.
则恰好选到“潜力队”的概率
【考点】频率分布直方图,众数、中位数、平均数
【解析】
(1)求出第一、二两组的频率,第三组的频率,所以中位数落在第三组,由此能求出笔试成绩的中位数;
(2)
根据频率分布直方图,一分钟跳绳个数在??则可得16分,
而且这些事件的可能性相同,其中“潜力队”的两人构成有4种情况,分别得分之和为??,??,??,??.
那么即可求得恰好选到“潜力队”的概率
。
2.自从新冠肺炎疫情暴发以来,各地都采取积极有效的防控措施,使疫情得到了有效的控制.某地对100名年龄在
岁,患病后已经康复的居民做了数据统计,绘成如图所示不完整的频率分布直方图.统计员在绘制频率分布直方图的过程中所搜集的数据只能确定年龄在
与
的新冠肺炎康复人数之和是年龄在
的新冠肺炎康复人数的3倍,且
组的频率比
组的频率多0.15.
(1)分别求
,
,
组对应的频率;
(2)求年龄在
的新冠肺炎康复人数.
【答案】
(1)解:由频率分布直方图,得
组对应的频率为
,
组对应的频率为
.
设
,
,
组对应的频率分别为
,
,
,则
,解得
(2)解:因为
对应的频率为
,
所以年龄在
的新冠肺炎康复人数为
【考点】频率分布直方图
【解析】(1)
由频率分布直方图,得??组对应的频,
设??
,
??
,
??组对应的频率分别为??
,
??
,
??
,
依题意得到方程组,解得即可;
(2)首先求出
?
对应的频率,即可求出康复人数。
?
3.从某学校的800名男生中随机抽取50名测量身高,被测学生身高全部介于
和
之间,将测量结果按如下方式分成八组:第一组
,第二组
,…,第八组
,下图是按上述分组方法得到的频率分布直方图的一部分,已知第一组与第八组人数相同,第六组的人数为4人.
(1)求第七组的频率;
(2)估计该校的800名男生的身高的中位数;
(3)若从身高属于第六组和第八组的所有男生中任取两名男生,记他们的身高分别为x,y,事件
,求
.
【答案】
(1)解:第六组的频率为
,
所以第七组的频率为
(2)解:身高在第一组
的频率为
,
身高在第二组
的频率为
,
身高在第三组
的频率为
,
身高在第四组
的频率为
,
由于
,
估计这所学校的800名男生的身高的中位数为m,则
由
得
所以可估计这所学校的800名男生的身高的中位数为174.5
(3)解:第六组
的人数为
4人,设为a,b,c,d,第八组
的人数为
2人,设为A,B,
则有
共15种情况,
因事件
发生当且仅当随机抽取的两名男生在同一组,
所以事件E包含的基本事件为
共7种情况,
故
【考点】频率分布直方图,众数、中位数、平均数,古典概型及其概率计算公式
【解析】(1)利用已知条件结合频率直方图,再利用各组的频率等于各组的矩形的面积,进而结合频率之和等于1,从而求出第七组的频率。
(2)利用已知条件结合频率直方图求中位数的方法,进而估计出该校的800名男生的身高的中位数
。
(3)利用已知条件结合频率直方图和古典概型求概率公式,进而求出
的值。
?
4.受新冠疫情的影响,全国各地学校都推迟了2020年的春季开学时间,某学校“停课不停学”,利用云课平台提供免费线上课程该学校为了了解学生对线上课程的满意程度,随机抽取了100名学生对该线上课程进行评分.其频率分布直方图如图.
(1)求图中a的值;
(2)以频率当作概率,若采用分层抽样的方法,从样本评分在
和
内的学生中共抽取5人进行测试来检验他们的网课学习效果,再从中选取2人进行跟踪分析,求这2人中至少一人评分在
内的概率.
【答案】
(1)解:由题意,得
,
解得
(2)解:在
内抽取
(人),则在
抽取3人.
记这5人中在
的3人分别为a,b,c,在
的2人分别为e,f,
则5人中抽2人的情况有:
,
,
,
,
,
,
,
,
,
,共10种.
其中这2人中至少一人评分在
的有
,
,
,
,
,
,
,共7种.
∴所求事件的概率是
【考点】分层抽样方法,频率分布直方图,古典概型及其概率计算公式
【解析】(1)利用频率分布直方图结合已知条件,再利用各小组的矩形面积等于各小组的频率,再结合频率之和等于1,进而求出a的值。
(2)利用已知条件结合分层抽样的方法,得出在
内抽取
(人),则在
抽取3人.,再利用古典概型求概率公式,进而求出这2人中至少一人评分在
内的概率。
1.设一组样本数据
的方差为0.05,则数据
的方差为(???
)
A.?0.05????????????????????????????????????????B.?0.5????????????????????????????????????????C.?5????????????????????????????????????????D.?50
2.我国古代数学名著《数书九章》有“米谷粒分”题:粮仓开仓收粮,有人送来米1534石,验得米内夹谷,抽样取米一把,数得128粒内夹谷14粒,则这批米内夹谷约为(???
)
A.?133石?????????????????????????????????B.?168石?????????????????????????????????C.?337石?????????????????????????????????D.?1364石
3.在样本的频率分布直方图中,共有4个小长方形,这4个小长方形的面积由小到大依次构成等比数列
,已知
,且样本容量为300,则对应小长方形面积最大的一组的频数为(???
)
A.?20????????????????????????????????????????B.?60????????????????????????????????????????C.?80????????????????????????????????????????D.?160
4.某学校鼓励学生参加社区服务,学生甲2019年每月参加社区服务的时长(单位:小时)分别为
,
,…,
,其均值和方差分别为
和
,若2020年甲每月参加社区服务的时长增加1小时,则2020年甲参加社区服务时长的均值和方差分别为(???
)
A.?
,
?????????????????????????B.?
,
?????????????????????????C.?
,
?????????????????????????D.?
,
参考答案
1.【答案】
C
【解析】
设样本数据
的平均数是
,
方差
,
则数列
的平均数是
,
方差
.
2.【答案】
B
【解析】
解:用样本估计总体,可得这批谷内夹谷为:
,
3.【答案】
D
【解析】
设等差数列的公比为
,则
,所以
,
所以这4个小长方形的面积由小到大对应的频数依次为
,
,
,
,
所以
,解得:
,
所以对应小长方形面积最大的一组的频数为
,
4.【答案】
D
【解析】
解:由题意可知
,
,
设2020年甲参加社区服务时长的均值和方差分别为
,
,
则
,
,