①、了解样本估计总体
②、掌握总体百分位的估计
③、理解总体集中趋势的估计
一、用样本估计总体
1、总体取值规律的估计
为了探索-组数据的取值规律,一般先要用表格对数据进行整理,或者用图将数据直观表示出来.在初中,我们曾用频数分布表和频数分布图来整理和表示这种数值型数据,由此能使我们清楚地知道数据分布在各个小组的个数.
在这个实际问题中,因为我们更关心月均用水量在不同范围内的居民用户占全市居民用户的比例,所以选择频率分布表和频率分布直方图来整理和表示数据.与画频数分布直方图类似,我们可以按以下步骤制作频率分布表、画频率分布直方图.
2.求极差
极差式一组数据中最大值与最小值的差
3.决定组距与组数
合适的组距与组数对发现数据分布规律有重要意义.组数太多或太少,都会影响我们了解数据的分布情况组距与组数的确定没有固定的标准,常常需要-一个尝试和选择的过?程数据分组的组数与数据的个数有关,一般数据的个数越多,所分组数也越多.
4.将数据分组
5.列频率分布表
6.画频率分布直方图
小长方形的面积=组距×
二、总体百分位数的估计
把100个样本数据按从小到大排序,得到第80个和第81个数据分别为13.6和13.8.可以发现,区间(13.6,?13.8)内的任意一个数,都能把样本数据分成符合要求的两部分.一般地,我们取这两个数的平均数=13.7,并称此数为这组数据的第80百分位数,或80%分位数.
一般地,一组数据的第p百分位数是这样-一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且少有(100-p)%的数据大于或等于这个值.
可以通过下面的步骤计算一组n个数据的第力百分位数:
第1步,按从小到大排列原始数据.
第2步,计算i=n×p%.
第3步,若i不是整数,而大于i的比邻整数为j,则第力百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
三、总体集中趋势的估计
(1)平均数:如果给定的一组数是
,
,…
,则这组数的平均数为
即
(2)中位数:如果一组数有奇数个数,且按照从小到大排列后为则称为这组数的中位数;如果一组数有偶数个数,且按照从小到大排列后为则称为这组数的中位数
(3)众数:一组数据中,某个数据出现的次数称为这个数据的频数,出现次数最多的数据称为这组数据的众数,若一组数据中,每个数据出现的次数一样多,则认为这组数据没有众数
三、频率分布直方图中的中位数和平均数的大小规律
一般来说,对一个单峰的频率分布直方图来说,如果直方图的形状是对称的(图9.2-8(1)),那么平均数和中位数应该大体上差不多;如果直方图在右边“拖尾”(图?9.2-8(2)),那么平均数大于中位数;如果直方图在左边“拖尾”(图9.2-8(3)),?那么平均数小于中位数,也就是说,和中位数相比平均数总是在‘长尾巴’那边.
在频率分布直方图中,我们无法知道每个组内的数据是如何分布的.此时,通常假设它们在组内均匀分布.这样就可以获得样本的平均数、中位数和众数的近似估计,进而估计总体的平均数、中位数和众数.
总体离散趋势的估计
假设一组数据是,,?..?,用表示这组数据的平均数,则
这组数据的方差.有时为了计算方差的方差,我们还把方差写成以下形式
由于方差的单位是原始数据的单位的平方,与原始数据不一致.为了使二者单位一致,我们对方差开平方,取它的算术平方根,即
(2)
我们称(2)式为这组数据的标准差.
如果总体中所有个体的变量值分别为总体平均数为,则称
为总体方差,S=为总体标准差.
与总体均值类似,总体方差也可以写成加权的形式。如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为,?其中;出现的频数为(i=1,?2,?.?k),则总体方差为
如果一个样本中个体的变量值分别为样本平均数为则称
为样本方差,s=?为样本标准差.
1.某“双一流
类”大学就业部从该校2018年已就业的大学本科毕业生中随机抽取了100人进行问卷调查,其中一项是他们的月薪收入情况,调查发现,他们的月薪收入在人民币1.65万元到2.35万元之间,根据统计数据分组,得到如下的频率分布直方图:
(1)将同一组数据用该区间的中点值作代表,求这100人月薪收入的样本平均数
;
(2)该校在某地区就业的2018届本科毕业生共50人,决定于2019国庆长假期间举办一次同学联谊会,并收取一定的活动费用,有两种收费方案:
方案一:设区间
,月薪落在区间
左侧的每人收取400元,月薪落在区间
内的每人收取600元,月薪落在区间
右侧的每人收取800元;
方案二:每人按月薪收入的样本平均数的3%收取;
用该校就业部统计的这100人月薪收入的样本频率进行估算,哪一种收费方案能收到更多的费用?
【答案】
(1)解:这100人月薪收入的样本平均数
是
(2)解:方案一:月薪落在区间
左侧收活动费用约为
(万元);
月薪落在区间
收活动费用约为
(万元);
月薪落在区间
右侧收活动费用约为
(万元);
因此方案一,这50人共收活动费用约为3.01(万元);
方案二:这50人共收活动费用约为
(万元);
故方案一能收到更多的费用
【考点】频率分布直方图
【解析】(1)根据题意由频率直方图的数据结合平均数的公式代入数值计算出结果即可。
(2)
根据题意求出方案一和方案二的活动费用,比较后即可得出结论。
2.某市民用水拟实行阶梯水价,每人用水量中不超过
立方米的部分按4元/立方米收费,超出
立方米的部分按10元/立方米收费,从该市随机调查了10000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:
(1)如果
为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,
至少定为多少?
(2)假设同组中的每个数据用该组区间的右端点值代替,当
时,估计该市居民该月的人均水费.
【答案】
(1)解:由用水量的频率分布直方图知,
该市居民该月用水量在区间
内的频率依次为
.
所以该月用水量不超过
立方米的居民占
,用水量不超过
立方米的居民占
.依题意,
至少定为
(2)解:由用水量的频率分布直方图及题意,得居民该月用水费用的数据分组与频率分布表:
组号
1
2
3
4
5
6
7
8
分组
频率
0.1
0.15
0.2
0.25
0.15
0.05
0.05
0.05
根据题意,该市居民该月的人均水费估计为:
(元).
【考点】频率分布直方图,众数、中位数、平均数
【解析】(1)利用用水量的频率分布直方图结合各小组的矩形的面积等于各小组的频率,从而求出该市居民该月用水量在区间
内的频率,
所以该月用水量不超过
立方米的居民占
,用水量不超过
立方米的居民占
,依题意,
至少定为3。
(2)
由用水量的频率分布直方图及题意,得居民该月用水费用的数据分组与频率分布表
,进而利用频率分布表求平均数的方法,从而估计出该市居民该月的人均水费。
3.为了践行习总书记提出的“绿水青山就是金山银山,坚持人与自然和谐共生”的理念,我市在经济速发展同时,更注重城市环境卫生的治理,经过几年的治理,市容市貌焕然一新,为了调查市民对城区环境卫生的满意程度,研究人员随机抽取了1000名市民进行调查,并将满意程度统计成如图所示的频率分布直方图,其中
?
?
(1)求
的值;
(2)若按照分层抽样的方式从
中随机抽取5人,再从这5人中随机抽取2人,求至少有1人的分数在
,
的概率.
【答案】
(1)解:由频率分布直方图得:
,
,
又
,
解得
,
.
(2)解:
,
,
,
两段频率比为
,
按照分层抽样的方式从
,
,
,
中随机抽取5人,
分数在
,
中抽取2人,记为
,
,
分数在
,
中抽取3人,记为
,
,
,
从这5人中随机抽取2人的所有情况为:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,共10个,
其中,至少有1人的分数在
,
包含的基本事件有7个,
至少有1人的分数在
,
的概率
.
【考点】分层抽样方法,频率分布直方图
【解析】(1)由频率分布直方图列出方程组,由此能求出
.(2)
两段频率比为
,按照分层抽样的方式从
中随机抽取5人,分数在
中抽取2人,记为
,分数在
中抽取3人,记为
,
,
,从这5人中随机抽取2人,利用列举法能求出至少有1人的分数在
的概率.
4.某城市在进行创建文明城市的活动中,为了解居民对“创文”的满意程度,组织居民给活动打分(分数为整数.满分为100分).从中随机抽取一个容量为120的样本.发现所有数据均在
内.现将这些分数分成以下6组并画出了样本的频率分布直方图,但不小心污损了部分图形,如图所示.观察图形,回答下列问题:
(1)算出第三组
的频数.并补全频率分布直方图;
(2)请根据频率分布直方图,估计样本的众数、中位数和平均数.(每组数据以区间的中点值为代表)
【答案】
(1)解:因为各组的频率之和等于1,所以分数在
内的频率为:
,
所以第三组
的额数为
(人).完整的频率分布直方图如图.
(2)解:因为众数的估计值是频率分布直方图中最高矩形的中点,从图中可看出众数的估计值为75分.
由题得左边第一个矩形的面积为0.05,第二个矩形的面积为0.15,第三个矩形的面积为0.15,第四个矩形的面积为0.3,所以中位数在第四个矩形里面,设中位数为x,
则0.05+0.15+0.15+(x-70)×0.03=0.5,
所以x=75.所以中位数为75.
又根据频率分布直方图,样本的平均数的估计值为:
(分).
所以样本的众数为75分,中位数为75分,平均数为73.5分.
【考点】频率分布直方图,众数、中位数、平均数
【解析】(1)先求出分数在
内的频率,再求第三组
的频数,补全频率分布直方图;(2)利用频率分布直方图中的众数、中位数和平均数的求解方法求解即可.
1.某校高三年级的全体学生参加体育测试,成绩的频率分布直方图如图,数据的分组依次为:
,
,
,
.若低于60分的人数是90,则该校高三年级的学生人数是(???
)
A.?270??????????????????????????????????????B.?300??????????????????????????????????????C.?330??????????????????????????????????????D.?360
2.某高中为了解学生课外知识的积累情况,随机抽取200名同学参加课外知识测试,测试共5道题,每答对一题得20分,答错得0分.已知每名同学至少能答对2道题,得分不少于60分记为及格,不少于80分记为优秀,测试成绩百分比分布图如图所示,则下列说法正确的是(???
)
A.?该次课外知识测试及格率为90%
B.?该次课外知识测试得满分的同学有30名
C.?该次测试成绩的中位数大于测试成绩的平均数
D.?若该校共有3000名学生,则课外知识测试成绩能得优秀的同学大约有1440名
3.已知某地区中小学生人数和近视情况分别如图1和图2所示.为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取
的学生进行调查,则样本容量和抽取的初中生近视人数分别为(???
)
????
A.?100,90????????????????????????????B.?200,27????????????????????????????C.?200,20????????????????????????????D.?200,90
4.一个容量为
的样本数据分组后组数与频数如下:[25,25.3),6;[25.3,25.6),4;[25.6,25.9),10;[25.9,26.2),8;[26.2,26.5),8;[26.5,26.8),4;则样本在[25,25.9)上的频率为(
??)
A.????????????????????????????????????????B.????????????????????????????????????????C.????????????????????????????????????????D.?
参考答案
1.【答案】
B
【解析】
根据频率分布直方图可得低于60分的频率为:
,
故高三年级的总人数为
。
2.【答案】
C
【解析】
由图知,及格率为
,A不符合题意.
该测试满分同学的百分比为
,即有
名,B不符合题意.
由图知,中位数为80分,平均数为
分,C符合题意.
由题意,3000名学生成绩能得优秀的同学有
,D不符合题意.
3.【答案】
B
【解析】
由图甲可知,学生总数为
(人),
故抽取的样本容量为
(人),
其中抽取的初中学生有
(人);
由图乙可知,初中生近视率为
,
∴抽取的初中生近视人数为
(人).
4.【答案】
C
【解析】
∵[25,25.9]包括[25,25.3],频数为6;[25.3,25.6],频数为4;[25.6,25.9],频数为10;三组数据,因此频数共6+4+10=20,则频率为
.