1285875-3028959.2 用样本估计总体
9.2 用样本估计总体
总体取值规律的估计
为了探索-组数据的取值规律,一般先要用表格对数据进行整理,或者用图将数据直观表示出来.在初中,我们曾用频数分布表和频数分布图来整理和表示这种数值型数据,由此能使我们清楚地知道数据分布在各个小组的个数.
在这个实际问题中,因为我们更关心月均用水量在不同范围内的居民用户占全市居民用户的比例,所以选择频率分布表和频率分布直方图来整理和表示数据.与画频数分布直方图类似,我们可以按以下步骤制作频率分布表、画频率分布直方图.
1.求极差
极差式一组数据中最大值与最小值的差
2.决定组距与组数
合适的组距与组数对发现数据分布规律有重要意义.组数太多或太少,都会影响我们了解数据的分布情况组距与组数的确定没有固定的标准,常常需要-一个尝试和选择的过?程。数据分组的组数与数据的个数有关,:一般数据的个数越多,所分组数也越多.
3.将数据分组
4.列频率分布表
5.画频率分布直方图
小长方形的面积=组距×false
总体百分位数的估计
把100个样本数据按从小到大排序,得到第80个和第81个数据分别为13.6和13.8.可以发现,区间(13.6,?13.8)内的任意一个数,都能把样本数据分成符合要求的两部分.一般地,我们取这两个数的平均数false=13.7,并称此数为这组数据的第80百分位数,或80%分位数.
一般地,一组数据的第p百分位数是这样-一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且少有(100-p)%的数据大于或等于这个值.
可以通过下面的步骤计算一组n个数据的第力百分位数:
第1步,按从小到大排列原始数据.
第2步,计算i=n×p%.
第3步,若i不是整数,而大于i的比邻整数为j,则第力百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
总体集中趋势的估计
(1)平均数:如果给定的一组数是 , ,… ,则这组数的平均数为
false即false
(2)中位数:如果一组数有奇数个数,且按照从小到大排列后为false则称false为这组数的中位数;如果一组数有偶数个数,且按照从小到大排列后为false则称false为这组数的中位数
(3)众数:一组数据中,某个数据出现的次数称为这个数据的频数,出现次数最多的数据称为这组数据的众数,若一组数据中,每个数据出现的次数一样多,则认为这组数据没有众数
例1.为庆祝中国共产党成立100周年,某校开展“唱红色歌曲,诵红色经典”歌咏比赛活动,甲、乙两位选手经历了7场初赛后进入决赛,他们的7场初赛成绩如下面茎叶图所示.以下结论正确的是( )
A.乙成绩的极差比甲成绩的极差小
B.甲成绩的众数比乙成绩的中位数大
C.乙成绩的方差比甲成绩的方差小
D.甲成绩的平均数比乙成绩的平均数小
【答案】D
【解析】由茎叶图中的数据,可知甲的极差为false,乙的极差为false,
所以乙成绩的极差比甲成绩的极差大,所以A不正确;
由甲成绩的众数为false分,乙成绩的中位数为false分,可得甲成绩的众数比乙成绩的中位数小,所以B不正确;
由根据茎叶图的数据的分布规律,可判定甲成绩的数据更集中,乙成绩的数据更离散,
所以甲成绩的方差比乙成绩的方差小,所以C不正确;
由平均数的计算公式,可得甲成绩的平均数为false分,
乙成绩的平均数为false分,
所以甲成绩的平均数比乙成绩的平均数小,所以D正确.
故选:D.
例2.某超市计划按月订购一种冷饮,根据往年销售经验,每天需求量与当天最高气温(单位:false)有关.如果最高气温不低于false,需求量为false瓶;如果最高气温位于区间false(单位:false)内,需求量为false瓶;如果最高气温低于false,需求量为false瓶.为了确定false月份的订购计划,统计了前三年false月份各天的最高气温数据,得到下面的频数分布表:
最高气温
false
false
false
false
false
天数
false
false
false
false
false
将最高气温位于各区间的频率视为最高气温位于该区间的概率,若false月份这种冷饮一天的需求量不超过false瓶的概率估计值为false,则false( )
A.false B.false C.false D.false
【答案】B
【解析】这种冷饮一天的需求量不超过false瓶,当且仅当最高气温低于false,
由表格数据可知,最高气温低于false的频率为false,
所以,false月份这种冷饮一天的需求量不超过false瓶的概率估计值为false,故false.
故选:B.
1.江西省重点中学协作体于2020年进行了一次校际数学竞赛,共有100名同学参赛,经过评判,这100名参赛者的得分都在false之间,其得分的频率分布直方图如图,则下列结论错误的是( )
A.得分在false之间的共有40人
B.从这100名参赛者中随机选取1人,其得分在false的概率为0.5
C.这100名参赛者得分的中位数为65
D.可求得false
2.2020年广东12月份天气预报历史记录中1号至8号的数据如表所示,则( )
日期
最高气温/false
最低气温/false
12月1日
23
14
12月2日
23
13
12月3日
20
11
12月4日
19
10
12月5日
21
9
12月6日
21
15
12月7日
23
12
12月8日
23
11
A.这8天的最高气温的极差为false B.这8天的最高气温的中位数为false
C.这8天的最低气温的极差为false D.这8天的最低气温的中位数为false
3.为了解学生课外阅读的情况,随机统计了false名学生的课外阅读时间,所得数据都在false中,其频率分布直方图如图所示.已知在false中的频数为100,则false的值是( )
A.500 B.1000 C.10000 D.25000
4.人口普查是世界各国所广泛采用的搜集人口资料的一种科学方法,是提供全国基本人口数据的主要来源.根据人口普查的基本情况,可以科学的研究制定社会、经济、科教等各项发展政策,是国家科学决策的重要基础工作,人口普查资料是制定人口政策的依据和前提.截止2020年10月10日,我国共进行了六次人口普查,下图是这六次人口普查的人数和增幅情况,下列说法正确的是( )
A.人口数逐次增加,第二次增幅最大 B.第六次普查人数最多,第四次增幅最小
C.第六次普查人数最多,第三次增幅最大 D.人口数逐次增加,从第二次开始增幅减小
5.为落实《国家学生体质健康标准》达标测试工作,全面提升学生的体质健康水平,某校高二年级体育组教师在高二年级随机抽取部分男生,测试了立定跳远项目,依据测试数据绘制了如图所示的频率直方图.已知立定跳远false以上成绩为合格,false以上成绩为优秀,根据图中的数据估计该校高二年级男生立定跳远项目的合格率和图中的false分别是( ).
A.94%,0.010 B.97%,0.010 C.94%,0.013 D.97%,0.013
6.某学校举办班级间篮球比赛,甲、乙两班得分情况如茎叶图所示,甲、乙两班得分的中位数分别是x甲,x乙,则下列说法正确的是( )
A.false,甲比乙成绩稳定
B.false,乙比甲成绩稳定
C.false,甲比乙成绩稳定
D.false,乙比甲成绩稳定
7.已知一组数据false的平均数为false,则false的值是_________________.
8.已知某社区的家庭年收入的频率分布如下表所示,可以估计该社区内家庭的平均年收入为__________万元.
家庭年收入
(以万元为单位)
false
false
false
false
false
false
频率false
0.2
0.2
0.2
0.26
0.07
0.07
9.2020年11月24日我国使用长征五号运载火箭成功发射嫦娥五号月球探测器,12月17日嫦娥五号返回器携带月球样品在预定地区安全着陆,探月工程嫦娥五号任务取得圆满成功.某大学为此举行了与嫦娥系列探测工程有关的知识测试,测试满分为false分,该校某专业的false名大一学生参加了学校举行的测试,记录这false名学生的分数,将数据分成false组; false,并整理得到如下频率分布直方图:
(1)估计这false名学生测试分数的中位数;
(2)把分数不低于false分的称为优秀,已知这false名学生中男生有false人,其中测试优秀的男生有false人,填写下面列联表,并根据列联表判断是否有false的把握认为测试优秀与性别有关:
男生
女生
优秀
不优秀
附:
false
false
false
false
false
false
false
false
false
(3)对于样本中分数在false的人数,学校准备按比例从这false组中抽取false人,在从这false人中随机抽取false人参与学校有关的宣传活动,记这false人分数不低于false分的学生数为false求false的分布列.
10.2020年初,新冠病毒肆虐.疫情期间,停课不停教学,各学校以网课形式进行教学.教育局抽样对某所学校的高三1000名学生某一周每天学习时间以及考试进行了调查,得如下频数分布表
学习时间(分钟)
false
false
false
false
false
false
人数
160
190
200
180
150
120
从1000名学生中抽取50名学生,调查学习时间与成绩的关系,得如下二阶列联表
学习时间9小时以上(含9小时)
学习时间9小时以下
合计
总分600分以上(含600分)
7
3
10
总分600分以下
17
23
40
合计
24
26
50
(1)求出第一星期这1000名学生学习时间的中位数;
(2)为了解学生们的学习状况,一次考试结束,从全年级随机抽取50人根据学习时间的多少和成绩的是否优秀列成以下列联表
计算说明:有没有90%的把握认为总分600分以上和学习时间超过9小时有关
附公式及表如下:false
false
0.15
0.10
0.05
0.025
0.010
0.005
0.001
false
2.072
2.706
3.841
5.024
6.635
7.879
10.828
1.C
【解析】由频率分布直方图,可得
A中,得分在false之间共有false人,所以A正确;
B中,从100名参赛者中随机选取1人,
其得分在false中的概率为false,所以B正确;
D中,由频率分布直方图的性质,可得false,
解得false,所以D正确.
C中,前2个小矩形面积之和为0.4,前3个小矩形面积之和为0.7,所以中位数在[60,70],这100名参赛者得分的中位数为false,所以C不正确;
故选:C.
2.D
【解析】这8天的最高气温的极差为false,这8天的最高气温的中位数为false,这8天的最低气温的极差为false,这8天的最低气温的中位数为false,故选:D.
3.B
【解析】由图可得在false中的频率为false,
所以false,
故选:B.
4.C
【解析】A.人口数逐次增加,第三次增幅最大,故错误;
B.第六次普查人数最多,第六次增幅最小,故错误;
C.第六次普查人数最多,第三次增幅最大,故正确;
D.人口数逐次增加,从第三次开始增幅减小,故错误;
故选:C
5.A
【解析】由频率分布直方图可知合格率是false,
false,
解得:false
故选:A
6.C
【解析】甲班得分情况从小到大排列为:false,其中位数false;
乙班得分情况从小到大排列为:false,其中位数false,
所以false,
又因为乙的叶呈多峰;而甲的叶呈单峰,所以乙的方差比甲的大,所以甲比乙稳定.
故选:C.
7.false
【解析】由题意得false,
解得false.
故答案为:2
8.6.51
【解析】由表格数据知:家庭的平均年收入false万元.
故答案为:false.
9.(1)82.5;(2)列联表见解析,没有false的把握认为测试优秀与性别有关;(3)答案见解析.
【解析】false设这false名学生测试分数的中位数为false,由前5组频率之和为false前6组频率之和为false
可得false
所以false.
false列联表如下:
男生
女生
优秀
false
false
不优秀
false
false
false
所以没有false的把握认为测试优秀与性别有关.
false由题意可知,false人中分数在false内的共有false人,分数不低于false分的学生有false人,
false的取值依次为false.
false
false
false
false
所以false的分布列为
false
false
false
false
false
false
false
false
false
false
false
10.(1)false(小时);(2)没有.
【解析】解:(1)因为学习时间在false的频率为false,学习时间在false的频率为false,学习时间在false的频率为false,
所以中位数在false中,设中位数为false,则
false,解得false,
所以中位数为false(小时)
(2)false.
故没有90%把握认为总分600分以上和学习时间超过9小时有关,