2.2.1 用样本的频率分布估计总体的分布
预习课本P58~63,思考并完成以下问题
(1)如何作频率分布表?
(2)绘制频率分布直方图时,应如何确定组距与组数?
(3)频率分布直方图及总体密度曲线各有什么特点?
(4)茎叶图有什么特点?
1.频率分布表
当总体容量很大或不便获得时,可以用样本的频率分布估计总体的分布,我们把反映总体的分布的表格称为频率分布表.
2.频率分布直方图
以横轴表示数据,以纵轴表示频率与组距的比值,以组距为底边长,以各频率除以组距的商为高,分别画成小长方形,这样得到的直方图就是频率分布直方图,图中各个小长方形的面积就等于相应各组的频率,即小长方形面积=×组距=频率.
3.总体密度曲线
连接频率分布直方图中各小长方形上边的中点,就得到频率分布折线图.设想样本容量不断增大,分组的组距不断缩小,相应的频率分布折线图就会越来越接近于一条光滑的曲线,统计中称之为总体密度曲线,它能够更加精细地反映出一个总体在各个区域内取值的规律.
4.茎叶图
当样本数据较少时,用茎叶图表示数据的效果较好,它有两个突出的优点:
一是从统计图上没有原始信息的损失,所有的数据信息都可以从茎叶图中得到;
二是茎叶图可以在比赛中随时记录,方便记录与表示.
1.下列说法不正确的是( )
A.频率分布直方图中每个小矩形的高就是该组的频率
B.频率分布直方图中各个小矩形的面积之和等于1
C.频率分布直方图中各个小矩形的宽一样大
D.频率分布折线图是依次连接频率分布直方图的每个小矩形上边的中点得到的
解析:选A 频率分布直方图中每个小矩形的高=.
2.某班学生在一次数学考试中各分数段以及人数的成绩分布为:
[0,80),2人;[80,90),6人;[90,100),4人;[100,110),10人;[110,120),12人;[120,130),5人;[130,140),4人;[140,150],2人.那么分数在[100,130)中的频数以及频率分别为( )
A.27,0.56 B.20,0.56
C.27,0.60 D.13,0.29
解析:选C 由[100,130)中的人数为10+12+5=27,得频数为27,频率为=0.60.
3.如图是甲、乙两名运动员某赛季一些场次得分的茎叶图,据图可知( )
A.甲运动员的成绩好于乙运动员
B.乙运动员的成绩好于甲运动员
C.甲、乙两名运动员的成绩没有明显的差异
D.甲运动员的最低得分为0分
解析:选A 由茎叶图可以看出甲的成绩都集中在30~50分,且高分较多.而乙的成绩只有一个高分52分,其他成绩比较低,故甲运动员的成绩好于乙运动员的成绩.
4.为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:cm),所得数据均在区间[80,130]上,其频率分布直方图如图所示,则在抽测的60株树木中,有________株树木的底部周长小于100 cm.
解析:60×(0.015+0.025)×10=24.
答案:24
列频率分布表、画频率分布直方图
[典例] 为了解中学生的身高状况,对育才中学同龄的50名男生的身高进行了测量,结果如下(单位:cm):
175 168 170 176 167 181 162 173 171 177
171 171 174 173 174 175 177 166 163 160
166 166 163 169 174 165 175 165 170 158
174 172 166 172 167 172 175 161 173 167
170 172 165 157 172 173 166 177 169 181
(1)列出频率分布表;
(2)绘制频率分布直方图.
[解] 极差为181-157=24,将样本数据分成7组,则组距为4.
(1)列频率分布表为:
分组
频数
频率
[156.5,160.5)
3
0.06
[160.5,164.5)
4
0.08
[164.5,168.5)
12
0.24
[168.5,172.5)
13
0.26
[172.5,176.5)
13
0.26
[176.5,180.5)
3
0.06
[180.5,184.5]
2
0.02
合计
50
1
(2)绘制频率分布直方图如图:
绘制频率分布直方图的注意事项
(1)计算极差,需要找出这组数的最大值和最小值,当数据很多时,可选一个数当参照.
(2)将一批数据分组,目的是要描述数据分布规律,要根据数据多少来确定分组数目,一般来说,数据越多,分组越多.
(3)将数据分组,决定分点时,一般使分点比数据多一位小数,并且把第一组的起点稍微减小一点.
(4)列频率分布表时,可通过逐一判断各个数据落在哪个小组内,以“正”字确定各个小组内数据的个数.
(5)画频率分布直方图时,纵坐标表示频率与组距的比值,一定不能标成频率.
[活学活用]
从高三学生中抽取50名同学参加数学竞赛,成绩的分组及各组的频数如下(单位:分):[40,50),2;[50,60),3;[60,70),10;[70,80),15;[80,90),12;[90,100],8.
(1)列出样本的频率分布表;
(2)画出频率分布直方图.
解:(1)频率分布表如下表所示.
分组
频数
频率
[40,50)
2
0.04
[50,60)
3
0.06
[60,70)
10
0.20
[70,80)
15
0.30
[80,90)
12
0.24
[90,100]
8
0.16
合计
50
1.00
(2)频率分布直方图如图所示.
频率分布直方图的应用
[典例] 为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图),图中从左到右各小长方形面积之比为2∶4∶17∶15∶9∶3,第二小组频数为12.
(1)第二小组的频率是多少?样本容量是多少?
(2)若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少?
[解] (1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小,因此第二小组的频率为:
=0.08.
又因为第二小组的频率=,
所以样本容量===150.
(2)由题意估计该学校高一学生的达标率约为×100%=88%.
解决与频率分布直方图有关问题的关系式
(1)×组距=频率.
(2)=频率,此关系式的变形为=样本容量,样本容量×频率=频数.
[活学活用]
(湖北高考)某电子商务公司对10 000名网络购物者2014年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示.
(1)直方图中的a=________;
(2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为________.
解析:(1)由0.1×1.5+0.1×2.5+0.1a+0.1×2.0+0.1×0.8+0.1×0.2=1,解得a=3.
(2)区间[0.3,0.5)内的频率为0.1×1.5+0.1×2.5=0.4,故[0.5,0.9]内的频率为1-0.4=0.6.
因此,消费金额在区间[0.5,0.9]内的购物者的人数为0.6×10 000=6 000.
答案:(1)3 (2)6 000
茎 叶 图
[典例] 甲、乙两个班级各随机选出15名同学进行测验,成绩的茎叶图如图所示(单位:分),则甲班、乙班的最高成绩分别是________,从图中看,________班的平均成绩较高.
[解析] 由茎叶图知甲班的最高成绩为96分,乙班的最高成绩为92分,再根据茎叶图的分布特点知,乙班的成绩分布集中在下面,故乙班的平均成绩较高.
[答案] 96,92 乙
(1)绘制茎叶图关键是分清茎和叶.一般地说,当数据是两位数时,十位上的数字为“茎”,个位上的数字为“叶”;如果是小数,通常把整数部分作为“茎”,小数部分作为“叶”.解题时要根据数据的特点合理地选择茎和叶.
(2)应用茎叶图对两组数据进行比较时,要从数据分布的对称性、中位数、稳定性等几方面来比较.
(3)茎叶图只适用于样本数据较少的情况.
[活学活用]
如图是2016年青年歌手大奖赛中七位评委为甲、乙两名选手打出的分数的茎叶图(图中m为数字0~9中的一个),去掉一个最高分和一个最低分后,甲、乙两名选手得分的平均数分别为a1,a2,则一定有( )
A.a1>a2 B.a2>a1
C.a1=a2 D.a1,a2的大小与m的值有关
解析:选B 根据茎叶图可知,
去掉一个最高分和一个最低分后,
甲的平均分为a1=80+=84,
乙的平均分为a2=80+=85,
故a2>a1.
[层级一 学业水平达标]
1.已知样本10,8,10,8,6,13,11,10,12,7,9,8,12,9,11,12,9,10,11,10,那么频率为0.2的范围是( )
A.5.5~7.5 B.7.5~9.5
C.9.5~11.5 D.11.5~13.5
解析:选D 共20个数据,频率为0.2,在此范围内的数据有4个,只有在11.5~13.5范围内有4个数据:13,12,12,12,故选D.
2.为了解某校教师使用多媒体进行教学的情况,采用简单随机抽样的方法,从该校400名授课教师中抽取20名,调查了他们上学期使用多媒体进行教学的次数,结果用茎叶图表示如图.据此可估计该校上学期400名教师中,使用多媒体进行教学次数在[16,30)内的人数为( )
A.100 B.160
C.200 D.280
解析:选B 由茎叶图可知在20名教师中,上学期使用多媒体进行教学的次数在[16,30)内的人数为8,据此可以估计400名教师中,使用多媒体进行教学次数在[16,30)内的人数为×8=160.
3.某校100名学生的数学测试成绩频率分布直方图如图所示,分数不低于a(a为整数)即为优秀,如果优秀的人数为20人,则a的估计值是____________.
解析:由已知可以判断a∈(130,140),所以[(140-a)×0.015+0.01×10]×100=20.解得a≈133.
答案:133
4.如图茎叶图表示的是甲、乙两人在5次综合测评中的成绩,其中一个数字被污损,若乙的平均分是89,则污损的数字是________.
解析:设污损的叶对应的成绩是x,由茎叶图可得89×5=83+83+87+x+99,所以x=93,故污损的数字是3.
答案:3
[层级二 应试能力达标]
1.为了解某地区高一学生的身体发育情况,抽查了该地区100名年龄为17.5岁~18岁的男生体重(kg),得到频率分布直方图(如图所示).
可得这100名学生中体重在[56.5,64.5)的学生人数是( )
A.20 B.30
C.40 D.50
解析:选C 由频率分布直方图易得到体重在[56.5,64.5)的学生的频率为(0.03+0.05+0.05+0.07)×2=0.4,那么学生的人数为100×0.4=40,故选C.
2.下列关于茎叶图的叙述正确的是( )
A.茎叶图可以展示未分组的原始数据,它与频率分布表以及频率分布直方图的处理方式不同
B.对于重复的数据,只算一个
C.茎叶图中的叶是“茎”十进制的上一级单位
D.制作茎叶图的程序是:第一步:画出茎;第二步:画出叶;第三步:将“叶子”任意排列
解析:选A 由茎叶图的概念知A正确,故选A.
3.为了解电视对生活的影响,一个社会调查机构就平均每天看电视的时间调查了某地10 000位居民,并根据所得数据画出样本的频率分布直方图(如图),为了分析该地居民平均每天看电视的时间与年龄、学历、职业等方面的关系,要从这10 000位居民中再用分层抽样抽出100位居民做进一步调查,则在[2.5,3)(小时)时间段内应抽出的人数是( )
A.25 B.30
C.50 D.75
解析:选A 抽出的100位居民中平均每天看电视的时间在[2.5,3)(小时)时间内的频率为0.5×0.5=0.25,所以这10 000位居民中平均每天看电视的时间在[2.5,3)(小时)时间内的人数是10 000×0.25=2 500.依题意知抽样比是=,则在[2.5,3)(小时)时间段内应抽出的人数是2 500×=25.
4.某工厂对一批元件进行抽样检测.经检测,抽出的元件的长度(单位:mm)全部介于93至105之间.将抽出的元件的长度以2为组距分成6组:[93,95),[95,97),[97,99),[99,101),[101,103),[103,105],得到如图所示的频率分布直方图.若长度在[97,103)内的元件为合格品,根据频率分布直方图,估计这批元件的合格率是( )
A.80% B.90%
C.20% D.85.5%
解析:选A 由频率分布直方图可知元件长度在[97,103)内的频率为1-(0.027 5+0.027 5+0.045 0)×2=0.8,故这批元件的合格率为80%.
5.某地为了了解该地区10 000户家庭的用电情况,采用分层抽样的方法抽取了500户家庭的月平均用电量,并根据这500户家庭的月平均用电量画出频率分布直方图如图所示,则该地区10 000户家庭中月平均用电度数在[70,80)的家庭有________户.
解析:根据频率分布直方图得该地区10 000户家庭中月平均用电度数在[70,80)的家庭有10 000×0.012×10=1 200(户).
答案:1 200
6.在样本的频率分布直方图中,共有8个小长方形,若最后一个小长方形的面积等于其他7个小长方形的面积和的,且样本容量为200,则第8组的频数为________.
解析:设最后一个小长方形的面积为x,则其他7个小长方形的面积为4x,从而x+4x=1,所以x=0.2.故第8组的频数为200×0.2=40.
答案:40
7.某中学甲、乙两名同学最近几次的数学考试成绩情况如下:
甲得分:95,81,75,89,71,65,76,88,94,110,107;
乙得分:83,86,93,99,88,103,98,114,98,79,101.
画出两人数学成绩的茎叶图,并根据茎叶图对两人的成绩进行比较.
解:甲、乙两人数学成绩的茎叶图如图所示.从这个茎叶图上可以看出,乙同学的得分情况是大致对称的,大多集中在80~100之间,中位数是98分.甲同学的得分情况除一个特殊得分外,也大致对称,多集中在70~90之间,中位数是88分,但分数分布相对于乙来说,趋向于低分阶段.因此,乙同学发挥比较稳定,总体得分情况比甲同学好.
8.在学校开展的综合实践活动中,某班进行了小制作评比,作品上交时间为5月1日至30日,评委会把同学们上交作品的件数按5天一组分组统计,绘制了频率分布直方图(如图所示).已知从左到右各长方形的高的比为2∶3∶4∶6∶4∶1,第三组的频数为12,请解答下列问题:
(1)本次活动共有多少件作品参加评比?
(2)哪组上交的作品数最多?有多少件?
(3)经过评比,第四组和第六组分别有10件、2件作品获奖,问这两组哪组获奖率较高?
解:(1)依题意知第三组的频率为=,又因为第三组的频数为12,∴本次活动的参评作品数为=60(件).
(2)根据频率分布直方图,可以看出第四组上交的作品数量最多,共有60×=18(件).
(3)第四组的获奖率是=,
第六组上交的作品数量为60×=3(件).
∴第六组的获奖率为=,显然第六组的获奖率较高.
课件31张PPT。
“层级二 应试能力达标”见“课时跟踪检测(十二)”
(单击进入电子文档)
课时跟踪检测(十二) 用样本的频率分布估计总体的分布
1.为了解某地区高一学生的身体发育情况,抽查了该地区100名年龄为17.5岁~18岁的男生体重(kg),得到频率分布直方图(如图所示).
可得这100名学生中体重在[56.5,64.5)的学生人数是( )
A.20 B.30
C.40 D.50
解析:选C 由频率分布直方图易得到体重在[56.5,64.5)的学生的频率为(0.03+0.05+0.05+0.07)×2=0.4,那么学生的人数为100×0.4=40,故选C.
2.下列关于茎叶图的叙述正确的是( )
A.茎叶图可以展示未分组的原始数据,它与频率分布表以及频率分布直方图的处理方式不同
B.对于重复的数据,只算一个
C.茎叶图中的叶是“茎”十进制的上一级单位
D.制作茎叶图的程序是:第一步:画出茎;第二步:画出叶;第三步:将“叶子”任意排列
解析:选A 由茎叶图的概念知A正确,故选A.
3.为了解电视对生活的影响,一个社会调查机构就平均每天看电视的时间调查了某地10 000位居民,并根据所得数据画出样本的频率分布直方图(如图),为了分析该地居民平均每天看电视的时间与年龄、学历、职业等方面的关系,要从这10 000位居民中再用分层抽样抽出100位居民做进一步调查,则在[2.5,3)(小时)时间段内应抽出的人数是( )
A.25 B.30
C.50 D.75
解析:选A 抽出的100位居民中平均每天看电视的时间在[2.5,3)(小时)时间内的频率为0.5×0.5=0.25,所以这10 000位居民中平均每天看电视的时间在[2.5,3)(小时)时间内的人数是10 000×0.25=2 500.依题意知抽样比是=,则在[2.5,3)(小时)时间段内应抽出的人数是2 500×=25.
4.某工厂对一批元件进行抽样检测.经检测,抽出的元件的长度(单位:mm)全部介于93至105之间.将抽出的元件的长度以2为组距分成6组:[93,95),[95,97),[97,99),[99,101),[101,103),[103,105],得到如图所示的频率分布直方图.若长度在[97,103)内的元件为合格品,根据频率分布直方图,估计这批元件的合格率是( )
A.80% B.90%
C.20% D.85.5%
解析:选A 由频率分布直方图可知元件长度在[97,103)内的频率为1-(0.027 5+0.027 5+0.045 0)×2=0.8,故这批元件的合格率为80%.
5.某地为了了解该地区10 000户家庭的用电情况,采用分层抽样的方法抽取了500户家庭的月平均用电量,并根据这500户家庭的月平均用电量画出频率分布直方图如图所示,则该地区10 000户家庭中月平均用电度数在[70,80)的家庭有________户.
解析:根据频率分布直方图得该地区10 000户家庭中月平均用电度数在[70,80)的家庭有10 000×0.012×10=1 200(户).
答案:1 200
6.在样本的频率分布直方图中,共有8个小长方形,若最后一个小长方形的面积等于其他7个小长方形的面积和的,且样本容量为200,则第8组的频数为________.
解析:设最后一个小长方形的面积为x,则其他7个小长方形的面积为4x,从而x+4x=1,所以x=0.2.故第8组的频数为200×0.2=40.
答案:40
7.某中学甲、乙两名同学最近几次的数学考试成绩情况如下:
甲得分:95,81,75,89,71,65,76,88,94,110,107;
乙得分:83,86,93,99,88,103,98,114,98,79,101.
画出两人数学成绩的茎叶图,并根据茎叶图对两人的成绩进行比较.
解:甲、乙两人数学成绩的茎叶图如图所示.从这个茎叶图上可以看出,乙同学的得分情况是大致对称的,大多集中在80~100之间,中位数是98分.甲同学的得分情况除一个特殊得分外,也大致对称,多集中在70~90之间,中位数是88分,但分数分布相对于乙来说,趋向于低分阶段.因此,乙同学发挥比较稳定,总体得分情况比甲同学好.
8.在学校开展的综合实践活动中,某班进行了小制作评比,作品上交时间为5月1日至30日,评委会把同学们上交作品的件数按5天一组分组统计,绘制了频率分布直方图(如图所示).已知从左到右各长方形的高的比为2∶3∶4∶6∶4∶1,第三组的频数为12,请解答下列问题:
(1)本次活动共有多少件作品参加评比?
(2)哪组上交的作品数最多?有多少件?
(3)经过评比,第四组和第六组分别有10件、2件作品获奖,问这两组哪组获奖率较高?
解:(1)依题意知第三组的频率为=,又因为第三组的频数为12,∴本次活动的参评作品数为=60(件).
(2)根据频率分布直方图,可以看出第四组上交的作品数量最多,共有60×=18(件).
(3)第四组的获奖率是=,
第六组上交的作品数量为60×=3(件).
∴第六组的获奖率为=,显然第六组的获奖率较高.