用样本估计总体
【学习目标】
1.在表示样本数据的过程中,学会列频率分布表,画频率分布直方图、频率折线图和茎叶图.
2.通过实例体会频率分布直方图、频率折线图、茎叶图的各自特征,从而恰当地选择上述方法分析样本的分布,准确地做出总体估计.
3.正确理解样本数据标准差的意义和作用,学会计算数据的标准差.
4.能根据实际问题的需要合理地选取样本,从样本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解释.
5.会用样本的基本数字特征估计总体的基本数字特征.
【要点梳理】
要点一、频率分布的概念
频率分布是指一个样本数据在各个小范围内所占比例的大小.一般用频率分布直方图反映样本的频率分布.其一般步骤为:
1.计算一组数据中最大值与最小值的差,即求极差
2.决定组距与组数
3.将数据分组
4.列频率分布表
5.画频率分布直方图
要点诠释:
频率分布直方图的特征:
1.从频率分布直方图可以清楚的看出数据分布的总体趋势.
2.从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.
要点二、频率分布折线图、总体密度曲线
1.频率分布折线图的定义:
连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.
2.总体密度曲线的定义:
在样本频率分布直方图中,样本容量越大,所分组数越多,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.
要点诠释:
总体密度曲线能够精确地反映了总体在各个范围内取值的百分比,它能给我们提供更加精细的信息,能够精确的反映一个总体在各个区域内取值的规律.
要点三、茎叶图
当数据是两位有效数字时,用中间的数字表示十位数,即第一个有效数字,两边的数字表示个位数,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出来的叶子,因此通常把这样的图叫做茎叶图.
要点诠释:
茎叶图的特征:
(1)用茎叶图表示数据有两个优点:一是在统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录与表示.
(2)茎叶图只便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据,两个以上的数据虽然能够记录,但是没有表示两个记录那么直观,清晰.
要点四、众数、中位数与平均数
1.众数
一组数据中出现次数最多的数据叫做众数.如果变量是分类的,用众数是很有必要的.例如班委会要作出一项决定,考察全班同学对它赞成与否就可以用众数.
2.中位数
将一组数据从小到大依次排列,把中间数据(或中间两数据的平均数)叫做中位数.中位数把样本数据分成了相同数目的两部分.
3.平均数
样本数据的算术平均数,即.
要点诠释:
由于众数仅能刻画某一数据出现的次数较多,中位数对极端值不敏感,而平均数又受极端值左右,因此这些因素制约了仅依赖这些数字特征来估计总体数字特征的准确性.
要点五、标准差与方差
1.标准差
样本数据的标准差的算法:
(1)算出样本数据的平均数.
(2)算出每个样本数据与样本数据平均数的差:
(3)算出(2)中的平方.
(4)算出(3)中n个平方数的平均数,即为样本方差.
(5)算出(4)中平均数的算术平方根,,即为样本标准差.
其计算公式为:
2.方差
从数学的角度考虑,人们有时用标准差的平方(即方差)来代替标准差,作为测量样本数据分散程度的工具:
要点诠释:
在刻画样本数据的分散程度上,方差和标准差是一样的,但在解决实际问题时,一般多采用标准差.
数据的离散值程度可以用极差、方差或标准差来描述.极差反映了一组数据变化的幅度;样本方差描述了一组数据围绕平均数波动的大小;样本方差的算术根表示样本的标准差,它也描述了数据对平均数的离散程度.
【典型例题】
类型一:频率分布表、频率分布直方图
例1.(1)为了帮助班上的两名贫困生解决经济困难,班上的20名同学捐出了自己的零花钱,他们的捐款数(单位:元)如下:19,20,25,30,24,23,25,29,27,27,28,28,26,27,21,30,20,19,22,20.班主任老师准备将这组数据制成频率分布直方图,以表彰他们的爱心.制图时先计算最大值与最小值的差是______,若取组距为2,则应分成________组;若第一组的起点定为18.5,则在[26.5,28.5)内的频数为________.
(2)将容量为100的某个样本数据拆分为10组,若前七组的频率之和为0.79,而剩下的三组中频率依次相差0.05,则剩下的三组中频率最大的一组的频率为________.
【答案】(1)11 6 5 (2)0.12
【解析】(1)由题意知,极差为30-19=11;由于组距为2,则不是整数,所以取6组;捐款数落在[26.5,28.5)内的有27,27,28,28,27共5个,因此频数为5.
(2)设剩下的三组中频率最大的一组的频率为x,则另两组的频率分别为x-0.05,x-0.1.因为频率总和为1,所以有0.79+(x-0.05)+(x-0.1)+x=1,解得x=0.12,所以应填0.12.
【总结升华】此类题主要考查在应用频率分布来估计总体的过程中的相关计算问题,其中常用到的就是样本频率的计算:频率=,还要注意此公式的一些变形应用.
举一反三:
【变式1】如图是一容量为100的样本的频率分布直方图,试根据图形中的数据填空.
(1)样本数据落在[6,10)内的频率为________;
(2)样本数据落在[10,14)内的频数为________.
例2.对某电子元件进行寿命追踪调查,情况如下:
寿命/h
100~200
200~300
300~400
400~500
500~600
个数
20
30
80
40
30
(1)列出频率分布表;
(2)画出频率分布直方图;
(3)估计该电子元件寿命在100~400 h以内的占总体的比例;
(4)估计该电子元件寿命在400 h以上的在总体中占的比例.
【思路点拨】理解频率分布直方图的具体含义.
【解析】
(1)样本频率分布表如下:
寿命/h
频数
频率
100~200
20
0.10
200~300
30
0.15
300~400
80
0.40
400~500
40
0.20
500~600
30
0.15
合计
200
1
(2)频率分布直方图如下图所示;
/
(3)估计该电子元件寿命在100~400 h以内占总体的比例为65%;
(4)估计该电子元件寿命在400 h以上的在总体中占的比例为35%.
【总结升华】本题主要考查对频率分布直方图的理解,只有熟悉它的特征,才能清楚数据分布的总体趋势,根据直方图反映的信息正确解题.学生在理解频率分布直方图时,纵向坐标易错,往往理解成频率,而应该是频率/组距.
举一反三:
【变式1】某中学为了解学生数学课程的学习情况,在3000名学生中随机抽取200名,并统计这200名学生的某次数学考试成绩,得到了样本的频率分布直方图(如下图所示).根据频率分布直方图推测,这3000名学生在该次数学考试中成绩小于60分的学生数是________.
/
【变式2】在学校开展的综合实践活动中,某班进行了小制作评比,作品上交时间为5月1日至30日,评委会把同学们上交作品的件数按5天一组分组统计,绘制了频率分布直方图(如下图所示).已知从左到右各长方形的高的比为2∶3∶4∶6∶4∶1,第三组的频数为12,请解答下列问题:
/
(1)本次活动共有多少件作品参加评比?
(2)哪组上交的作品数最多?有多少件?
(3)经过评比,第四组和第六组分别有10件、2件作品获奖,问这两组哪组获奖率较高?
【答案】(1)60 (2)四组 18(3)六组
【解析】(1)依题意知第三组的频率为.
∵第三组的频数为12,
∴本次活动的参评作品数为件).
(2)根据频率分布直方图,可以看出第四组上交的作品数量最多,共有(件).
(3)第四组的获奖率是,
第六组上交的作品数量为(件),
∴第六组的获奖率为.
显然第六组的获奖率较高.
类型二:众数、中位数、平均数
例3.(2017年 福建永春县自主招生)从2013年5月29日开始的一周内,某地每天的最高气温依次是(单位:℃):30,30,34,33,33,31,33,求这7个数据的众数和中位数.
【答案】33,33
【解析】将数据从小到大排列为:30,30,31,33,33,33,34,
众数为33;
中位数为33.
举一反三:
【变式1】某射击手打靶10次,所中环数分别为7,8,7,9,9,9,10,6,9,5.求下列各特征数并加以解释:
(1)众数;(2)中位数;(3)平均数.
【解析】(1)众数是9.
众数是9,这说明该射击手每次射击射中9环的可能性较大.
(2)将10个数据按小到大的顺序排列有5,6,7,7,8,9,9,9,9,l 0.
中位数是.
中位数是8.5,这说明该射击手每次射击以8.5环为等分线,即射中0~8环和9~10环的可能性大体上相当.
(3)平均数是.
平均数是7.9,这说明该射击手每次射出的水平近似于8环.
类型三:方差、标准差
例4.甲、乙两台机床在相同的技术条件下,同时生产一种零件,现在从中抽测10个,它们的尺寸分别如下(单位:mm)
甲机床:
10.2 10.1 10.0 9.8 9.9
10.3 9.7 10.0 9.9 10.1
乙机床:
10.3 10.4 9.6 9.9 10.1
10.9 8.9 9.7 10.2 10.0
分别计算上面两个样本的平均数和方差.如图纸规定零件的尺寸为10 mm,从计算的结果来看哪台机床加工这种零件较合适?
【思路点拨】先分析甲、乙机床的平均数,若平均数基本接近,再考虑两机床的稳定程度.
【解析】
,
.
∴=0.03
?=0.06.
∴<
∴用甲机床比乙机床稳定,即用甲机床加工较合适.
举一反三:
【变式1】(2018春 吉林延边州期末)对甲、乙的学习成绩进行抽样分析,各抽5门功课,得到的观测值如下:
甲
60
80
70
90
70
乙
80
60
70
80
75
问:甲、乙谁的平均成绩好?谁的各门功课发展较平衡?
【答案】甲的平均成绩较好,乙的各门功课发展较平衡.
【解析】,
,
,
,
∵,,
∴甲的平均成绩较好,乙的各门功课发展较平衡.
类型四:茎叶图
例5.某赛季甲、乙两名篮球运动员每场比赛的得分情况如下:
甲的得分:12,15,24,25,31,31,36,36,37,39,44,49,50;
乙的得分:8,13,14,16,23,26,28,33,38,39,51.
(1)画出甲、乙两名运动员得分数据的茎叶图;
(2)根据茎叶图分析甲、乙两运动员的水平.
【思路点拨】茎叶图便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据.
【解析】(1)作出茎叶图如右图所示.
(2)由茎叶图可以看出,甲运动员的得分情况是大致对称的,中位数是36;乙运动员的得分情况除一个特殊得分外,也大致对称,中位数是26.因此甲运动员的发挥比较稳定,总体得分情况比乙运动员好.
【总结升华】当数据较少时,用茎叶图分析问题的突出优点是:(1)保留原始信息.(2)随时记录.用茎叶图分析数据可以运用数据分布的对称情况,集中分散情况来分析总体情况.
举一反三:
【变式1】随机抽取某中学甲乙两班各10名同学,测量他们的身高(单位:cm),获得身高数据的茎叶图如图.
(1)根据茎叶图判断哪个班的平均身高较高;
(2)计算甲班的样本方差.
【答案】(1)乙班(2)57
【解析】(1)由茎叶图可知:甲班身高集中于之间,
而乙班身高集中于之间.
因此乙班平均身高高于甲班;
(2)
甲班的样本方差为
【巩固练习】
1.下列关于“样本数据的频率分布表、频率分布直方图”的叙述中正确的是( )
A.从频率分布表可以看出样本数据的平均数
B.频数是指落在各个小组内的数据
C.每小组的频数与样本容量之比是这个小组的频率
D.组数是样本平均数除以组距
2.频率分布直方图中小长方形的面积等于( )
A.组距 B.频率 C. 组数 D.频数
3.一个容量为80的样本中,数据的最大值时140,最小值是50,组距是10,则应将样本数据分为( )
A.10组 B.9组 C. 8组 D.7组
4.能反映一组数据的离散程度的是( )
A.众数 B.平均数 C. 标准差 D.极差
5.下列数字特征一定是数据组中数据的是( )
A.众数 B.中位数 C. 标准差 D.平均数
6.两个样本,甲:5,4,3,2,1;乙:4,0,2,1,-2。那么样本甲和样本乙的波动大小情况是( )
A.甲、乙波动大小一样
B.甲的波动比乙的波动大
C.乙的波动比甲的波动大
D.甲、乙的波动大小无法比较
7.数据的方差为,则数据的方差为( )
A. B. C. D.
8.(2017秋 湖南怀化期末)为了了解某地区10000名高三男生的身体发育情况,抽查了该地区100名年龄为17~18岁的高三男生体重(kg),得到频率分布直方图如图.根据图示,请你估计该地区高三男生中体重在[56.5,64.5] kg的学生人数是( )
A.40 B.400 C.4000 D.4400
9.(2018年 合肥二模)甲,乙两位同学5次考试的数学成绩(单位:分)统计结果如下:
学生
第一次
第二次
第三次
第四次
第五次
甲
77
81
83
80
79
乙
89
90
92
91
88
则成绩较为稳定的那位同学成绩的方差为________.
10.观察新生婴儿的体重,其频率分布直方图如图所示,则新生婴儿体重在的频率为 .
/
11.数据的方差为,平均数为,则
(1)数据的标准差为_________,平均数为_________.
(2)数据的标准差为_________,平均数为_________.
12.“爱我海西、爱我家乡”摄影比赛,9位评委为参赛作品A给出的分数如图所示.记分员在去掉一个最高分和一个最低分后,算得平均分为91.复核员在复核时,发现有一个数字(茎叶图中的x)无法看清.若记分员计算无误;则数字x应该是________.
13.下图是总体的一样本频率分布直方图,且在[15,18)内的频数为8.
/
(1)求样本容量;
(2)若在[12,15)内小矩形面积为0.06,求在[12,15)内的频数;
(3)求样本在[18,33)内的频率.
14.(2018春 吉林松原期末)已知甲、乙两名同学在五次数学单元测验中得分如下:
学生甲
68
72
70
69
71
学生乙
69
72
68
73
68
则甲、乙两名同学数学成绩谁更稳定?
【答案与解析】
1.【答案】C
【解析】A数据的频率分布表一般不能反映原有数据的全部信息。B频数是指落在各个小组内的数据的个数。D组数是极差除以组距。
2.【答案】B
【解析】由频率分布直方图的画法可知,B正确。
3.【答案】B
【解析】组数=
4.【答案】C
【解析】标准差的定义知,C正确。
5.【答案】A
6.【答案】C
【解析】由方差的定义知,C正确。
7.【答案】 D
【解析】
8.【答案】C
【解析】该地区高三男生中体重在[56.5,64.5] kg的学生的频率为:
(0.03+0.05+0.05+0.07)×2=0.4,
∴该地区高三男生体重在[56.5,64.5] kg的学生人数为:
0.4×10000=4000(人)
故选:C.
9.【答案】2
【解析】根据题意,得:
甲同学的5次成绩分布在77~83之间,数据较分散型,∴方差大些;
乙同学的5次成绩分布在88~92之间,数据较集中些,∴方差小些;
∴乙同学5次成绩的平均数是;
∴方差为.
故答案为:2.
10.【答案】
【解析】 频率/组距,组距,频率.
11.【答案】 (1),(2),
【解析】
(1)
(2)
12.【答案】1
【解析】 假设x<4,
则.
13.【解析】(1)由题图可知[15,18)对应的y轴数字为,且组距为3,
∴[15,18)对应频率为:.
又已知[15,18)内频数为8,
∴样本容量.
(2)[12,15)内小矩形面积为0.06,即[12,15)内频率为0.06,且样本容量为50,
∴[12,15)内频数为:50×0.06=3.
(3)由(1)(2)知[12,15)内频数为3,[15,18)内频数为8,样本容量为50,
∴[18,33)内频数为:50-3-8=39,
∴[18,33)内频率为:.
14.【答案】甲比乙稳定.
【解析】根据所给的数据可知甲的平均分是,
乙的平均分是
∴甲的方差是
乙的方差是
∵甲的方差小于乙的方差,
∴甲比乙稳定.