2.2.2用样本的数字特征总体(二)标准差、方差
学习目标:
正确理解样本数据标准差的意义和作用, ( http: / / www.21cnjy.com )学会计算数据的标准差;会用样本的基本数字特征估计总体的基本数字特征;形成对数据处理过程进行初步评价的意识。
知识要点:
1.平均数有时会作出对总体的 ,因为它掩盖了一些 ,而这 是不能忽视的。
2.极差在一定程度上表明了样本数据的 ( http: / / www.21cnjy.com ) ,极差对 非常敏感,由此可以得到 的统计策略。
3.考察样本数据的分散程度的大小,最常用的统计量是标准差,标准差是样本数据到 的一种平均距离。
4.标准差公式: ,
。
5.方差S2= 。
6.在刻画样本数据的分散程度上, 和 是一样的,但在解决实际问题时,一般多采用 。
7.标准差越大,数据的离散程度 ;标准差越小,数据的离散程度 。
8.标准差的取值范围是 ;标准差为0的样本数据有什么特点? 。
典型例题:
例1.求样本 的标准差,并利用图示体会标准差的作用。
例2.两人射击10次结果如下
甲 7 8 7 9 5 4 9 10 7 4
乙 9 5 7 8 7 6 8 6 7 7
二人的平均成绩和标准差各为多少? ( http: / / www.21cnjy.com ) ,结合给出的频率分布条形图和命中环数直观图体会标准差的作用。
例3.利用教材给出的频率分布条形图及平均值和标准差,说明下列四组数据的异同点。
(1)5,5,5,5,5,5,5,5,5 (2)4,4,4,5,5,5,6,6,6
(3)3,3,4,4,5,6,6,7,7 (4)2,2,2,2,5,8,8,8,8
例4.甲乙两人同时生产内径为25.40mm的零件,从他们生产的零件中各抽取20件,量得尺寸:
甲 25.46 25.3 ( http: / / www.21cnjy.com )2 25.45 25.39 25.36 25.34 25.42 25.45 25.38 25.42
25.39 ( http: / / www.21cnjy.com ) 25.43 25.39 25.40 25.44 25.40 25.42 25.35 25.41 25.39
乙 25.40 25.43 25.4 ( http: / / www.21cnjy.com )4 25.48 25.48 25.47 25.49 25.49 25.36 25.34
25.33 25.43 2 ( http: / / www.21cnjy.com )5.43 25.32 25.47 25.31 25.32 25.32 25.32 25.48
谁生产的质量高?
当堂检测
1.若给定一组数据x1、x2、……xn,方差为S2,则ax1,ax2,……axn的方差是 。
2.两种水稻连续6年平均产量如下,哪种产量稳定?
甲 900 920 900 850 910 920
乙 890 960 950 850 860 890
3.有21个数:
486,495,496,498,499,49 ( http: / / www.21cnjy.com )3,493,498,484,497,504,489,495,503,499,503,509,498,487,500,508
(1)求平均数和标准差,(2)位于与间的有几个?所占的百分比是多少?2.2.1 用样本的频率分布估计总体
学习目标:
通过实例体会分布的意义和作用,在表示样本 ( http: / / www.21cnjy.com )数据的过程中,学会列频率分布表,画频率分布直方图,体会它们各自的特点;掌握茎叶图的意义及画法,并能在实际问题中用茎叶图进行数据统计。在解决统计问题的过程中,进一步体会用样本估计总体的思想,会用样本的频率分布估计总体分布。
知识要点:
阅读课本P65-70,完成下列内容:
一.数据的处理
1.数据被收集后,必须 ,以使我们能 。由于数据多且杂乱,往往无法直接从原始数据中理解它们的含义,因此,必须通过 ,帮我们找出 ,使数据所包含的信息转化成 。在此基础上,就可以对总体作出相应的估计。
2.通常我们对总体作出的估计一般分成两种,一种是用 ,
另一种是 。
3.分析数据的一种基本方法是用图将它们画出来或者用紧凑的表格改变数据的排列方式,
作图可以达到两个目的,一是 ,二是 ;
表格则是通过 ,为我们提供 的新方式。
二.频率分布直方图
1.作频率分布直方图的步骤为:
(一)求极差,即 ;
(二) ;
(三) ;(四)列 ;(五)画 。
2.在频率分布直方图中,纵轴表示 ,数据落在各小组内的频率用 表示,各小长方形的面积总和 。
3.由例题中的直方图总结频率分布直方图的优点
,
缺点 。
三.频率分布折线图
1. 频率分布折线图:连接频率分布直方图中 ,就得到频率分布折线图。
2.总体密度曲线:随着样本容量的 ( http: / / www.21cnjy.com ) ,作图时所分的组数 ,组距 ,相应的频率折线图会越来越接近于一条 ,统计中称这条 为总体密度曲线。
3.总体密度曲线反映了总体在各个范围内取值的 ,能提供更加精细的信息。
4.有些总体密度曲线是客观存在的,但应用中不知道它的 ,需要 。
5. 由于样本是随机的,不同的样本 ( http: / / www.21cnjy.com )得到的频率分布折线图 ,即使对于同一样本,不同的分组情况得到的频率分布折线图 ,频率分布折线图是随着 的变化而变化的,因此不能用样本的频率分布折线图得到准确的总体密度曲线。
四.茎叶图:
1.茎叶图的作图步骤:
①将每个数据分为茎(高位)和叶(低位)两部分
②将最小茎和最大茎之间的数按 大小次序 排成一列,
③将各个数据的叶按 由小到大(或先后顺序) 写在其右(左)侧。
若数据为小数时,整数部分作为茎,小数部分作为叶。
2.用茎叶图表示数据时,茎是指 的一列数,叶就是从茎的旁边 的数。
3.在 时,用茎叶图表示数据的效果较好,它不但可以 ,
而且可以 ,这对 都能带来方便,但当 时,茎叶图就不太方便,因为每一个数据都要在图中占据一个空间,如果数据很多, 。
4.作出教材两名运动员得分的茎叶图。
典型例题:
例1:作出教材提供的居民月均用水量的频率分布直方图,并作出频率分布折线图。
例2.甲、乙两个班级各随机选出15名同学进行 ( http: / / www.21cnjy.com )测验,成绩的茎叶图如图,则甲班、乙班的最高成绩各是 ,从图中看 班的平均成绩较高。
当堂检测:
1.关于频率分布直方图中小长方形的高的说法,正确的是( )
A.表示该组上的个体在样本中出现的频率
B.表示取某数的频率
C.表示该组上的个体数与组距的比值
D.表示该组上的个体在样本中出现的频率与组距的比值
2.下表给出了某校500名12岁男孩中用随机抽样得出的100人的身高(单位:cm)
区间界限 [122,126) [126,130) [130,134) [134,138) [138,142) [142,146) [146,150) [150,154) [154,158)
人数 5 8 10 17 23 15 11 6 5
(1)列出频率分布表;(2)画出频率分布直方图,频率分布折线图;
(3)估计身高小于134cm的人数占总人数的百分比。
3.下面一组数据是某生产车间30名工人某日加工零件的个数,请设计适当的茎叶图表示这组数据,并由图出发说明一下这个车间此日的生产情况。
134 112 117 126 128 124 122 116 113 107
116 132 127 128 126 121 120 118 108 110
133 130 124 116 117 123 122 120 112 1122.2.2 用样本的数字特征估计总体(一)众数、中位数、平均数
学习目标:
能利用频率分布直方图估计总体的众数、中 ( http: / / www.21cnjy.com )位数、平均数;能用样本的众数、中位数、平均数估计总体的众数、中位数、平均数,并结合实际对问题作出合理判断,判定解决问题的有效方法。
知识要点:
阅读课本P70-73内容:
1.初中学过的众数、中位数、平均数的定义,在样本数据中:
(1)众数是指 ,
(2)中位数是指 ,
(3)平均数是指 。
2.利用频率分布直方图对三者估计:
(1)众数的估计值是 。
(2)在频率分布直方图中,中位数左边和右边的直方图的面积 。
(3)平均数的估计值等于频率分布直方图的每个 乘以 之和。
3. 利用频率分布直方图求得的三者估计值与利用样本数据求得的三者的值相比较:
(1) 利用频率分布直方图求得的三者估计值精度低 ,
(2) 利用频率分布直方图求得的三者估计值与分组有关 ,
(3) 在不能得到样本数据,只能得到直方图时,也可以估计总体特征 。
4.样本数据中这三个数字特征的特点:三者均可表示数据的 某种中心点 。
(1)众数通常表示数据的 中心值 ,但它只能表达数据中很少一部分信息;
(2)中位数不受少数几个 极 ( http: / / www.21cnjy.com )端数据(即靠前或靠后) 的影响,它仅利用了中间数据,由于它抗极端数据强,所以当数据存在录入错误、测量错误时,应该用中位数表示数据的 中心值 ;
(3)平均数受 样本中每一个数据 的 ( http: / / www.21cnjy.com )影响,“越离群”的数据,对它的影响 越大 ,它与前二者相比,代表了更多的信息,但用它表示数据的 中心值 时,可能产生较大的误差,因此在比赛的评分中,常常采用的方法是 去掉一个最高分,去掉一个最低分(保证公平) ;
(4)如果平均数大于中位数,说明数据中存在许多 较大 的极端值,反之,则说明数据中存
在许多 较小 的极端值;
(5)使用者会根据自己的利益选取三者之一表示数据的 中心值 ,从而进行误导。
随堂训练:
1.尝试说出教材中中位数的估计值与样本数据的中位数的值不一样的原因。
2.举例说明“中位数不受极端值的影响”的利与弊。
3.下列判断正确的是( )
A.样本平均数一定小于总体平均数 B.样本平均数一定大于总体平均数
C.样本平均数一定等于总体平均数 D.样本容量越大,样本平均数越接近总体平均数
4.假设你是一名交通部门的工作人员,你 ( http: / / www.21cnjy.com )打算向市长报告国家对本市26个公路项目投资的平均资金数额,其中一条新公路的建设投资为2000万元人民币,另外25个项目的投资是20~100万元,中位数是25万元,平均数是100万元,众数是20万元,你会选择那一种数字特征来表示国家对每一个项目投资的平均金额?你选择这种数字特征的缺点是什么?
5.据报道,某公司的33名职工的月工资(以元为单位)如下:
职务 董事长 副董事长 董事 总经理 经理 管理员 职员
人数 1 1 2 1 5 3 20
工资 5500 5000 3500 3000 2500 2000 1500
求该公司职工月工资的平均数、中位数、众数。