第六章 数据的分析
1 平均数与方差
第1课时 众数、算术平均数与加权平均数
学习要点
知识点1 众数
一组数据中出现次数最多的那个数据叫这组数据的众数.
知识点2 算术平均数
1.定义:一般地,对于n个数x1,x2,…,xn,我们把(x1+x2+…+xn)称为这组数据的算术平均数,简称平均数,用“”表示,读作“x拔”,记作(x1+x2+…+xn).平均数是刻画一组数据集中趋势的一项指标,反映了一组数据的“中心”.
2.解题策略:若x1,x2,…,xn的平均数是,y1,y2,…,yn的平均数是,则:
(1)kx1,kx2,…,kxn的平均数是k;
(2)kx1+a,kx2+a,…,kxn+a的平均数是k+a;
(3)x1+y1,x2+y2,…,xn+yn的平均数是;
(4)kx1+ay1,kx2+ay2,…,kxn+ayn的平均数是k+a.
知识点3 加权平均数
1.定义:n个数据中,x1出现f1次,x2出现f2次,…,xn出现fn次,则平均数= ,这样求得的平均数叫 加权平均数 ,其中f1,f2,…,fn叫 权 .
2.权的常见形式:
(1)数据出现的次数:如一组数据1,1,2,2,2,则1的权为2,2的权为3;
(2)比的形式:如某面试者听(90分)、说(84分)、读(80分)、写(70分)四项成绩按2∶1∶3∶4的比例计算其平均数,则用2,1,3,4作为各项成绩的权;
(3)百分比的形式:可以直接运用各项数据乘相应的百分比,再把所得结果相加,即=x1·m1%+x2·m2%+…+xn·mn%(其中m1%+m2%+…+mn%=100%).
课堂达标
1.7位评委给一个演讲者打分(满分10分)如下:9,8,9,10,10,7,9.若去掉一个最高分和一个最低分,这名演讲者的最后平均分是 ( )
A.7分 B.8分 C.9分 D.10分
2.为了满足顾客的需求,某商场将5 kg奶糖、3 kg 酥心糖和2 kg水果糖混合成什锦糖出售.已知奶糖的售价为每千克40元,酥心糖为每千克20元,水果糖为每千克15元,则混合后什锦糖的售价应为每千克 ( )
A.25元 B.28.5元 C.29元 D.34.5元
3.已知一组数据3,5,x,7,9的平均数为6,则x= .
4.睡眠是评价人类健康水平的一项重要指标,充足的睡眠是青少年健康成长的必要条件之一,小强同学通过问卷调查的方式了解到本班三位同学某天的睡眠时间分别为7.8 h,8.6 h,8.8 h,则这三位同学该天的平均睡眠时间是 h.
5.某校规定:学生的数学学期综合成绩是由平时、期中和期末三项成绩按4∶2∶4的比例计算所得.若某同学本学期数学的平时、期中和期末成绩分别是90分、95分和85分,则他本学期数学学期综合成绩是 分.
6.某市号召居民节约用水,为了解居民用水情况,随机抽查了20户家庭某月的用水量,结果如下表,则这20户家庭这个月的平均用水量是 t.
用水量(t) 4 5 6 8
户数 3 8 4 5
第2课时 离差平方和、方差与标准差
学习要点
知识点1 离差平方和
1.离差平方和:各个数据与它们平均数之差的平方和,即S2=(x1-)2+(x2-)2+…+(xn-)2.
2.组内离差平方和:多组数据的组内离差平方和是指每组数据的离差平方和的 和 .一般情况下,如果想把一组数据分成若干组,使每组组内的数据差距不大,且组与组之间的数据差别明显,那么分组要遵循组内离差平方和 最小 的原则.
知识点2 方差、标准差
1.方差:在一组数据x1,x2,…,xn中,各个数据与它们的平均数之差的平方的平均数,用s2表示,s2=[(x1-)2+(x2-)2+…+(xn-)2].
2.标准差:方差的 算术平方根 .
3.离差平方和、方差与标准差都是刻画样本数据离散程度(波动大小)的统计量.方差与标准差越小,数据波动也越小.
知识点3 方差的应用
方差是用来衡量一组数据波动大小的量,方差越大,表明这组数据偏离平均数越大,即波动越大,数据越不稳定;反之,方差越小,表明这组数据分布比较集中,各数据偏离平均数越小,即波动越小,数据越稳定.
【拓展】
(1)一组数据的每一个数据都加上(或减去)同一个常数,所得的一组新数据的方差不变.如x1,x2,x3的方差为3,则x1+2,x2+2,x3+2的方差也为3;
(2)一组数据的每一个数据都变为原来的k倍,所得的一组新数据的方差将变为原来数据方差的k2倍.如x1,x2,x3的方差为3,则2x1,2x2,2x3的方差为12.
课堂达标
1.小庆、小铁、小娜、小萌四名同学均从1,2,3,4,5,6这六个数字中选出四个数字,玩猜数游戏.下列选项中,能确定该同学选出的四个数字含有1的是 ( )
A.小庆选出的四个数字的方差等于4.25
B.小铁选出的四个数字的方差等于2.5
C.小娜选出的四个数字的平均数等于3.5
D.小萌选出的四个数字的离差平方和等于8.75
2.某校足球队队员年龄的平均数为13岁,方差为2,若两年后该足球队队员不变,则下列关于队员前后年龄的说法,正确的是 ( )
A.平均数不变,方差改变
B.平均数不变,方差不变
C.平均数改变,方差不变
D.平均数改变,方差改变
3.要判断一个学生的数学考试成绩是否稳定,那么需要知道他最近连续几次数学考试成绩的 ( )
A.算术平均数 B.加权平均数
C.众数 D.方差
4.某体校要从四名射击选手中选拔一名参加省体育运动会,选拔赛中每名选手连续射靶10次,他们各自的平均成绩 及其方差s2如表所示.如果要选出一名成绩高且发挥稳定的选手参赛,则应选择的选手是 ( )
统计量 甲 乙 丙 丁
(环) 8.4 8.6 8.6 7.6
s2 0.74 0.56 0.94 1.92
A.甲 B.乙 C.丙 D.丁
5.一个射箭运动员连续射靶5次,所得环数分别是8,6,10,7,9,则这个运动员所得环数的标准差为 .
6.若一组数据1,3,5,7,9的方差是,另一组数据11,12,13,14,15的方差是,则 (选填“>”“<”或“=”).
7.“暑假乒乓球夏令营”开始在学校报名了,已知甲、乙、丙三个夏令营组人数相等,且每组学生的平均年龄都是14岁,三个组学生年龄的方差分别是=17,=14.6,=19.如果今年暑假你也准备报名参加夏令营活动,但喜欢和年龄相近的同伴相处,那么你应选择 (选填“甲”“乙”或“丙”).
2 中位数与箱线图
3 哪个团队收益大
第1课时 中位数
学习要点
知识点1 中位数
一般地,n个数据按 大小顺序 排列,处于 最中间 位置的一个数据(或最中间两个数据的 平均数 )叫这组数据的中位数.
知识点2 平均数、中位数和众数的优缺点与联系
平均数 中位数 众数
区 别 优点 所有的数据都参与运算,能充分利用各数据提供的信息 计算简单,受 极端值 影响较小 与各数据出现的频数有关,当某些数据反复出现时,众数更有意义,其大小只与部分数据有关
缺点 易受极端值的影响 不能充分利用所有数据 当各个数据的重复次数差别不大时,众数就没有特别意义了
联系 平均数、众数和中位数都是描述数据 集中趋势 的统计量
课堂达标
1.根据PM2.5空气质量标准:24 h PM2.5均值在0~35 μg/m3的空气质量等级为优.将环保部门对我市PM2.5一周的检测数据制作成如下统计表,这组数据的中位数是 ( )
天数 3 1 1 1 1
PM2.5(μg/m3) 18 20 21 29 30
A.21 μg/m3 B.20 μg/m3
C.19 μg/m3 D.18 μg/m3
2.某班七个兴趣小组人数分别为4,4,5,5,x,6,7,已知这组数据的平均数是5,则这组数据的众数和中位数分别是 ( )
A.4,5 B.4,4 C.5,4 D.5,5
3.某班级在学校图书节义卖活动中,售书情况如表:
售价 3元 4元 5元 6元
数目 10本 15本 14本 11本
则在该班级的这一组售书价格数据中,下列说法错误的是 ( )
A.众数是4元 B.总收入是226元
C.平均数是4.52元 D.中位数是4元
4.某电脑公司销售部为了制订下个月的销售计划,对20位销售人员本月的销售量进行了统计,绘制成如图所示的统计图,则这20位销售人员本月销售量的平均数、中位数、众数(单位:台)分别是 ( )
A.19,20,14 B.19,20,20
C.18.4,20,20 D.18.4,25,20
5.某校举办“成语听写大赛”,15名学生进入决赛,他们所得分数互不相同.比赛共设8个获奖名额,某学生知道自己的分数后,要判断自己能否获奖,他应该关注的统计量是 (选填“平均数”或“中位数”).
6.如图是根据某班40名同学一周的体育锻炼情况绘制的统计图,该班40名同学一周参加体育锻炼时间的中位数是 .
第2课时 箱线图
学习要点
知识点1 百分位数、四分位数
1.百分位数:仅有中位数,还不能完整地反映数据的分布.为此,通常还可以找出其他百分位位置上的数据,如处于p%位置的数据称第p百分位数,记为p%分位数.
2.四分位数:在百分位数中,25%分位数、50%分位数、75%分位数把一组数据分为个数 相等 的四部分,因此分别称为 下四分位数 、 中位数 和 上四分位数 ,记为m25,m50,m75,统称四分位数.
将数据按照从小到大的顺序排列,下四分位数是前一半数据的中位数,上四分位数是后一半数据的中位数.
知识点2 箱线图
1.定义:箱线图是一种用作显示一组数据 分散情况 的统计图,因形状如箱子而得名.
2.画箱线图的一般步骤:
(1)画数轴,起点比最小值稍小,终点比最大值稍大,选取适当的单位长度,单位和数据的单位一致;
(2)求数据的下四分位数、中位数和上四分位数;
(3)画最小值、下四分位数、中位数、上四分位数、最大值对应的五条线段(与数轴垂直);
(4)用实线连接下四分位数、上四分位数对应线段的端点,形成箱子的形状,用虚线连接最小值与下四分位数、上四分位数与最大值对应线段的中点.
知识点3 利用数据分析作判断
比较两组数据的整体情况,方法多样,可以借助平均数反映数据的集中趋势和平均水平,借助方差反映数据的离散程度,也可以借助四分位数和箱线图直观反映数据的分布情况.
课堂达标
1.从小到大排列的数据:1,2,3,5,6,7,8,9,10,14,15,18的下四分位数为 ( )
A.3 B.4 C.10 D.12
2.已知10位同学的身高(单位:cm)分别为161,161,162,165,165,165,170,173,178,181,则这组数据的50%分位数为 ( )
A.163 cm B.165 cm
C.175 cm D.178 cm
3.已知A,B两个班级的人数相同,在一次测试中两个班级成绩的箱线图如图所示,则A,B两个班平均分较高的是 班.
4.为践行“环保宣言”,某校开展中小学生主题演讲比赛,下图是7位评委对甲、乙两位参赛选手的打分情况,通过折线图发现7位评委对 (选填“甲”或“乙”)选手在演讲比赛中的表现评价更一致.
5.9名学生的英语考试成绩(单位:分)分别为65,72,73,75,78,80,84,88,90,试计算成绩的四分位数.第六章 数据的分析
1 平均数与方差
第1课时 众数、算术平均数与加权平均数
学习要点
知识点1 众数
一组数据中出现次数最多的那个数据叫这组数据的众数.
知识点2 算术平均数
1.定义:一般地,对于n个数x1,x2,…,xn,我们把(x1+x2+…+xn)称为这组数据的算术平均数,简称平均数,用“”表示,读作“x拔”,记作(x1+x2+…+xn).平均数是刻画一组数据集中趋势的一项指标,反映了一组数据的“中心”.
2.解题策略:若x1,x2,…,xn的平均数是,y1,y2,…,yn的平均数是,则:
(1)kx1,kx2,…,kxn的平均数是k;
(2)kx1+a,kx2+a,…,kxn+a的平均数是k+a;
(3)x1+y1,x2+y2,…,xn+yn的平均数是;
(4)kx1+ay1,kx2+ay2,…,kxn+ayn的平均数是k+a.
知识点3 加权平均数
1.定义:n个数据中,x1出现f1次,x2出现f2次,…,xn出现fn次,则平均数= ,这样求得的平均数叫 加权平均数 ,其中f1,f2,…,fn叫 权 .
2.权的常见形式:
(1)数据出现的次数:如一组数据1,1,2,2,2,则1的权为2,2的权为3;
(2)比的形式:如某面试者听(90分)、说(84分)、读(80分)、写(70分)四项成绩按2∶1∶3∶4的比例计算其平均数,则用2,1,3,4作为各项成绩的权;
(3)百分比的形式:可以直接运用各项数据乘相应的百分比,再把所得结果相加,即=x1·m1%+x2·m2%+…+xn·mn%(其中m1%+m2%+…+mn%=100%).
课堂达标
1.7位评委给一个演讲者打分(满分10分)如下:9,8,9,10,10,7,9.若去掉一个最高分和一个最低分,这名演讲者的最后平均分是 (C)
A.7分 B.8分 C.9分 D.10分
2.为了满足顾客的需求,某商场将5 kg奶糖、3 kg 酥心糖和2 kg水果糖混合成什锦糖出售.已知奶糖的售价为每千克40元,酥心糖为每千克20元,水果糖为每千克15元,则混合后什锦糖的售价应为每千克 (C)
A.25元 B.28.5元 C.29元 D.34.5元
3.已知一组数据3,5,x,7,9的平均数为6,则x= 6 .
4.睡眠是评价人类健康水平的一项重要指标,充足的睡眠是青少年健康成长的必要条件之一,小强同学通过问卷调查的方式了解到本班三位同学某天的睡眠时间分别为7.8 h,8.6 h,8.8 h,则这三位同学该天的平均睡眠时间是 8.4 h.
5.某校规定:学生的数学学期综合成绩是由平时、期中和期末三项成绩按4∶2∶4的比例计算所得.若某同学本学期数学的平时、期中和期末成绩分别是90分、95分和85分,则他本学期数学学期综合成绩是 89 分.
6.某市号召居民节约用水,为了解居民用水情况,随机抽查了20户家庭某月的用水量,结果如下表,则这20户家庭这个月的平均用水量是 5.8 t.
用水量(t) 4 5 6 8
户数 3 8 4 5
第2课时 离差平方和、方差与标准差
学习要点
知识点1 离差平方和
1.离差平方和:各个数据与它们平均数之差的平方和,即S2=(x1-)2+(x2-)2+…+(xn-)2.
2.组内离差平方和:多组数据的组内离差平方和是指每组数据的离差平方和的 和 .一般情况下,如果想把一组数据分成若干组,使每组组内的数据差距不大,且组与组之间的数据差别明显,那么分组要遵循组内离差平方和 最小 的原则.
知识点2 方差、标准差
1.方差:在一组数据x1,x2,…,xn中,各个数据与它们的平均数之差的平方的平均数,用s2表示,s2=[(x1-)2+(x2-)2+…+(xn-)2].
2.标准差:方差的 算术平方根 .
3.离差平方和、方差与标准差都是刻画样本数据离散程度(波动大小)的统计量.方差与标准差越小,数据波动也越小.
知识点3 方差的应用
方差是用来衡量一组数据波动大小的量,方差越大,表明这组数据偏离平均数越大,即波动越大,数据越不稳定;反之,方差越小,表明这组数据分布比较集中,各数据偏离平均数越小,即波动越小,数据越稳定.
【拓展】
(1)一组数据的每一个数据都加上(或减去)同一个常数,所得的一组新数据的方差不变.如x1,x2,x3的方差为3,则x1+2,x2+2,x3+2的方差也为3;
(2)一组数据的每一个数据都变为原来的k倍,所得的一组新数据的方差将变为原来数据方差的k2倍.如x1,x2,x3的方差为3,则2x1,2x2,2x3的方差为12.
课堂达标
1.小庆、小铁、小娜、小萌四名同学均从1,2,3,4,5,6这六个数字中选出四个数字,玩猜数游戏.下列选项中,能确定该同学选出的四个数字含有1的是 (A)
A.小庆选出的四个数字的方差等于4.25
B.小铁选出的四个数字的方差等于2.5
C.小娜选出的四个数字的平均数等于3.5
D.小萌选出的四个数字的离差平方和等于8.75
2.某校足球队队员年龄的平均数为13岁,方差为2,若两年后该足球队队员不变,则下列关于队员前后年龄的说法,正确的是 (C)
A.平均数不变,方差改变
B.平均数不变,方差不变
C.平均数改变,方差不变
D.平均数改变,方差改变
3.要判断一个学生的数学考试成绩是否稳定,那么需要知道他最近连续几次数学考试成绩的 (D)
A.算术平均数 B.加权平均数
C.众数 D.方差
4.某体校要从四名射击选手中选拔一名参加省体育运动会,选拔赛中每名选手连续射靶10次,他们各自的平均成绩 及其方差s2如表所示.如果要选出一名成绩高且发挥稳定的选手参赛,则应选择的选手是 (B)
统计量 甲 乙 丙 丁
(环) 8.4 8.6 8.6 7.6
s2 0.74 0.56 0.94 1.92
A.甲 B.乙 C.丙 D.丁
5.一个射箭运动员连续射靶5次,所得环数分别是8,6,10,7,9,则这个运动员所得环数的标准差为 .
6.若一组数据1,3,5,7,9的方差是,另一组数据11,12,13,14,15的方差是,则 > (选填“>”“<”或“=”).
7.“暑假乒乓球夏令营”开始在学校报名了,已知甲、乙、丙三个夏令营组人数相等,且每组学生的平均年龄都是14岁,三个组学生年龄的方差分别是=17,=14.6,=19.如果今年暑假你也准备报名参加夏令营活动,但喜欢和年龄相近的同伴相处,那么你应选择 乙 (选填“甲”“乙”或“丙”).
2 中位数与箱线图
3 哪个团队收益大
第1课时 中位数
学习要点
知识点1 中位数
一般地,n个数据按 大小顺序 排列,处于 最中间 位置的一个数据(或最中间两个数据的 平均数 )叫这组数据的中位数.
知识点2 平均数、中位数和众数的优缺点与联系
平均数 中位数 众数
区 别 优点 所有的数据都参与运算,能充分利用各数据提供的信息 计算简单,受 极端值 影响较小 与各数据出现的频数有关,当某些数据反复出现时,众数更有意义,其大小只与部分数据有关
缺点 易受极端值的影响 不能充分利用所有数据 当各个数据的重复次数差别不大时,众数就没有特别意义了
联系 平均数、众数和中位数都是描述数据 集中趋势 的统计量
课堂达标
1.根据PM2.5空气质量标准:24 h PM2.5均值在0~35 μg/m3的空气质量等级为优.将环保部门对我市PM2.5一周的检测数据制作成如下统计表,这组数据的中位数是 (B)
天数 3 1 1 1 1
PM2.5(μg/m3) 18 20 21 29 30
A.21 μg/m3 B.20 μg/m3
C.19 μg/m3 D.18 μg/m3
2.某班七个兴趣小组人数分别为4,4,5,5,x,6,7,已知这组数据的平均数是5,则这组数据的众数和中位数分别是 (A)
A.4,5 B.4,4 C.5,4 D.5,5
3.某班级在学校图书节义卖活动中,售书情况如表:
售价 3元 4元 5元 6元
数目 10本 15本 14本 11本
则在该班级的这一组售书价格数据中,下列说法错误的是 (D)
A.众数是4元 B.总收入是226元
C.平均数是4.52元 D.中位数是4元
4.某电脑公司销售部为了制订下个月的销售计划,对20位销售人员本月的销售量进行了统计,绘制成如图所示的统计图,则这20位销售人员本月销售量的平均数、中位数、众数(单位:台)分别是 (C)
A.19,20,14 B.19,20,20
C.18.4,20,20 D.18.4,25,20
5.某校举办“成语听写大赛”,15名学生进入决赛,他们所得分数互不相同.比赛共设8个获奖名额,某学生知道自己的分数后,要判断自己能否获奖,他应该关注的统计量是 中位数 (选填“平均数”或“中位数”).
6.如图是根据某班40名同学一周的体育锻炼情况绘制的统计图,该班40名同学一周参加体育锻炼时间的中位数是 9 .
第2课时 箱线图
学习要点
知识点1 百分位数、四分位数
1.百分位数:仅有中位数,还不能完整地反映数据的分布.为此,通常还可以找出其他百分位位置上的数据,如处于p%位置的数据称第p百分位数,记为p%分位数.
2.四分位数:在百分位数中,25%分位数、50%分位数、75%分位数把一组数据分为个数 相等 的四部分,因此分别称为 下四分位数 、 中位数 和 上四分位数 ,记为m25,m50,m75,统称四分位数.
将数据按照从小到大的顺序排列,下四分位数是前一半数据的中位数,上四分位数是后一半数据的中位数.
知识点2 箱线图
1.定义:箱线图是一种用作显示一组数据 分散情况 的统计图,因形状如箱子而得名.
2.画箱线图的一般步骤:
(1)画数轴,起点比最小值稍小,终点比最大值稍大,选取适当的单位长度,单位和数据的单位一致;
(2)求数据的下四分位数、中位数和上四分位数;
(3)画最小值、下四分位数、中位数、上四分位数、最大值对应的五条线段(与数轴垂直);
(4)用实线连接下四分位数、上四分位数对应线段的端点,形成箱子的形状,用虚线连接最小值与下四分位数、上四分位数与最大值对应线段的中点.
知识点3 利用数据分析作判断
比较两组数据的整体情况,方法多样,可以借助平均数反映数据的集中趋势和平均水平,借助方差反映数据的离散程度,也可以借助四分位数和箱线图直观反映数据的分布情况.
课堂达标
1.从小到大排列的数据:1,2,3,5,6,7,8,9,10,14,15,18的下四分位数为 (B)
A.3 B.4 C.10 D.12
2.已知10位同学的身高(单位:cm)分别为161,161,162,165,165,165,170,173,178,181,则这组数据的50%分位数为 (B)
A.163 cm B.165 cm
C.175 cm D.178 cm
3.已知A,B两个班级的人数相同,在一次测试中两个班级成绩的箱线图如图所示,则A,B两个班平均分较高的是 B 班.
4.为践行“环保宣言”,某校开展中小学生主题演讲比赛,下图是7位评委对甲、乙两位参赛选手的打分情况,通过折线图发现7位评委对 乙 (选填“甲”或“乙”)选手在演讲比赛中的表现评价更一致.
5.9名学生的英语考试成绩(单位:分)分别为65,72,73,75,78,80,84,88,90,试计算成绩的四分位数.
解:题中数据已按从小到大的顺序排列,共有9个数,下四分位数是73分,数据的中位数是78分,上四分位数是84分.