(共24张PPT)
第三章 数据分析初步
3.3.2 离差平方和与方差(2)
01
教学目标
02
新知导入
03
新知讲解
04
课堂练习
05
课堂小结
06
作业布置
01
教学目标
01
02
1.理解数据分组的核心原则(组内离差平方和最小、组间差异最大),明确组内离差平方和、组间离差平方和与总离差平方和的关系。
2.能根据给定的数据(5个或10个),有序列举不同的分组情况,计算各组的组内离差平方和,找到最优分组方案。
3.能运用数据分组的方法,解决简单的实际问题(如学生成绩分组、数据分类等),初步具备数据分析和应用能力。
02
新知导入
某校运动队有 5 名同学准备参加跳高比赛,他们的跳高最好成绩如下:
表 3-7 某校运动队 5 名同学跳高最好成绩统计表
队员编号 1 2 3 4 5
成绩 /m 1.58 1.75 1.63 1.65 1.78
为了让队员能更有效地进行赛前训练,教练计划将 5 名同学按他们的跳高成绩的高低分成两组。怎样分组比较合理?
新课探究
将 5 名队员的跳高成绩按从小到大排列:1.58, 1.63, 1.65, 1.75, 1.78。将这些数据表示在数轴上,如图 3-4。
显然,应把相对集中的数据分在一组,例如,分成 {1.58, 1.63, 1.65}, {1.75, 1.78} 两组。
新课探究
第 1 组数据 第 2 组数据 D12+D12
1 个数据: 1.58 4 个数据: 1.63, 1.65, 1.75, 1.78 0.016275
2 个数据: 1.58, 1.63 3 个数据: 1.65, 1.75, 1.78 0.010517
3 个数据: 1.58, 1.63, 1.65 2 个数据: 1.75, 1.78 0.00305
4 个数据: 1.58, 1.63, 1.65, 1.75 1 个数据: 1.78 0.015275
5名队员的跳高成绩分成 2 组,共有 4 种情况,设各组内的离差平方和分别为D12,D22,计算D12+D22。见表 3-8。
可以发现,将数据分成 {1.58, 1.63, 1.65}, {1.75, 1.78} 两组时,D12+D22最小。所以将队员分成 {队员 1, 队员 3, 队员 4}, {队员 2, 队员 5} 两组,组内同学的跳高水平最接近。
新课探究
一般地,设有n个数据x1 ,x2 ,x3 ,…,xn ,它们的平均数为 ,离差平方和为D2。如果把这些数据分为两组,第 1 组有k1 个数据,平均数为 ,离差平方和为D12 ;第 2 组有k2 个数据,平均数为 ,离差平方和为D22 ,其中k1 +k2 =n。通过计算可以得到以下等式(证明略):
提炼概念
新课探究
通常称(D12+D22)为组内离差平方和,它表达了两个组组内数据的离散程度;称 为组间离差平方和,它表达了两个组之间的差异。一个合理的分组原则是使D12+D22最小,同时使 最大。由于总离差平方和D2不变,所以只需考虑D12+D22最小即可。
在大数据分析中,数据分组是重要的方法之一。数据分组方法有许多种,其中使得 “组内离差平方和最小” 的方法最为常见。
新课探究
例2
国家有关部门根据各地的人均耕地面积数据,进行分类研究,制定切合各地实际的政策。带着这个问题,统计学兴趣小组的同学收集了我国10个地区的人均耕地面积数据,如表 3-9。
表 3-9 我国 10 个地区人均耕地面积统计表
地区 人均耕地面积 / 千平方米
黑龙江 4.2
新疆 2.3
江苏 0.6
安徽 0.6
福建 0.3
上海 0.1
内蒙古 3.2
吉林 1.8
广东 0.2
甘肃 2
新课探究
注意:离差平方和的计算量比较大,我们可以借助计算机软件或者自己设计算法、编写程序来解决。
如果将这 10 个地区分成两组,尽可能使组内各地区的人均耕地面积接近、不同组地区的人均耕地面积差异较大,应如何分组?
解:将这 10 个地区的人均耕地面积从小到大排列,依次为 0.1, 0.2, 0.3, 0.6, 0.6, 1.8, 2.0, 2.3, 3.2, 4.2。将这些数据分成两组,有以下 9 种情况,分别计算各种情况的组内离差平方和,得到表 3-10:
新课探究
表 3-10
组序 第 1 组数据 第 2 组数据 组内离差平方和
1 0.1 0.2, 0.3, 0.6, 0.6, 1.8, 2.0, 2.3, 3.2, 4.2 15.58889
2 0.1, 0.2 0.3, 0.6, 0.6, 1.8, 2.0, 2.3, 3.2, 4.2 13.1
3 0.1, 0.2, 0.3 0.6, 0.6, 1.8, 2.0, 2.3, 3.2, 4.2 10.28
4 0.1, 0.2, 0.3, 0.6 0.6, 1.8, 2.0, 2.3, 3.2, 4.2 7.775
5 0.1, 0.2, 0.3, 0.6, 0.6 1.8, 2.0, 2.3, 3.2, 4.2 4.172
6 0.1, 0.2, 0.3, 0.6, 0.6, 1.8 2.0, 2.3, 3.2, 4.2 4.8875
7 0.1, 0.2, 0.3, 0.6, 0.6, 1.8, 2.0 2.3, 3.2, 4.2 5.42667
8 0.1, 0.2, 0.3, 0.6, 0.6, 1.8, 2.0, 2.3 3.2, 4.2 6.08875
9 0.1, 0.2, 0.3, 0.6, 0.6, 1.8, 2.0, 2.3, 3.2 4.2 9.94
03
新知讲解
计算结果表明,将数据分成 {0.1, 0.2, 0.3, 0.6, 0.6} 和 {1.8, 2.0, 2.3, 3.2, 4.2} 两组时,组内离差平方和最小,即组内人均耕地面积数据波动最小,两组之间数据差异最大。所以将上海、广东、福建、江苏、安徽分在一组,其余地区分在另一组比较合理。
04
课堂练习
【知识技能类作业】必做题:
1.将排序后的数据分为两组,下列关于计算组内离差平方和的说法正确的是( )
A.计算第一组的离差平方和即可
B.应计算两组离差平方和的总和
C.仅计算最大值与最小值的差
D.应计算两组离差平方和的平均数
B
04
课堂练习
【知识技能类作业】选做题:
2.把5个数据-1,3,1,5,4分成{-1,1}和{3,4,5}两组,则这种分组情况的组内离差平方和为 。
4
04
课堂练习
【综合拓展类作业】
3.甲、乙、丙、丁四名学生竞赛成绩(单位:分)如下:15,18,15,24,按照“组内离差平方和最小”的原则,将竞赛成绩分成两组。
04
课堂练习
【综合拓展类作业】
3.解:将4个数据从小到大排序:15,15,18,24。
把4个数据分成两组,共有3种情况:
第一种情况:第一组1个数据{15},离差平方和为0;
第二组3个数据{15,18,24},平均数是19,
离差平方和为(15-19)2+(18-19)2+(24-19)2=42,
故第一种情况的组内离差平方和为0+42=42;
第二种情况:第一组2个数据{15,15},平均数是15,离差平方和为0;
04
课堂练习
【综合拓展类作业】
第二组2个数据{18,24},平均数是21,离差平方和为(18-21)2+(24-21)2=18,故第二种情况的组内离差平方和为0+18=18;
第三种情况:第一组3个数据{15,15,18},平均数是=16,离差平方和为(15-16)2+(15-16)2+(18-16)2=6;
第二组1个数据{24},离差平方和为0,
故第三种情况的组内离差平方和为0+6=6。
∵6<18<42,∴第三种情况的组内离差平方和最小,
∴将竞赛成绩分成的两组是{15,15,18},{24}。
05
课堂小结
1.容易混淆“组内离差平方和”“组间离差平方和”“总离差平方和”的概念,难以理解三者之间的关系,无法解释“为什么组内离差平方和最小就是最优分组”。
2.分组无序:面对多个数据时,无法有序列举所有分组情况,容易遗漏或重复,导致无法找到最优分组方案。
06
作业布置
【知识技能类作业】必做题:
1.把数据2,8,10,4,12按大小顺序分成两组,能使“组内离差平方和达到最小”的是( )
A.{2},{4,8,10,12} B.{2,4},{8,10,12}
C.{2,4,8},{10,12} D.{2,4,8,10},{12}
B
06
作业布置
【知识技能类作业】选做题:
返回
2.假设 4 个城市的人均用水量(单位:吨)为:城市A:8,城市B:10,城市C:12,城市D:15。根据组内离差平方和最小原则,把这 4 个城市分成两组,那么分组为 和 。
{A,B}
{C,D}
06
作业布置
【知识技能类作业】选做题:
返回
3.假设6家企业的年产值(单位:万元)分别为100,200,300,400,500,600。根据年产值的组内离差平方和最小原则,把这6家企业分成两组。
06
作业布置
【综合拓展类作业】
解:计算各种分组组内离差平方和如下表:
第1组 第2组 组内离差平方和
100 200,300,400,500,600 100000
100,200 300,400,500,600 55000
100,200,300 400,500,600 40000
100,200,300,400 500,600 55000
100,200,300,400,500 600 100000
故最小组内离差平方和为 40000,对应分组:{100,200,300} 和 {400,500,600}。
Thanks!
https://www.21cnjy.com/recruitment/home/fine