(共18张PPT)
浙教版八年级下册
3.3 离差平方和与方差(2)
某校运动队有 5 名同学准备参加跳高比赛,他们的跳高最好成绩如下:
表 3-7 某校运动队 5 名同学跳高最好成绩统计表
队员编号 1 2 3 4 5
成绩 /m 1.58 1.75 1.63 1.65 1.78
为了让队员能更有效地进行赛前训练,教练计划将 5 名同学按他们的跳高成绩的高低分成两组。怎样分组比较合理?
从小到大排列:
相对集中的数据分在一组:
1.58, 1.63, 1.65, 1.75, 1.78
数轴表示:
{1.58, 1.63, 1.65}, {1.75, 1.78}
第 1 组数据 第 2 组数据 D12+D12
1 个数据: 1.58 4 个数据: 1.63, 1.65, 1.75, 1.78 0.016275
2 个数据: 1.58, 1.63 3 个数据: 1.65, 1.75, 1.78 0.010517
3 个数据: 1.58, 1.63, 1.65 2 个数据: 1.75, 1.78 0.00305
4 个数据: 1.58, 1.63, 1.65, 1.75 1 个数据: 1.78 0.015275
5名队员的跳高成绩分成 2 组,共有 4 种情况,设各组内的离差平方和分别为D12,D22,计算D12+D22。
{1.58, 1.63, 1.65}, {1.75, 1.78} ,D12+D22最小
{队员1,队员3,队员4}, {队员2, 队员5},组内同学的跳高水平最接近。
队员编号 1 2 3 4 5
成绩 /m 1.58 1.75 1.63 1.65 1.78
一般地,设有n个数据x1 ,x2 ,x3 ,…,xn ,它们的平均数为 ,离差平方和为D2。把这些数据分为两组,第1组有k1 个数据,平均数为 ,离差平方和为D12 ;第 2 组有k2 个数据,平均数为 ,离差平方和为D22 ,其中k1 +k2 =n。
组内离差平方和:(D12+D22)
组间离差平方和:
总离差平方和:D2
等式:
表达了两个组组内数据的离散程度
表达了两个组之间的差异
合理的分组原则:
D12+D22最小,
最大
大数据分析中,数据分组的重要的方法:
“组内离差平方和最小”
国家有关部门根据各地的人均耕地面积数据,进行分类研究,制定切合各地实际的政策。带着这个问题,统计学兴趣小组的同学收集了我国10个地区的人均耕地面积数据,如表 3-9。
表 3-9 我国 10 个地区人均耕地面积统计表
地区 人均耕地面积 / 千平方米
黑龙江 4.2
新疆 2.3
江苏 0.6
安徽 0.6
福建 0.3
上海 0.1
内蒙古 3.2
吉林 1.8
广东 0.2
甘肃 2
如果将这 10 个地区分成两组,
尽可能使组内各地区的人均耕地面积接近、不同组地区的人均耕地面积差异较大,
应如何分组?
①将这 10 个地区的人均耕地面积从小到大排列:
0.1, 0.2, 0.3, 0.6, 0.6, 1.8, 2.0, 2.3, 3.2, 4.2
表 3-10
组序 第 1 组数据 第 2 组数据 组内离差平方和
1 0.1 0.2, 0.3, 0.6, 0.6, 1.8, 2.0, 2.3, 3.2, 4.2 15.58889
2 0.1, 0.2 0.3, 0.6, 0.6, 1.8, 2.0, 2.3, 3.2, 4.2 13.1
3 0.1, 0.2, 0.3 0.6, 0.6, 1.8, 2.0, 2.3, 3.2, 4.2 10.28
4 0.1, 0.2, 0.3, 0.6 0.6, 1.8, 2.0, 2.3, 3.2, 4.2 7.775
5 0.1, 0.2, 0.3, 0.6, 0.6 1.8, 2.0, 2.3, 3.2, 4.2 4.172
6 0.1, 0.2, 0.3, 0.6, 0.6, 1.8 2.0, 2.3, 3.2, 4.2 4.8875
7 0.1, 0.2, 0.3, 0.6, 0.6, 1.8, 2.0 2.3, 3.2, 4.2 5.42667
8 0.1, 0.2, 0.3, 0.6, 0.6, 1.8, 2.0, 2.3 3.2, 4.2 6.08875
9 0.1, 0.2, 0.3, 0.6, 0.6, 1.8, 2.0, 2.3, 3.2 4.2 9.94
注意:离差平方和的计算量比较大,
我们可以借助计算机软件或者自己设计算法、编写程序来解决。
将数据分成 {0.1, 0.2, 0.3, 0.6, 0.6}
和{1.8, 2.0, 2.3, 3.2, 4.2} 两组时,
组内离差平方和最小,
即组内人均耕地面积数据波动最小,
两组之间数据差异最大。
所以将上海、广东、福建、江苏、安徽分在一组,
其余地区分在另一组比较合理。
地区 人均耕地面积 / 千平方米
黑龙江 4.2
新疆 2.3
江苏 0.6
安徽 0.6
福建 0.3
上海 0.1
内蒙古 3.2
吉林 1.8
广东 0.2
甘肃 2
组内离差平方和:(D12+D22)
组间离差平方和:
总离差平方和:D2
等式:
表达了两个组组内数据的离散程度
表达了两个组之间的差异
合理的分组原则:
D12+D22最小,
最大
大数据分析中,数据分组:
组内离差平方和最小就是最优分组”。
总结:
前3个数据:
2、3、4
x
.
=3
D12 =
= 2
.
后3个数据:
8、9、10
x
.
D22 =
= 2
.
这两组数据的组内离差平方和:D12+D22=4
当堂检测:
1.
总离差平方和=组内离差平方和+组间离差平方和
100-78=22
3.
组内离差平方和:(D12+D22)
组内离差平方和最小就是最优分组”。
4.
1.数据分组的核心原则:组内离差平方和最小、组间差异最大
知识小结:
2.有序列举不同的分组情况,计算各组的组内离差平方和,找到最优分组方案。
3.能运用数据分组的方法,解决简单的实际问题
(如学生成绩分组、数据分类等),初步具备数据分析和应用能力。
5.
6.
组内离差平方和最小,
组内生产总值数据波动最小,
两组之间数据差异最大
7.
0
谢谢
21世纪教育网(www.21cnjy.com)
中小学教育资源网站
兼职招聘:
https://www.21cnjy.com/recruitment/home/admin