9.3 统计案例 公司员工的肥胖情况调查分析
课标要求
素养要求
进一步学习数据收集和整理的方法、数据直观图表的表示方法、数据统计特征的刻画方法,通过具体实例,感悟在实际生活中进行科学决策的必要性和可能性,体会统计思维与确定性思维的差异,积累数据分析的经验.
通过生活中具体的统计案例模型,进行提出问题、分析数据、建立模型、检验模型来发展数据分析、数学抽象及数学建模素养.
教材知识探究
大数据配合乔布斯癌症治疗
苹果手机创始人乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人.为此,他支付了高达几十万美元的费用.他得到的不是样本,而是包括整个基因的数据文档.医生按照所有基因按需下药,最终这种方式帮助乔布斯延长了好几年的生命.这是一个著名的数据分析案例.
问题 你知道什么是统计数据分析吗?
提示 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程.这一过程也是质量管理体系的支持过程.在实用中,数据分析可帮助人们作出判断,以便采取适当行动.
统计分析报告的主要组成部分
1.标题
2.前言:简单交代调查的目的、方法、范围等背景情况,使读者了解调查的基本情况.
3.主体:展示数据分析的全过程:
(1)首先明确所关心的问题是什么,说明数据蕴含的信息;
(2)根据数据分析的需要,说明如何选择合适的图表描述和表达数据;
(3)从样本数据中提取能刻画其特征的量,用于分析比较;
(4)通过样本估计总体的统计规律,分析总体的情况.
4.结尾:对主体部分的内容进行概括,给出解决问题的方法和对策.
教材拓展补遗
[微判断]
1.用于样本数据分析的统计图表主要有条形图、扇形图、折线图、频率分布直方图等.(√)
2.反映样本数据的集中趋势的特征量有平均数、中位数、众数等.(√)
3.反映样本数据的离散程度的特征量有方差和标准差.(√)
[微思考]
进行数据分析的过程是什么?
提示 (1)明确主题,说明数据信息;(2)选择图表描述和表达数据;(3)计算样本数据的特征量;(4)估计统计规律.
题型一 数据分析过程的探究
【例1】 [明确问题] 为了实施“精准扶贫”战略,农科院试种了甲、乙两个西红柿新品种,从这两个品种中各任选5株,测量其产量(单位:kg),得到如下数据:
甲
60
80
70
90
70
乙
80
60
70
80
75
利用上述数据,现从中选出一个品种推荐给农民种植,应该推荐哪个品种呢?
[描述数据] 使用折线图描述数据如下:
从折线图上可以看出甲品种的平均产量稍高,但其产量不稳定;乙品种的产量稍低,但其产量较稳定.
[计算特征量] 甲品种的平均产量为甲=74(kg),乙品种的平均产量为乙=73(kg),
所以甲品种的平均产量稍高;
甲品种的方差是s=(142+62+42+162+42)=104,
乙品种的方差是s=(72+132+32+72+22)=56,
由于s>s,所以乙品种的产量较稳定.
[解决问题] 从以上分析可以看出甲品种的平均产量稍高,比乙品种单株平均高1 kg,相差不大,但其产量远不如乙品种稳定.因为是推荐给需要扶助的贫困地区的农民种植,其抗风险能力较弱,所以推荐乙品种.
【例2】 [明确问题] 为了备战下届奥运会,甲、乙两名运动员在相同条件下各射击10次,得到如下数据:
甲射击10次中靶环数分别为:9,5,7,8,7,6,8,6,7,7.
乙射击10次中靶环数分别为:2,4,6,8,7,7,8,9,9,10.
射击队教练希望利用此次射击成绩为依据,挑选一名运动员参加奥运会,请你帮助教练分析两个运动员的成绩,并作出判断.
[描述数据] 用折线图描述数据如下图所示:
由折线图可以看出甲运动员的成绩较稳定.
[计算特征量] 甲射击10次中靶环数由小到大排列为5,6,6,7,7,7,7,8,8,9.
乙射击10次中靶环数由小到大排列为2,4,6,7,7,8,8,9,9,10.
运动员甲的平均成绩
甲=×(5+6×2+7×4+8×2+9)=7(环),
运动员乙的平均成绩
乙=×(2+4+6+7×2+8×2+9×2+10)=7(环),
运动员甲的方差s=×[(5-7)2+(6-7)2×2+(7-7)2×4+(8-7)2×2+(9-7)2]=×(4+2+0+2+4)=1.2,
运动员乙的方差s=×[(2-7)2+(4-7)2+(6-7)2+(7-7)2×2+(8-7)2×2+(9-7)2×2+(10-7)2]=×(25+9+1+0+2+8+9)=5.4.
比较如下:
平均数
方差
命中9环及9环以上的次数
甲
7
1.2
1
乙
7
5.4
3
①∵平均数相同,s<s,∴甲成绩比乙稳定.
②∵平均数相同,命中9环及9环以上的次数甲比乙少,∴乙成绩比甲好些.
③甲成绩在平均数上下波动;而乙处于上升势头,从第三次以后就没有比甲少的情况发生,乙更有潜力.
[解决问题] 参考比赛的历史经验,如果对手的成绩不如甲、乙两个运动员,想确保赢得比赛,选派甲运动员参加比赛;如果对手的成绩远超过甲、乙两个运动员,因为乙更有潜力,成绩的方差较大,有可能超常发挥,则选派乙运动员参加比赛.
题型二 统计案例分析活动的探究和统计分析报告的撰写
【例3】 阶梯电价的设计
一、背景与数据
为了实现绿色发展,践行“绿水青山就是金山银山”的发展理念,避免浪费能源,某市政府计划对居民用电采用阶梯收费的方法.为此,相关部门在该市随机调查了200户居民六月份的用电量(单位:kW·h),以了解这个城市家庭用电量的情况.数据如下:
107 101 78 99 208 127 74 223 31 131
214 135 89 66 60 115 189 135 146 127
203 97 96 62 65 111 56 151 106 8
162 91 67 93 212 159 61 63 178 194
194 216 101 98 139 78 110 192 105 96
22 50 138 251 120 112 100 201 98 84
137 203 260 134 156 61 70 100 72 164
174 131 93 100 163 80 76 95 152 182
88 247 191 70 130 49 114 110 163 202
265 18 94 146 149 147 177 339 57 109
107 182 101 148 274 289 82 213 165 224
142 61 108 137 90 254 201 83 253 113
130 82 170 110 108 63 250 237 120 84
154 288 170 123 172 319 62 133 130 127
107 71 96 140 77 106 132 106 135 132
167 82 258 542 51 107 69 98 72 48
109 134 250 42 320 113 180 144 116 530
200 174 135 160 462 139 133 304 191 283
121 132 118 134 124 178 206 626 120 274
141 80 187 88 324 136 498 169 77 57
二、任务与要求
根据以上数据,应当如何确定阶梯电价中的电量临界值,才能使得电价更为合理?
三、问题的解决
[问题分析]
选取六月份调查,是因为这个城市六月份的部分时间需要使用空调,因此六月份的用电量在一年12个月中处于中等偏上水平.
如果阶梯电价临界值的确定依赖于居民月用电量的分布,例如计划实施3阶的阶梯电价,有人给出一个分布如下:75%用户在第一档(最低一档),20%用户在第二档,5%用户在第三档(最高一档).这样,需要通过样本数据估计第一档与第二档、第二档与第三档的两个电量临界值,即75%和95%这两个电量临界值.
利用电子表格软件,对上面的样本数据进行排序,可以得到下面的结果:
8 18 22 31 42 48 49 50 51 56
57 57 60 61 61 61 62 62 63 63
65 66 67 69 70 70 71 72 72 74
76 77 77 78 78 80 80 82 82 82
83 84 84 88 88 89 90 91 93 93
94 95 96 96 96 97 98 98 98 99
100 100 100 101 101 101 105 106 106 106
107 107 107 107 108 108 109 109 110 110
110 111 112 113 113 114 115 116 118 120
120 120 121 123 124 127 127 127 130 130
130 131 131 132 132 132 133 133 134 134
134 135 135 135 135 136 137 137 138 139
139 140 141 142 144 416 146 147 148 149
151 152 154 156 159 160 162 163 163 164
165 167 169 170 170 172 174 174 177 178
178 180 182 182 187 189 191 191 192 194
194 200 201 201 202 203 203 206 208 212
213 214 216 223 224 237 247 250 250 251
253 254 258 260 265 274 274 283 288 289
304 319 320 324 339 462 498 530 542 626
[特征量分析] (1)样本数据总共有200个,最小值是8,最大值是626,说明200户居民六月份的最小用电量为8 kW·h,最大用电量为626 kW·h,极差为618.
(2)因为数据量是200,那么这组数据的样本中位数就是有序样本第100个数130和第101个数130的平均数,即130,说明这个城市六月份居民用电量的中间水平大约在130 kW·h左右.
(3)因为200×75%=150,所以第一个临界值为有序样本中第150个数178和第151个数178的平均数,仍然是178.
因为200×95%=190,所以第二个临界值为有序样本中第190个数289和第191个数304的平均数,这个平均数为296.5(因为是对第百分位数的估计,估计值可以是289和304之间任何一个数,为了便于操作可以取值为297).
[解决问题] 依据确定了的电量临界值,阶梯电价可以规定如下:
(1)用户每月用电量不超过178 kW·h(或每年用电量不超过2 136 kW·h),按第一档电价标准缴费;
(2)每月用电量(单位:kW·h)在区间(178,297]内(或每年用电量在区间(2 136,3 564]内),其中的178 kW·h按第一档电价标准缴费,超过178 kW·h的部分按第二档电价标准缴费;
(3)每月用量超过297 kW·h(或每年用电量超过3 564 kW·h),其中的178 kW·h按第一档电价标准缴费,119 kW·h按第二档电价标准缴费,超过297 kW·h的部分按第三档电价标准缴费.
社会上对这种制定阶梯电价的原则和方法存在不同意见,可以讨论制定合理阶梯电价的原则和方法.
[统计案例] 对大学毕业生工薪的抽样估计
很多测评机构在比较各个高校的实力或比较不同高校培养的大学生受社会欢迎的程度时,不仅使用到就业率等指标,还经常用大学毕业生的工薪高低来衡量.要反映一个学校所培养学生的工薪水平显然不宜用该校全部学生工薪的最高水平或最低水平,否则容易受个别极端值(统计上也称为异常值)的影响,通常应采用该校全部学生工薪的平均水平、工薪达到一定水平的毕业生比重等统计指标来衡量.但要对毕业生进行全面调查既不太可能也不必要,为此可进行抽样推断,即随机抽取一定数量的大学毕业生构成样本.
从我国某高校2019年毕业且在某地区就业的学生中随机抽取36名进行调查,所得的样本数据如表所示.表中的工薪是指大学毕业生工作第一个月的工薪.
大学毕业生工薪的抽样调查数据
序号
工薪/元
序号
工薪/元
序号
工薪/元
1
5 800
13
5 680
25
6 218
2
6 600
14
6 660
26
6 300
3
7 100
15
5 760
27
5 880
4
6 500
16
5 880
28
5 750
5
5 200
17
6 200
29
6 560
6
6 000
18
6 500
30
6 100
7
5 600
19
6 000
31
6 760
8
6 400
20
7 500
32
6 120
9
6 700
21
6 200
33
6 850
10
6 400
22
7 300
34
6 250
11
5 750
23
6 800
35
6 180
12
6 300
24
6 400
36
6 580
案例分析与思考要求:
1.以[5 000,5 500),[5 500,6 000),[6 000,6 500),[6 500,7 000),[7 000,7 500),将样本数据进行分组,绘制出频率分布直方图,观察样本数据分布特征.
2.根据频率分布直方图,计算样本的中位数、众数和平均数.
3.分析样本中工薪在6 500元以上的毕业生占多大比重,计算所得的数据和实际数据相差多少?
课件24张PPT。9.3 统计案例 公司员工的肥胖情况调查分析教材知识探究大数据配合乔布斯癌症治疗
苹果手机创始人乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人.为此,他支付了高达几十万美元的费用.他得到的不是样本,而是包括整个基因的数据文档.医生按照所有基因按需下药,最终这种方式帮助乔布斯延长了好几年的生命.这是一个著名的数据分析案例.问题 你知道什么是统计数据分析吗?
提示 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程.这一过程也是质量管理体系的支持过程.在实用中,数据分析可帮助人们作出判断,以便采取适当行动.统计分析报告的主要组成部分
1.标题
2.前言:简单交代调查的目的、方法、范围等背景情况,使读者了解调查的基本情况.
3.主体:展示数据分析的全过程:(1)首先明确所关心的问题是什么,说明数据蕴含的信息;
(2)根据数据分析的需要,说明如何选择合适的图表描述和表达数据;
(3)从样本数据中提取能刻画其特征的量,用于分析比较;
(4)通过样本估计总体的统计规律,分析总体的情况.4.结尾:对主体部分的内容进行概括,给出解决问题的方法和对策.教材拓展补遗
[微判断]
1.用于样本数据分析的统计图表主要有条形图、扇形图、折线图、频率分布直方图等.( )
2.反映样本数据的集中趋势的特征量有平均数、中位数、众数等.( )
3.反映样本数据的离散程度的特征量有方差和标准差.( )√√√[微思考]进行数据分析的过程是什么?
提示 (1)明确主题,说明数据信息;(2)选择图表描述和表达数据;(3)计算样本数据的特征量;(4)估计统计规律.题型一 数据分析过程的探究
【例1】 [明确问题] 为了实施“精准扶贫”战略,农科院试种了甲、乙两个西红柿新品种,从这两个品种中各任选5株,测量其产量(单位:kg),得到如下数据:利用上述数据,现从中选出一个品种推荐给农民种植,应该推荐哪个品种呢?[描述数据] 使用折线图描述数据如下:从折线图上可以看出甲品种的平均产量稍高,但其产量不稳定;乙品种的产量稍低,但其产量较稳定.[解决问题] 从以上分析可以看出甲品种的平均产量稍高,比乙品种单株平均高
1 kg,相差不大,但其产量远不如乙品种稳定.因为是推荐给需要扶助的贫困地区的农民种植,其抗风险能力较弱,所以推荐乙品种.【例2】 [明确问题] 为了备战下届奥运会,甲、乙两名运动员在相同条件下各射击10次,得到如下数据:甲射击10次中靶环数分别为:9,5,7,8,7,6,8,6,7,7.
乙射击10次中靶环数分别为:2,4,6,8,7,7,8,9,9,10.
射击队教练希望利用此次射击成绩为依据,挑选一名运动员参加奥运会,请你帮助教练分析两个运动员的成绩,并作出判断.[描述数据] 用折线图描述数据如下图所示:由折线图可以看出甲运动员的成绩较稳定.[计算特征量] 甲射击10次中靶环数由小到大排列为5,6,6,7,7,7,7,8,8,9.
乙射击10次中靶环数由小到大排列为2,4,6,7,7,8,8,9,9,10.比较如下:②∵平均数相同,命中9环及9环以上的次数甲比乙少,∴乙成绩比甲好些.
③甲成绩在平均数上下波动;而乙处于上升势头,从第三次以后就没有比甲少的情况发生,乙更有潜力.[解决问题] 参考比赛的历史经验,如果对手的成绩不如甲、乙两个运动员,想确保赢得比赛,选派甲运动员参加比赛;如果对手的成绩远超过甲、乙两个运动员,因为乙更有潜力,成绩的方差较大,有可能超常发挥,则选派乙运动员参加比赛.题型二 统计案例分析活动的探究和统计分析报告的撰写
【例3】 阶梯电价的设计一、背景与数据
为了实现绿色发展,践行“绿水青山就是金山银山”的发展理念,避免浪费能源,某市政府计划对居民用电采用阶梯收费的方法.为此,相关部门在该市随机调查了200户居民六月份的用电量(单位:kW·h),以了解这个城市家庭用电量的情况.数据如下:
107 101 78 99 208 127 74 223 31 131
214 135 89 66 60 115 189 135 146 127
203 97 96 62 65 111 56 151 106 8162 91 67 93 212 159 61 63 178 194
194 216 101 98 139 78 110 192 105 96
22 50 138 251 120 112 100 201 98 84
137 203 260 134 156 61 70 100 72 164
174 131 93 100 163 80 76 95 152 182
88 247 191 70 130 49 114 110 163 202
265 18 94 146 149 147 177 339 57 109
107 182 101 148 274 289 82 213 165 224
142 61 108 137 90 254 201 83 253 113
130 82 170 110 108 63 250 237 120 84154 288 170 123 172 319 62 133 130 127
107 71 96 140 77 106 132 106 135 132
167 82 258 542 51 107 69 98 72 48
109 134 250 42 320 113 180 144 116 530
200 174 135 160 462 139 133 304 191 283
121 132 118 134 124 178 206 626 120 274
141 80 187 88 324 136 498 169 77 57
二、任务与要求
根据以上数据,应当如何确定阶梯电价中的电量临界值,才能使得电价更为合理?
三、问题的解决[问题分析]
选取六月份调查,是因为这个城市六月份的部分时间需要使用空调,因此六月份的用电量在一年12个月中处于中等偏上水平.
如果阶梯电价临界值的确定依赖于居民月用电量的分布,例如计划实施3阶的阶梯电价,有人给出一个分布如下:75%用户在第一档(最低一档),20%用户在第二档,5%用户在第三档(最高一档).这样,需要通过样本数据估计第一档与第二档、第二档与第三档的两个电量临界值,即75%和95%这两个电量临界值.
利用电子表格软件,对上面的样本数据进行排序,可以得到下面的结果:8 18 22 31 42 48 49 50 51 56
57 57 60 61 61 61 62 62 63 63
65 66 67 69 70 70 71 72 72 74
76 77 77 78 78 80 80 82 82 82
83 84 84 88 88 89 90 91 93 93
94 95 96 96 96 97 98 98 98 99
100 100 100 101 101 101 105 106 106 106
107 107 107 107 108 108 109 109 110 110
110 111 112 113 113 114 115 116 118 120
120 120 121 123 124 127 127 127 130 130130 131 131 132 132 132 133 133 134 134
134 135 135 135 135 136 137 137 138 139
139 140 141 142 144 416 146 147 148 149
151 152 154 156 159 160 162 163 163 164
165 167 169 170 170 172 174 174 177 178
178 180 182 182 187 189 191 191 192 194
194 200 201 201 202 203 203 206 208 212
213 214 216 223 224 237 247 250 250 251
253 254 258 260 265 274 274 283 288 289
304 319 320 324 339 462 498 530 542 626[特征量分析] (1)样本数据总共有200个,最小值是8,最大值是626,说明200户居民六月份的最小用电量为8 kW·h,最大用电量为626 kW·h,极差为618.
(2)因为数据量是200,那么这组数据的样本中位数就是有序样本第100个数130和第101个数130的平均数,即130,说明这个城市六月份居民用电量的中间水平大约在130 kW·h左右.
(3)因为200×75%=150,所以第一个临界值为有序样本中第150个数178和第151个数178的平均数,仍然是178.
因为200×95%=190,所以第二个临界值为有序样本中第190个数289和第191个数304的平均数,这个平均数为296.5(因为是对第百分位数的估计,估计值可以是289和304之间任何一个数,为了便于操作可以取值为297).[解决问题] 依据确定了的电量临界值,阶梯电价可以规定如下:
(1)用户每月用电量不超过178 kW·h(或每年用电量不超过2 136 kW·h),按第一档电价标准缴费;
(2)每月用电量(单位:kW·h)在区间(178,297]内(或每年用电量在区间(2 136,3 564]内),其中的178 kW·h按第一档电价标准缴费,超过178 kW·h的部分按第二档电价标准缴费;
(3)每月用量超过297 kW·h(或每年用电量超过3 564 kW·h),其中的178 kW·h按第一档电价标准缴费,119 kW·h按第二档电价标准缴费,超过297 kW·h的部分按第三档电价标准缴费.
社会上对这种制定阶梯电价的原则和方法存在不同意见,可以讨论制定合理阶梯电价的原则和方法.