3.2 独立性检验的基本思想及其初步应用
自主预习·探新知
情景引入
饮用水的质量是人类普遍关心的问题.据统计,饮用优质水的518人中,身体状况优秀的有466人,饮用一般水的312人中,身体状况优秀的有218人.
人的身体健康状况与饮用水的质量之间有关系吗?
新知导学
1.与列联表相关的概念
(1)分类变量:变量的不同“__值__”表示个体所属的__不同类别__,像这样的变量称为分类变量.
(2)列联表:
①列出__两个__分类变量的__频数表__,称为列联表.
②一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
YX
y1
y2
总计
x1
a
b
__a+b__
x2
c
d
__c+d__
总计
__a+c__
__b+d__
a+b+c+d
2.等高条形图
等高条形图与表格相比,图形更能直观地反映出两个分类变量间是否__相互影响__,常用等高条形图展示列表数据的__频率特征__.
3.独立性检验的基本思想
(1)定义:利用随机变量__K2__来判断“两个分类变量__有关系__”的方法称为独立性检验.
(2)公式:K2=____,其中n=__a+b+c+d__.
(3)独立性检验的具体做法:
①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定__临界值__k0.
②利用公式计算随机变量K2的__观测值__k.
③如果__k≥k0__,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在__犯错误的概率__不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中__没有发现足够证据__支持结论“X与Y有关系”.
预习自测
1.下表是一个2×2列联表:
y1
y2
总计
x1
a
21
73
x2
2
25
27
总计
b
46
100
则表中a、b处的值分别为( C )
A.94,96
B.52,50
C.52,54
D.54,52
[解析] 由得
2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
男
女
总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
由K2=算得
K2=≈7.8.
附表:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
参照附表,得到的正确结论是( A
)
A.有99%以上的把握认为“爱好该项运动与性别有关”
B.有99%以上的把握认为“爱好该项运动与性别无关”
C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
[解析] 根据独立性检验的定义,由K2≈7.8>6.635可知,有99%以上把握认为“爱好该项运动与性别有关”.
3.(2020·泸州模拟)某中学兴趣小组为调查该校学生对学校食堂的某种食品喜爱与否是否与性别有关,随机询问了100名性别不同的学生,得到如下的2×2列联表:
男生
女生
总计
喜爱
30
20
50
不喜爱
20
30
50
总计
50
50
100
附K2=
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
k0
2.072
2.706
3.841
5.024
6.635
根据以上数据,该数学兴趣小组有多大把握认为“喜爱该食品与性别有关”( C )
A.99%以上
B.97.5%以上
C.95%以上
D.85%以上
[解析] K2==4>3.841,
∴该数学兴趣小组有95%以上把握认为“喜爱该食品与性别有关”.
故选C.
4.某班主任对全班50名学生进行了作业量多少的调查,数据如下表所示:
作业量的情况玩电脑游戏的情况
认为作业多
认为作业不多
总数
喜欢玩电脑游戏
18
9
27
不喜欢玩电脑游戏
8
15
23
总数
26
24
50
则认定喜欢玩电脑游戏与认为作业量的多少有关系的把握为( B )
A.99%
B.95%
C.90%
D.以上都不对
[解析] K2=≈5.059>3.841.
因而有95%的把握认定喜欢玩电脑游戏与认为作业量的多少有关.
互动探究·攻重难
互动探究解疑
命题方向?
利用等高条形图判断两个分类变量是否相关
典例1 为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:
组别
阳性数
阴性数
总计
铅中毒病人
29
7
36
对照组
9
28
37
总计
38
35
73
试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系.
[解析] 等高条形图如图所示:
其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.
由图可以直观地看出铅中毒病人与对照组相比较尿棕色素为阳性差异明显,因此铅中毒病人与尿棕色素为阳性有关系.
『规律总结』 1.判断两个分类变量是否有关系的两种常用方法
(1)利用数形结合思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法.
(2)一般地,在等高条形图中,与相差越大,两个分类变量有关系的可能性就越大.
2.利用等高条形图判断两个分类变量是否相关的步骤
独立性检验的计算公式?
K2=
┃┃跟踪练习1__■
(1)假设两个变量x与y的2×2列联表如下表:
y1
y2
x1
a
b
x2
c
d
对于以下数据,对同一样本能说明x与y有关系的可能性最大的一组为( B )
A.a=2,b=3,c=4,d=5
B.a=5,b=3,c=3,d=4
C.a=3,b=6,c=2,d=5
D.a=5,b=3,c=4,d=3
[解析] 根据观测值求解的公式可以知道,当ad与bc差距越大,两个变量有关的可能性就越大,检验四个选项中所给的ad与bc的差距:
A:ad-bc=10-12=-2,B:ad-bc=20-9=11,C:ad-bc=15-12=3,D:ad-bc=15-12=3.
显然B中|ad-bc|最大,故选B.
(2)某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件.试利用列联表和等高条形图判断监督员甲在不在生产现场对产品质量好坏有无影响.
[解析] 根据题目所给数据得如下2×2列联表:
合格品数
次品数
总计
甲在生产现场
982
8
990
甲不在生产现场
493
17
510
总计
1
475
25
1
500
所以ad-bc=982×17-8×493=12
750,|ad-bc|比较大,说明甲在不在生产现场与产品质量好坏有关系.
相应的等高条形图如图所示.
图中两个阴影部分的高分别表示甲在生产现场和甲不在生产现场时样品中次品数的频率.从图中可以看出,甲不在生产现场时样本中次品数的频率明显高于甲在生产现场时样本中次品数的频率.因此可以认为质量监督员甲在不在生产现场与产品质量好坏有关系.
命题方向?
独立性检验的应用
典例2 某中学对高二甲、乙两个同类班级,进行“加强‘语文阅读理解’训练,对提高‘数学应用题’得分率的作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:
60分以下
61-70分
71-80分
81-90分
91-100分
甲班(人数)
3
11
6
12
18
乙班(人数)
7
8
10
10
15
现规定平均成绩在80分以上(不含80分)的为优秀.
(1)试分析估计两个班级的优秀率;
(2)由以上统计数据填写下面2×2列联表,根据以上数据,能否有95%的把握认为加强“语文阅读理解”训练对提高“数学应用题”得分率有帮助?
优秀人数
非优秀人数
合计
甲班
乙班
合计
参考公式及数据:K2=.
P(K2≥k0)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
[思路分析] (1)由表格统计出甲、乙两个班的总人数和优秀人数,求出优秀率;
(2)依统计数据填写列联表,代入公式计算K2的估计值,查表下结论.
[解析] (1)由题意知,甲、乙两班均有学生50人,
甲班优秀人数为30人,优秀率为=60%,
乙班优秀人数为25人,优秀率为=50%,
所以甲、乙两班的优秀率分别为60%和50%.
(2)
优秀人数
非优秀人数
合计
甲班
30
20
50
乙班
25
25
50
合计
55
45
100
因为K2=≈1.010<3.841,
所以由参考数据知,没有95%的把握认为有帮助.
『规律总结』 1.独立性检验的步骤:
第一步,确定分类变量,获取样本频数,得到列联表.
第二步,根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.
第三步,利用公式K2=计算随机变量K2的观测值K0.
第四步,作出判断.
如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.
2.由于独立性检验计算量大,要细致,避免计算失误.
┃┃跟踪练习2__■
为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.能否在犯错误的概率不超过0.1的前提下,认为“学生选报文、理科与对外语的兴趣有关”?
[解析] 根据题目所给的数据得到如下联系:
理科
文科
总计
有兴趣
138
73
211
无兴趣
98
52
150
总计
236
125
361
根据列联表中数据由公式计算得
k=≈1.871×10-4.
因为1.871×10-4<2.706,
所以,在犯错误的概率不超过0.1的前提下,不能认为“学生选报文、理科与对外语的兴趣有关”.
学科核心素养
独立性检验的综合应用
独立性检验的思想来自统计上的假设检验思想,它与反证法类似.假设检验和反证法都是先假设结论不成立,然后根据是否能够推出“矛盾”来断定结论是否成立.但二者“矛盾”的含义不同,反证法中的“矛盾”是指一个不符合逻辑的事情发生,而假设检验中的“矛盾”是指一个小概率事件发生,即在结论不成立的假设下,推出有利于结论成立的小概率事件发生.我们知道小概率事件在一次试验中通常是不会发生的,若在实际中这个事件发生了,说明保证这个事件为小概率事件的条件有问题,即结论在很大的程度上应该成立.
典例3 某工厂有工人1
000名,其中250名工人参加过短期培训(称为A类工人),另外750名工人参加过长期培训(称为B类工人).现用分层抽样的方法(按A类、B类分两层)从该工厂的工人中抽取100名工人,调查他们的生产能力(此处生产能力指一天加工的零件数),结果如下表:
表1:A类工人生产能力的频数分布表
生产能力分组
[110,120)
[120,130)
[130,140)
[140,150)
人数
8
x
3
2
表2:B类工人生产能力的频数分布表
生产能力分组
[110,120)
[120,130)
[130,140)
[140,150)
人数
6
y
27
18
(1)确定x、y的值;
(2)完成下面2×2列联表,并回答能否在犯错误的概率不超过0.001的前提下认为工人的生产能力与工人的类别有关系?
生产能力分组工人类别
[110,130)
[130,150)
总计
A类工人
B类工人
总计
附:K2=,
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
[思路分析] (1)确定x、y的值,可用分层抽样解决;(2)判断在规定条件下工人的生产能力与工人的类别是否有关系可通过独立性检验解决.
由已知工厂中A、B类工人的人数和抽取工人数,进行分层抽样,可直接计算A、B类工人样本数;由表1、表2可得列联表,计算K2的观测值k与临界值可比较.
[解析] (1)∵从该工厂的工人中抽取100名工人,且该工厂中有250名A类工人,750名B类工人,
∴要从A类工人中抽取25名,从B类工人中抽取75名,
∴x=25-8-3-2=12,y=75-6-27-18=24.
(2)根据所给的数据可以完成列联表,如下表所示:
生产能力分组工人类别
[110,130)
[130,150)
总计
A类工人
20
5
25
B类工人
30
45
75
总计
50
50
100
由列联表中的数据,得K2的观测值为
k==12>10.828,
因此,在犯错误的概率不超过0.001的前提下认为工人的生产能力与工人的类别有关系.
『规律总结』 两个分类变量相关关系的判断
(1)等高条形图法:在等高条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例,也可以估计满足条件X=x2的个体中具有Y=y1的个体所占的比例.两个比例的值相差越大,X与Y有关系成立的可能性就越大.
(2)观测值法:通过2×2列联表,先计算K2的观测值k,然后借助k的含义判断“两个分类变量有关系”这一结论成立的可信程度.
┃┃跟踪练习3__■
某高校共有15
000人,其中男生10
500人,女生4
500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).
(1)应收集多少位女生的样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].在样本数据中,有60位女生的每周平均体育运动时间超过4个小时.请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
P(K2≥k0)
0.10
0.05
0.010
0.005
k0
2.706
3.841
6.635
7.879
附:K2=
[解析] (1)300×=90,所以应收集90位女生的样本数据.
(2)由频率分布直方图得1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时,又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:
每周平均体育运动时间与性别列联表
男生
女生
总计
每周平均体育运动时间不超过4小时
45
30
75
每周平均体育运动时间超过4小时
165
60
225
总计
210
90
300
综合列联表可算得K2==≈4.762>3.841.
所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关.”
易混易错警示
因对独立性检验的基本思想不理解而致错
典例4 已知两个分类变量X和Y的取值分别为{x1,x2},{y1,y2},若其列联表为
y1
y2
x1
5
15
x2
40
10
则( D )
A.X与Y之间有关系的概率为0.001
B.X与Y之间有关系的概率为0.999
C.认为X与Y有关系,犯错误的概率为0.999
D.认为X与Y有关系,犯错误的概率不超过0.001
[错解] 独立性检验的基本思想是指某件事发生在犯错概率不超过某个非常小的数据的前提下,我们有把握认为有关.理解有误会致误.
[辨析] 1.在求K2的过程中,弄混a,b,c,d而致错或者因运算量大而致错.
2.没有理解好独立性检验的基本思想而致错.
[正解] K2的观测值为
k=≈18.822.查表知P(K2≥10.828)=0.001,
所以在犯错误的概率不超过0.001的前提下,我们认为X与Y有关.
课堂达标·固基础
1.在某次飞行航程中遭遇恶劣气候,55名男乘客中有24名晕机,34名女乘客中有8名晕机,在检验这些乘客晕机是否与性别有关时,采用的数据分析方法应是( C )
A.频率分布直方图
B.回归分析
C.独立性检验
D.用样本估计总体
[解析] 根据题意,结合题目中的数据,列出2×2列联表,求出K2观测值,对照数表可得出概率结论,这种分析数据的方法是独立性检验.
2.如表是一个2×2列联表:则表中a,b的值分别为( C )
y1
y2
总计
x1
a
21
73
x2
22
25
47
总计
b
46
120
A.94,72
B.52,50
C.52,74
D.74,52
[解析] a=73-21=52,b=a+22=52+22=74.
3.利用独立性检验来考虑两个分类变量X和Y是否有关系时,通过查阅下表来确定“X和Y有关系”的可信度.如果
K2的观测值k>5.024,那么在犯错误的概率不超过______的前提下认为“X和Y有关系”( D )
P(K2≥k0)
0.50
0.40
0.25
0.15
0.10
k0
0.455
0.708
1.323
2.072
2.706
P(K2>k0)
0.05
0.025
0.010
0.005
0.001
k0
3.841
5.024
6.635
7.879
10.828
A.0.25
B.0.05
C.0.1
D.0.025
[解析] 因为K2的观测值k>5.025,而在临界值表中对应于5.024的是0.025,所以可以在犯错误的概率不超过0.025的前提下认为“X和Y有关系”.
4.为考察某种药物对预防禽流感的效果,在四个不同的实验室取相同的个体进行动物试验,根据四个实验室得到的列联表画出如下四个等高条形图,最能体现该药物对预防禽流感有显著效果的图形是( D )
[解析] 分析四个等高条形图得选项D中,不服用药物患病的概率最大,服用药物患病的概率最小,所以最能体现该药物对预防禽流感有显著效果,故选D.
5.(2020·济南高二检测)分类变量X和Y的列表如下,则下列说法判断正确的是( C )
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
A.ad-bc越小,说明X和Y关系越弱
B.ad-bc越大,说明X和Y关系越强
C.(ad-bc)2越大,说明X与Y关系越强
D.(ad-bc)2越接近于0,说明X与Y关系越强
[解析] 列联表可以较为准确地判断两个变量之间的相关关系程度,
由K2=,
当(ad-bc)2越大,K2越大,表明X与Y的关系越强.
(ad-bc)2越接近0,说明两个分类变量X和Y无关的可能性越大.
即所给说法判断正确的是C.
PAGE第三章 统计案例
, 你坐过火车、乘过飞机吗?晕车、晕机与性别有无关系?肺癌是人类的一大杀手,吸烟与患肺癌的关联性究竟有多大?你了解过你们班同学的身高与体重吗,身高与体重是否线性相关?你统计过你们班同学的考试成绩吗,物理成绩的高低与数学成绩关联度有多大?……这些都是统计学研究的内容.
本章我们将要学习独立性检验和回归分析的基本思想、方法.学习本章要注意学习收集、整理、分析数据的方法,体会统计分析的基本思想、建模思想和现代计算技术在统计中的应用,体会统计思维和确定性思维的差异.
3.1 回归分析的基本思想及其初步应用
自主预习·探新知
情景引入
2019年6月17日四川宜宾发生6.1级地震,此后40分钟内连发四次余震,最高震级5.1级,此次地震余震频繁而且震级还高,你知道地震的震级与地震次数之间有什么关系吗?
新知导学
一、回归直线方程
1.回归分析是处理两个变量之间__相关关系__的一种统计方法.若两个变量之间具有线性相关关系,则称相应的回归分析为__线性回归分析__.
2.回归直线方程为=x+,其中=____ =____,__(,)__称为样本点的中心.
3.线性相关关系强与弱的判断:用__相关系数r__来描述线性相关关系的强弱.
对于变量x、y随机抽取到的n对数据(x1,y1)、(x2,y2)、…、(xn,yn),其相关系数r==
.
当r>0时,表明两个变量__正相关__;当r<0时,表明两个变量__负相关__.r的绝对值越接近1,表明两个变量的线性相关性越__强__;r的绝对值接近于0时,表明两个变量之间几乎不存在线性相关关系.通常当|r|大于__0.75__时,认为两个变量有很强的线性相关关系.
二、线性回归分析
1.随机误差
(1)随机误差的概念:当样本点散布在某一条直线的附近,而不是在一条直线上时,不能用一次函数y=bx+a来描述两个变量之间的关系,而是用线性回归模型__y=bx+a+e__来表示,这里__x__称为解释变量,__y__称为预报变量,__e__称为随机误差,E(e)=__0__,D(e)=__σ2__.
(2)随机误差及其产生的原因
从散点图中我们可以看到,样本点散布在某一条直线附近,而不是在一条直线上,所以不能用一次函数y=bx+a来描述它们之间的关系,我们用下面的线性回归模型来表示:y=bx+a+e,其中a、b为模型的未知数,e称为随机误差.产生随机误差的主要原因有以下3个方面:
①用线性回归模型近似真实模型(真实模型是客观存在的,通常我们并不知道真实模型是什么)所引起的误差.可能存在非线性的函数能更好地描述y与x之间的关系,但是现在却用线性函数来表述这种关系,结果会产生误差.这种由模型近似所引起的误差包含在e中.
②忽略了某些因素的影响.影响变量y的因素不只变量x,可能还包括其他许多因素(例如在描述身高和体重关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响),它们的影响都体现在e中.
③观测误差.由于测量工具等原因,导致y的观测值产生误差(比如一个人的体重是确定的数,但由于测量工具的影响和测量人技术的影响可能会得到不同的观测值,与真实值之间存在误差),这样的误差也包含在e中.
2.残差
对于样本点(x1,y1)、(x2,y2)、…、(xn,yn),其回归方程为=x+,用作为回归模型中bx+a的估计值,随机误差ei=yi-bxi-a的估计值i=__yi-xi-__(i=1,2,…,n),称为相应于点(xi,yi)的残差.
3.残差图
以__残差__为纵坐标,__样本编号__(或身高数据,或体重的估计值等)为横坐标作出的图形,称为残差图.
4.在线性回归模型中,R2表示解释变量对预报变量变化的__贡献率__.R2越接近于1,表示解释变量和预报变量的线性相关性越强;反之,R2越小,说明随机误差对预报变量的效应越大.
相关指数R2的计算公式是R2=1-.
R2的值越大,说明残差平方和越小,也就是说模型的拟合效果(即回归效果)越__好__.
在含有一个解释变量的线性模型中,R2恰好等于__相关系数r__的平方.
预习自测
1.在对两个变量x,y进行线性回归分析时,有下列步骤:
①对所求出的回归直线方程作出解释;
②收集数据(xi,yi),i=1,2,…,n;
③求线性回归方程;
④求相关系数;
⑤根据所搜集的数据绘制散点图.
如果根据可行性要求能够作出变量x,y具有线性相关的结论,则在下列操作顺序中正确的是( D )
A.①②⑤③④
B.③②④⑤①
C.②④③①⑤
D.②⑤④③①
[解析] 对两个变量进行回归分析时,
首先收集数据(xi,yi),i=1,2,…,n;根据所搜集的数据绘制散点图.
观察散点图的形状,判断线性相关关系的强弱,
求相关系数,写出线性回归方程,
最后依据所求出的回归直线方程作出解释;
故正确顺序是②⑤④③①,
故选D.
2.(2020·南充模拟)已知变量x与变量y之间具有相关关系,并测得如下一组数据:
x
6
5
10
12
y
6
5
3
2
则变量x与y之间的线性回归直线方程可能为( B )
A.=0.7x-2.3
B.=-0.7x+10.3
C.=-10.3x+0.7
D.=10.3x-0.7
[解析] 根据表中数据,得;
=(6+5+10+12)=,
=(6+5+3+2)=4,
且变量y随变量x的增大而减小,是负相关,
所以,验证=时,=-0.7×+10.3≈4,
即回归直线=-0.7x+10.3过样本中心点(,).
故选B.
3.(2020·武汉高二检测)在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据:
年龄
23
27
39
41
45
49
50
53
56
58
60
脂肪
9.5
17.8
21.2
25.9
27.5
26.3
28.2
29.6
31.4
33.5
35.2
通过计算得到回归方程为=0.577x-0.448,利用这个方程,我们得到年龄37岁时体内脂肪含量为20.90%,那么数据20.90%的意义是( D )
A.某人年龄37岁,他体内脂肪含量为20.90%
B.某人年龄37岁,他体内脂肪含量为20.90%的概率最大
C.某人年龄37岁,他体内脂肪含量的期望值为20.90%
D.20.90%是对年龄为37岁的人群中的大部分人的体内脂肪含量所作出的估计
[解析] 利用回归方程=0.577x-0.448,
可得x=37时,=20.901,
即到年龄37岁时体内脂肪含量约为20.90%,
故20.90%是对年龄为37岁的人群中的大部分人的体内脂肪含量所作出的估计,
故选D.
4.为了考察两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做了100次和150次试验,并且利用线性回归方法,求得回归直线分别为l1和l2,已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法正确的是( A )
A.l1和l2有交点(s,t)
B.l1与l2相交,但交点不一定是(s,t)
C.l1与l2必定平行
D.l1与l2必定重合
[解析] 由题意知(s,t)是甲、乙两位同学所做试验的样本点的中心,而线性回归直线恒过样本点的中心,故选A.
5.(2020·全国卷Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据
得到下面的散点图:
由此散点图,在10
℃至40
℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( D )
A.y=a+bx
B.y=a+bx2
C.y=a+bex
D.y=a+blnx
[解析] 由散点图分布可知,散点图分布在一个对数函数的图象附近,因此,最适合作为发芽率y和温度x的回归方程类型的是y=a+blnx.
故选D.
互动探究·攻重难
互动探究解疑
命题方向?
变量间的相关性检测
典例1 关于两个变量x和y的7组数据如下表所示:
x
21
23
25
27
29
32
35
y
7
11
21
24
66
115
325
试判断y与x是否线性相关.
[解析] =(21+23+25+27+29+32+35)≈27.4,
=(7+11+21+24+66+115+325)≈81.3,
=212+232+252+272+292+322+352=5
414,
iyi=21×7+23×11+25×21+27×24+29×66+32×115+35×325=18
542.
=72+112+212+242+662+1152+3252=124
393,
∴r=
=
≈=0.863
9.
由于r=0.863
9>0.75,∴x与y具有线性相关关系.
『规律总结』 变量间是否具有线性相关关系,可通过散点图或相关系数作出判断,散点图只是粗略作出判断,用相关系数能够较准确的判断相关的程度.
┃┃跟踪练习1__■
现随机抽取了我校10名学生在入学考试中的数学成绩(x)与入学后的第一次考试数学成绩(y),数据如下表:
学生号
1
2
3
4
5
6
7
8
9
10
x
120
108
117
104
103
110
104
105
99
108
y
84
64
84
68
69
68
69
46
57
71
请问:这10个学生的两次数学考试成绩是否具有显著的线性相关关系?
[解析] =(120+108+…+99+108)=107.8,
=(84+64+…+57+71)=68,
=1202+1082+…+992+1082=116
584,
=842+642+…+572+712=47
384,
iyi=120×84+108×64+…+108×71=73
796,
所以,相关系数为
r=
≈0.750
6,
由0.750
6>0.75知,两次数学考试成绩有显著的线性相关关系.
命题方向?
求线性回归方程
典例2 某班5名学生的数学和物理成绩如表:
学生学科成绩
A
B
C
D
E
数学成绩(x)
88
76
73
66
63
物理成绩(y)
78
65
71
64
61
(1)画出散点图;
(2)求物理成绩y对数学成绩x的线性回归方程;
(3)一名学生的数学成绩是96,预测他的物理成绩.
[解析] (1)散点图如图.
(2)=×(88+76+73+66+63)=73.2,
=×(78+65+71+64+61)=67.8.
iyi=88×78+76×65+73×71+66×64+63×61
=25
054.
=882+762+732+662+632=27
174,
所以=≈0.625,
=-≈67.8-0.625×73.2=22.05,
所以y对x的回归直线方程是=0.625x+22.05.
(3)当x=96时,=0.625×96+22.05≈82,即可以预测他的物理成绩是82.
『规律总结』 1.散点图是定义在具有相关关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,从图中看它们有无关系,关系的密切程度,再进行相关的回归分析.
2.求回归直线方程,首先应注意到,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.
┃┃跟踪练习2__■
(2020·湖南郴州质检)为了探究车流量与PM2.5的浓度是否相关,现采集到北方某城市2016年12月份某星期星期一到星期日某一时间段车流量与PM2.5的数据如下表:
时间
星期一
星期二
星期三
星期四
星期五
星期六
星期日
车流量x/万辆
1
2
3
4
5
6
7
PM2.5的浓度y(微克/立方米)
28
30
35
41
49
56
62
(1)由散点图知y与x具有线性相关关系,求y关于x的线性回归方程;
(2)①利用(1)所求的回归方程,预测该市车流量为8万辆时PM2.5的浓度;
②规定:当一天内PM2.5的浓度平均值在(0,50]内,空气质量等级为优;当一天内PM2.5的浓度平均值在(50,100]内,空气质量等级为良.为使该市某日空气质量为优或良,则应控制当天车流量在多少万辆以内?(结果以万辆为单位,保留整数.)
参考公式:回归直线的方程是=x+,其中=,=-.
[解析] (1)由数据可得=(1+2+3+4+5+6+7)=4,
=(28+30+35+41+49+56+62)=43,iyi=1372,=140,===6,=-=43-6×4=19,故y关于x的线性回归方程为=6x+19.
(2)①当车流量为8万辆,即x=8时,=6×8+19=67.故当车流量为8万辆时,PM2.5的浓度约为67微克/立方米.
②根据题意得6x+19≤100,即x≤13.5,故要使该市某日空气质量为优或良,应控制当天车流量在13万辆以内.
命题方向?
线性回归分析
典例3 某运动员训练次数与训练成绩之间的数据关系如下:
次数(x)
30
33
35
37
39
44
46
50
成绩(y)
30
34
37
39
42
46
48
51
(1)作出散点图;
(2)求出回归方程;
(3)作出残差图;
(4)计算R2,并说明运动员的训练次数对成绩的影响占百分之几.
[解析] (1)作出该运动员训练次数x与成绩y的散点图,如图所示.由散点图可知,它们之间具有相关关系.
(2)=39.25,=40.875,=12
656,iyi=13
180,
所以=≈1.041
5,
=-=-0.003
875,
∴回归直线方程为=1.041
5x-0.003
875.
(3)残差分析:下面的表格列出了运动员训练次数和成绩的原始数据以及相应的残差数据.
x
y
=y-
30
30
-1.241
1
33
34
-0.365
6
35
37
0.551
4
37
39
0.468
4
39
42
1.385
4
44
46
0.177
9
46
48
0.094
9
50
51
-1.071
1
作残差图如图所示.
由图可知,残差点比较均匀地分布在水平带状区域内,说明选择的模型比较合适.
(4)计算相关指数R2≈0.985
5,说明了该运动员的成绩的差异有98.55%是由训练次数引起的.
『规律总结』 1.解答本类题目应先通过散点图来分析两个变量间的关系是否线性相关,再利用求回归方程的公式求解回归方程,并利用残差图或R2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.
2.“R2、残差图”在回归分析中的作用:
(1)R2是用来刻画回归效果的,由R2=1-可知R2越大,意味着残差平方和越小,也就是说模型的拟合效果就越好.
(2)残差图也是用来刻画回归效果的,判断依据是:残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合精度越高,回归方程预报精度越高.
┃┃跟踪练习3__■
为研究质量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同质量的6个物体进行测量,数据如表所示:
x
5
10
15
20
25
30
y
7.25
8.12
8.95
9.90
10.9
11.8
(1)作出散点图,并求线性回归方程;
(2)求出R2;
(3)进行残差分析.
[解析] (1)散点图如图所示.
因为=×(5+10+15+20+25+30)=17.5,
=×(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,
=2275,iyi=1
076.2
计算得,≈0.183,≈6.285,
所求线性回归方程为=0.183x+6.285.
(2)列表如下:
yi-i
0.05
0.005
-0.08
-0.045
0.04
0.025
yi-
-2.24
-1.37
-0.54
0.41
1.41
2.31
所以(yi-i)2≈0.013
18,(yi-)2=14.678
4.
所以,R2=1-≈0.999
1,
回归模型的拟合效果较好.
(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与重量成线性关系.
命题方向?
非线性回归问题
典例4 有一测量水流的实验装置——量水堰,测得试验数据如下表:
i
1
2
3
4
5
6
7
水高h(厘米)
0.7
1.1
2.5
4.9
8.1
10.2
13.5
流量Q(升/分)
0.082
0.25
1.8
11.2
37.8
66.5
134
根据表中数据,建立Q与h之间的回归方程.
[思路分析] 作散点图,观察确定y与x的近似函数关系,作变量替换,列出新的对应值表求出对应的线性回归方程,再作变量替换得回归方程.
[解析] 根据测得数据作出散点图,如图,根据已有的函数知识,可以发现样本点分布在某一条幂函数型曲线Q=αhβ(α、β是待定的正常数)①的周围.为此将Q=αhβ两边取对数,得到lgQ=βlgh+lgα②,令lgQ=y,lgh=x,于是②式可化为y=βx+lgα.这样y就是x的线性函数了.可以利用线性回归模型来建立y和x之间的线性回归方程y=bx+a(β=b,lgα=a)了.
i
hi
Qi
xi=lghi
yi=lgQi
x
xiyi
1
0.7
0.082
-0.154
9
-1.086
2
0.024
0.168
3
2
1.1
0.25
0.041
4
-0.602
1
0.001
7
-0.024
9
3
2.5
1.8
0.397
9
0.255
3
0.158
3
0.101
6
4
4.9
11.2
0.690
2
1.049
2
0.476
4
0.724
2
5
8.1
37.8
0.908
5
1.574
0
0.825
4
1.430
0
6
10.2
66.5
1.008
6
1.822
8
1.017
3
1.838
5
7
13.5
134
1.130
3
2.127
1
1.277
6
2.404
3
∑
xi=4.022
yi=5.140
1
x=3.780
7
xiyi=6.642
先作出上面数据表,由表得到β
≈2.509
7,lgα≈-0.707
7,则α≈0.196
0.于是所得的回归方程为Q=0.193h2.509
7.
『规律总结』 1.在建立经验公式时,选择合适的函数类型是十分重要的.通常是根据实验数据,画出散点图,从中观察其变化规律,并与已知函数的图象对比,看接近于什么函数,根据实践经验来决定选取公式的类型,所选的类型是否符合实际,还需要通过实践来检验.有时候还需要选择不同的模拟函数作比较.
2.如果观察散点图,发现点的分布不呈条状分布,而是与某种曲线相近,这时可选择这条曲线对应的函数作为拟合函数,作恰当变换,转化为线性函数,用线性回归模型求解.
例如:
①反比例函数y=a+可作变换t=,得y=a+bt.
②幂函数型y=axb(a>0)可作变换Y=lny,m=lna,t=lnx,则有
Y=m+bt.
③指数型函数y=kabx(a>0且a≠1,k>0)可作变换Y=lny,m=lnk,则有:Y=m+(blna)x
┃┃跟踪练习4__■
为了研究某种细菌随时间x的变化繁殖个数y的变化,收集数据如下:
时间x/天
1
2
3
4
5
6
繁殖个数y
6
12
25
49
95
190
(1)将天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图;
(2)描述解释变量与预报变量之间的关系;
(3)计算残差、相关指数R2.
[解析] (1)由表中数据作散点图如下图所示.
(2)由散点图看出样本点分布在一条指数函数y=c1ec2x的图象的周围,其中c1和c2是待定系数.于是令z=ln
y,则z=bx+a(a=ln
c1,b=c2),因此变换后的样本点应该分布在直线z=bx+a的周围,因此可以用线性回归模型来拟合z与x的关系,则变换后的样本数据如下表:
x
1
2
3
4
5
6
z
1.79
2.48
3.22
3.89
4.55
5.25
由表中数据得到线性回归方程=0.69x+1.115.
因此细菌繁殖个数关于时间的回归方程为=e0.69x+1.115.
(3)列出残差表:
编号i
1
2
3
4
5
6
i
6.08
12.12
24.17
48.18
96.06
191.52
yi
6
12
25
49
95
190
i
-0.08
-0.12
0.83
0.82
-1.06
-1.52
=(yi-i)2=4.8161,
(yi-)2=24630.1,
R2=1-≈0.9998.
故解释变量天数对预报变量繁殖个数解释了99.98%,说明该回归模型拟合效果非常好.
学科核心素养
利用线性回归方程进行预报变量的估计(规律方法)
利用线性回归方程可以进行预报,线性回归方程将部分观测值所反映的规律进行延伸,是我们对有线性相关关系的两个变量进行分析和控制的依据.
典例5 (2020·福州模拟)对具有线性相关关系的变量x,y,测得一组数据如下表:
x
2
4
5
6
8
y
20
40
60
79
80
根据上表,利用最小二乘法得它们的回归直线方程为=10.5x+,据此模型来预测当x=20时,y的估计值为( C )
A.210
B.210.5
C.211.5
D.212.5
[解析] 由已知得=5,=54,则(5,54)满足回归直线方程=10.5x+,解得=1.5.因此=10.5x+1.5,当x=20时,=10.5×20+1.5=211.5.故选C.
『规律总结』 已知变量的某个值去预测相应预报变量的某个值时,先求出其所满足的回归直线方程=x+,把已知x取某一个值代入回归方程=x+中,从而可求出y的估计值.
┃┃跟踪练习5__■
某车间为了规定工时定额,需要确定加工零件所花费的时间,为此做了4次试验,得到数据如下:
零件的个数x(个)
2
3
4
5
加工的时间y(小时)
2.5
3
4
4.5
(1)在给定的坐标系中画出表中数据的散点图;
(2)求y关于x的线性回归方程=x+;
(3)试预测加工10个零件需要的时间.
参考公式:
[解析] (1)散点图如图所示:
(2)由题中表格数据得=3.5,=3.5,
(xi-)(yi-)=3.5,(xi-)2=5.
由公式计算得==0.7,=-,
所以所求线性回归方程为=x+=0.7x+1.05.
(3)当x=10时,=x+=0.7×10+1.05=8.05,
所以预测加工10个零件需要8.05小时.
易混易错警示
求回归方程
典例6 在一化学反应过程中,某化学物质的反应速度y(g/min)与一种催化剂的量x(g)有关,现收集了如表所示的8组数据,则y与x的回归方程是__=e0.1812x-0.8485__.
催化剂是x(g)
15
18
21
24
27
30
33
36
化学物质反应速度y(g/min)
6
8
30
27
70
205
65
350
[错解] 由表中数据可得=25.5,=95.125,=5580,iyi=24297,
所以=≈12.94,=-=-234.845.所以回归方程式为=-234.845+12.94x.
[辨析] 错误原因:未画散点图来确定回归类型,题中要求回归方程但不一定是回归直线方程,错解中盲目地求成了回归直线方程.
防范措施:回归分析时,必须先画散点图,确定两个变量是否有关系,有什么样的关系,然后确定是哪种回归模型才能进一步求解.
[正解] 根据收集的数据作散点图,如图所示.
根据样本点的分布情况,可选用指数型函数模型y=c1ec2x=(c1,c2为待定的参数),令z=ln
y,则z=c2x+ln
c1,即变换后样本点应该分布在直线z=bx+a(a=ln
c1,b=c2)的周围,由y与x的数据表得z与x的数据表如下:
x
15
18
21
24
27
30
33
36
z
1.792
2.079
3.401
3.296
4.248
5.323
4.174
5.858
作出z与x的散点图,如图所示,由图可以看出变换后的样本点分布在一条直线附近,所以可用线性回归方程来拟合.
由表中数据可得≈0.181
2,≈-0.848
5,故=0.181
2x-0.848
5,所以=e0.181
2x-0.848
5,因此该化学物质的反应速度与催化剂的量的非线性回归方程为=e0.181
2x-0.848
5.
课堂达标·固基础
1.关于回归分析,下列说法错误的是( D )
A.回归分析是研究两个具有相关关系的变量的方法
B.散点图中,解释变量在x轴,预报变量在y轴
C.回归模型中一定存在随机误差
D.散点图能明确反映变量间的关系
[解析] 用散点图反映两个变量间的关系时,存在误差.
2.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R2分别如下表:
甲
乙
丙
丁
R2
0.98
0.78
0.50
0.85
哪位同学建立的回归模型拟合效果最好( A )
A.甲
B.乙
C.丙
D.丁
[解析] 相关指数R2越大,表示回归模型的效果越好.
3.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系.根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是( D )
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(,)
C.若该大学某女生身高增加1
cm,则其体重约增加0.85
kg
D.若该大学某女生身高为170
cm,则可断定其体重必为58.79
kg
[解析] A,B,C均正确,是回归方程的性质,D项是错误的,线性回归方程只能预测学生的体重,选项D应改为“若该大学生某女生身高为170
cm,则估计其体重大约为58.79
kg”.
4.某单位为了了解用电量y度与气温x
℃之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:
气温(℃)
18
13
10
-1
用电量(度)
24
34
38
64
由表中数据得线性回归方程=bx+a中b=-2,预测当气温为-4
℃时,用电量的度数约为__68__.
[解析] =10,=40,回归方程过点(,),
∴40=-2×10+a.
∴a=60.∴=-2x+60.
令x=-4,∴=(-2)×(-4)+60=68.
PAGE