§1.2 回归分析
学习目标 1.会建立线性回归模型分析两个变量间的相关关系.2.能通过相关系数判断两个变量间的线性相关程度.
知识点一 回归分析及回归直线方程
思考1 什么叫回归分析?
答案 回归分析是对具有相关关系的两个变量进行统计分析的一种方法.
思考2 回归分析中,利用回归直线方程求出的函数值一定是真实值吗?
答案 不一定是真实值,利用回归直线方程求的值,在很多时候是个预测值.
梳理 (1)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.若两个变量之间具有线性相关关系,则称相应的回归分析为线性回归分析.
(2)回归直线方程为=x+,且=,=-,其中=i,=i,(,)称为样本点的中心,回归直线一定过样本点的中心.
知识点二 相关系数
1.对于变量x与Y随机抽到的n对数据(x1,y1),(x2,y2),…,(xn,yn),检验统计量是样本相关系数
r=
=.
2.相关系数r的取值范围是[-1,1],|r|越接近1,变量之间的线性相关程度越强;|r|越接近0,变量之间的线性相关程度越弱.当|r|>r0.05时,表明有95%的把握认为两个变量之间具有线性相关关系.
1.求回归直线方程前可以不进行相关性检验.( × )
2.利用回归直线方程求出的值是准确值.( × )
类型一 回归直线方程
例1 若从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:
编号
1
2
3
4
5
6
7
8
身高/cm
165
165
157
170
175
165
155
170
体重/kg
48
57
50
54
64
61
43
59
求根据女大学生的身高预测体重的回归直线方程,并预测一名身高为172cm的女大学生的体重.
考点 线性回归分析
题点 回归直线的应用
解 (1)画散点图
选取身高为自变量x,体重为因变量y,画出散点图,展示两个变量之间的关系,并判断二者是否具有线性关系.
由散点图可以发现,样本点呈条状分布,身高和体重有比较好的线性相关关系,因此可以用回归直线方程=x+来近似刻画它们之间的关系.
(2)建立回归方程由计算器可得=0.848,=-85.632.
于是得到回归直线方程为=0.848x-85.632.
(3)预测和决策
当x=172时,=0.848×172-85.632=60.224(kg).
即一名身高为172cm的女大学生的体重预测值为60.224kg.
反思与感悟 在使用回归直线方程进行预测时要注意
(1)回归直线方程只适用于我们所研究的样本的总体.
(2)我们所建立的回归直线方程一般都有时间性.
(3)样本取值的范围会影响回归直线方程的适用范围.
(4)不能期望回归直线方程得到的预测值就是因变量的精确值.
跟踪训练1 假设关于某设备的使用年限x(年)和所支出的维修费用y(万元)有如下的统计数据:
x
2
3
4
5
6
y
2.2
3.8
5.5
6.5
7.0
由此资料可知y对x呈线性相关关系.
(1)求回归直线方程;
(2)求使用年限为10年时,该设备的维修费用为多少?
考点 回归直线方程
题点 求回归直线方程
解 (1)由题干表中的数据可得
=4,=5,=90,iyi=112.3,
∴===1.23,
∴=-=5-1.23×4=0.08.
∴回归直线方程为=1.23x+0.08.
(2)当x=10时,=1.23×10+0.08=12.38.
即使用年限为10年时,该设备的维修费用约为12.38万元.
类型二 相关性检验
例2 维尼纶纤维的耐热水性能的好坏可以用指标“缩醛化度”y来衡量,这个指标越高,耐热水性能也越好,而甲醛浓度是影响缩醛化度的重要因素,在生产中常用甲醛浓度x(g/L)去控制这一指标,为此必须找出它们之间的关系,现安排一批实验,获得如下数据:
甲醛浓度(g/L)
18
20
22
24
26
28
30
缩醛化度(克分子%)
26.86
28.35
28.75
28.87
29.75
30.00
30.36
(1)画散点图;
(2)求回归直线方程;
(3)求相关系数r,并进行相关性检验.
考点 线性相关系数
题点 线性相关系数的概念及计算
解 (1)散点图如图.
(2)可以看出,两变量之间有近似的线性相关关系,下面用列表的方法计算,.
i
xi
yi
x
xiyi
1
18
26.86
324
483.48
2
20
28.35
400
567
3
22
28.75
484
632.5
4
24
28.87
576
692.88
5
26
29.75
676
773.5
6
28
30.00
784
840
7
30
30.36
900
910.80
∑
168
202.94
4144
4900.16
==24,=,
==≈0.2643,
=-=-0.2643×24≈22.648,
∴回归直线方程为=22.648+0.2643x.
(3)y≈5892,r=
=≈0.96.
∵r=0.96>r0.05=0.754.
∴有95%的把握认为“甲醛浓度与缩醛化度有线性相关关系”,求得的回归直线方程有意义.
反思与感悟 根据已知数据求得回归直线方程后,可以利用相关系数和临界值r0.05比较,进行相关性检验.
跟踪训练2 为了研究3月下旬的平均气温(x)与4月20日前棉花害虫化蛹高峰日(y)的关系,某地区观察了2012年至2017年的情况,得到了下面的数据:
年份
2012
2013
2014
2015
2016
2017
x(℃)
24.4
29.6
32.9
28.7
30.3
28.9
y(日)
19
6
1
10
1
8
(1)对变量x,y进行相关性检验;
(2)据气象预测,该地区在2019年3月下旬平均气温为27℃,试估计2019年4月化蛹高峰日为哪天.
考点 线性相关系数
题点 线性相关系数的概念及计算
解 由已知条件可得下表:
i
1
2
3
4
5
6
xi
24.4
29.6
32.9
28.7
30.3
28.9
yi
19
6
1
10
1
8
≈29.13,=7.5,=5130.92,=563,iyi=1222.6
(1)r=≈-0.9341.
查表知:r0.05=0.811.由|r|>r0.05可知,变量y和x存在线性相关关系.
(2)=≈-2.23,
=-≈72.46.
所以回归直线方程为=-2.23x+72.46.
当x=27时,=-2.23×27+72.46≈12.
据此,可估计该地区2019年4月12日为化蛹高峰日.
1.某商品销售量y(件)与销售价格x(元/件)呈负相关,则其回归直线方程可能是( )
A.=-10x+200
B.=10x+200
C.=-10x-200
D.=10x-200
考点 线性回归分析
题点 回归直线的应用
答案 A
解析 由于销售量y与销售价格x成负相关,故排除B,D.又当x=10时,A中y=100,而C中y=-300,C不符合题意,故选A.
2.下表是x和y之间的一组数据,则y关于x的回归直线必过( )
x
1
2
3
4
y
1
3
5
7
A.点(2,3) B.点(1.5,4)
C.点(2.5,4) D.点(2.5,5)
考点 回归直线方程
题点 样本点中心的应用
答案 C
解析 回归直线必过样本点中心(,),即(2.5,4).
3.对变量y和x进行相关性检验,已知n为数据的对数,r是相关系数,且已知①n=3,r=0.9950;②n=7,r=0.9533;③n=15,r=0.3012;④n=17,r=0.4991.则变量y和x具有线性相关关系的是( )
A.①和② B.①和③
C.②和④ D.③和④
考点 线性相关系数
题点 线性相关系数的应用
答案 C
解析 ①当n=3时,r0.05=0.997,所以|r|r0.05,表明有95%的把握认为x与y之间具有线性相关关系;③当n=15时,r0.05=0.514,所以|r|r0.05,表明有95%的把握认为x与y之间具有线性相关关系,所以②和④满足题意,故选C.
4.某产品在某零售摊位的零售价x(单位:元)与每天的销售量y(单位:个)的统计资料如下表所示:
x
16
17
18
19
y
50
34
41
31
由上表可得回归直线方程=x+中的=-5,据此模型预测当零售价为14.5元时,每天的销售量为( )
A.51个B.50个C.54个D.48个
考点 线性回归分析
题点 回归直线方程的应用
答案 C
解析 由题意知=17.5,=39,代入回归直线方程得
=126.5,126.5-14.5×5=54,故选C.
5.已知x,y之间的一组数据如下表:
x
0
1
2
3
y
1
3
5
7
(1)分别计算:,,x1y1+x2y2+x3y3+x4y4,x+x+x+x;
(2)已知变量x与y线性相关,求出回归直线方程.
考点 回归直线方程
题点 求回归直线方程
解 (1)==1.5,==4,
x1y1+x2y2+x3y3+x4y4=0×1+1×3+2×5+3×7=34,
x+x+x+x=02+12+22+32=14.
(2)==2,
=-=4-2×1.5=1,
故回归直线方程为=2x+1.
1.对具有线性相关关系的两个变量进行统计分析,可从散点图观察大致呈条状分布,可以求回归直线方程并进行预报.
2.通过求相关系数并和临界值r0.05比较可以判断两个变量是否有线性相关关系,求得的回归直线方程是否有意义.
一、选择题
1.根据如下样本数据
x
3
4
5
6
7
8
y
4.0
2.5
-0.5
0.5
-2.0
-3.0
得到的回归直线方程为=x+,则( )
A.>0,>0 B.>0,<0
C.<0,>0 D.<0,<0
考点 线性回归分析
题点 回归直线方程的应用
答案 B
解析 作出散点图如下:
观察图象可知,回归直线=x+的斜率<0,
当x=0时,=>0.故>0,<0.
2.某同学在研究性学习中,收集到某制药厂今年前5个月甲胶囊生产产量(单位:万盒)的数据如下表所示:
x(月份)
1
2
3
4
5
y(万盒)
5
5
6
6
8
若x,y线性相关,回归直线方程为=0.7x+,估计该制药厂6月份生产甲胶囊产量为( )
A.8.0万盒B.8.1万盒C.8.9万盒D.8.6万盒
考点 回归直线方程
题点 样本点中心的应用
答案 B
解析 回归直线一定过样本点中心.由已知数据可得=3,=6,代入回归方程,可得=-0.7=3.9,即回归直线方程为=0.7x+3.9.把x=6代入,可近似得=8.1,故选B.
3.某化工厂为预测某产品的回收率y,而要研究它和原料有效成分含量之间的相关关系,现取了8对观测值,计算得i=52,i=228,=478,iyi=1849,则y与x的回归直线方程是( )
A.=2.62x+11.47 B.=2.62x-11.47
C.=11.47x+2.62 D.=-2.62x+11.47
考点 回归直线方程
题点 求回归直线方程
答案 A
解析 由题中数据得=6.5,=28.5,
∴===≈2.62,
=-≈28.5-2.62×6.5=11.47,
∴y与x的回归直线方程是=2.62x+11.47,故选A.
4.给定x与y的一组样本数据,求得相关系数r=-0.690,则( )
A.y与x的线性相关性很强
B.y与x的相关性很强
C.y与x正相关
D.y与x负相关
考点 线性相关系数
题点 线性相关系数的应用
答案 D
解析 因为r<0,所以y与x负相关,又|r|∈[0.75,1]才表示y与x具有很强的线性相关性,所以选D.
5.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关试验,并用回归分析方法分别求得相关系数r如表:
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
则这四位同学的试验结果能体现出A,B两变量有更强的线性相关性的是( )
A.甲B.乙C.丙D.丁
考点 线性相关系数
题点 线性相关系数的概念及计算
答案 D
解析 由相关系数的意义可知,相关系数的绝对值越接近于1,相关性越强,结合题意可知丁的线性相关性更强,故选D.
6.每一吨铸铁成本yc(元)与铸件废品率x%建立的回归方程为yc=56+8x,那么下列说法正确的是( )
A.废品率每增加1%,成本每吨增加64元
B.废品率每增加1%,成本每吨增加8%
C.废品率每增加1%,成本每吨增加8元
D.如果废品率增加1%,则每吨成本为56元
考点 回归直线方程
题点 回归直线方程的应用
答案 C
二、填空题
7.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为________.
考点 线性相关系数
题点 线性相关系数的概念及计算
答案 1
解析 根据样本相关系数的定义可知,当所有样本点都在一条直线上时,相关系数为1.
8.已知一个回归直线方程为=1.5x+45,x∈{1,5,7,13,19},则=________.
考点 回归直线方程
题点 样本点中心的应用
答案 58.5
解析 ∵==9,且=1.5x+45,
∴=1.5×9+45=58.5.
9.从某高校在校大学生中随机选取5名女大学生,由她们身高和体重的数据得到的回归直线方程为=0.79x-73.56,数据列表是:
身高x(cm)
155
161
a
167
174
体重y(kg)
49
53
56
58
64
则其中的数据a=________.
考点 回归直线方程
题点 样本点中心的性质
答案 163
解析 由表中数据计算=×(49+53+56+58+64)=56,
根据回归直线经过样本点中心(,),
可得56=0.79-73.56,解得=164.
由=×(155+161+a+167+174)=164,
解得a=163.
10.2018年3月1日,某地物价部门对该地的5家商场的某商品一天的销售量及其价格进行调查,5家商场该商品的售价x元和销售量y件之间的一组数据如表所示,由散点图可知,销售量y与价格x之间有较好的线性相关关系,其回归直线方程是=-3.2x+,则=________.
价格x(元)
9
9.5
10
10.5
11
销售量y(件)
11
10
8
6
5
考点 线性回归分析
题点 回归直线的应用
答案 40
解析 由题意,得==10,==8,
∵回归直线方程是=-3.2x+,∴8=-3.2×10+,∴=40.
三、解答题
11.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:
零件的个数x(个)
2
3
4
5
加工的时间y(小时)
2.5
3
4
4.5
(1)求y关于x的回归直线方程=x+;
(2)试预测加工10个零件需要多少时间?
考点 回归直线方程
题点 求回归直线方程
解 (1)由表中数据得iyi=52.5,
=3.5,=3.5,=54,
所以==0.7,
所以=-=1.05.
所以=0.7x+1.05.
(2)将x=10代入回归直线方程,
得=0.7×10+1.05=8.05,
所以预测加工10个零件需要8.05小时.
12.已知某种商品的价格x(元)与需求量y(件)之间的关系有如下一组数据:
x
14
16
18
20
22
y
12
10
7
5
3
判断y与x是否具有线性相关关系?若有,求出其回归直线方程.
考点 回归直线方程
题点 求回归直线方程
解 作出散点图如图,可看出y与x具有线性相关关系.
=(14+16+18+20+22)=18,=(12+10+7+5+3)=7.4,
x=142+162+182+202+222=1660,
xiyi=14×12+16×10+18×7+20×5+22×3=620,
所以===-1.15,
=7.4+1.15×18=28.1,
所以所求的回归直线方程是=-1.15x+28.1.
四、探究与拓展
13.如图是x和y的一组样本数据的散点图,去掉一组数据________后,剩下的4组数据的相关系数最大.
考点 线性相关系数
题点 线性相关系数的应用
答案 D(3,10)
解析 经计算,去掉D(3,10)这一组数据后,其他4组数据对应的点都集中在某一条直线附近,即两变量的线性相关性最强.
14.为了分析某高三学生学习状态,对其下一阶段的学习提供指导性建议,现对他前7次考试的数学成绩x、物理成绩y进行分析,下面是该生7次考试的成绩.(单位:分)
数学成绩x
88
83
117
92
108
100
112
物理成绩y
94
91
108
96
104
101
106
(1)他的数学成绩与物理成绩哪个更稳定?请给出你的理由;
(2)已知该学生的物理成绩y与数学成绩x是线性相关的,若该生的物理成绩达到115分,请你估计他的数学成绩大约是多少分,并请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合理建议.
考点 线性回归分析
题点 回归直线的应用
解 (1)=100+=100,
=100+=100,
s=142,s=,
因为s>s,所以他的物理成绩更稳定.
(2)由于x与y之间具有线性相关关系,
经计算得=0.5,=100-0.5×100=50.
所以回归直线方程为=0.5x+50.
当y=115时,x=130.
估计他的数学成绩是130分.
建议:进一步加强对数学的学习,提高数学成绩的稳定性,将有助于物理成绩的进一步提高.