3.2 回归分析
学习目标:1.通过对典型案例的探究,了解回归分析的基本思想、方法及其初步应用.2.会求回归直线方程,并用回归直线方程进行预报.(重点、难点)
教材整理1 回归直线方程
阅读教材P83~P84探索与研究以上部分,完成下列问题.
1.回归直线方程
其中的计算公式还可以写成=.
2.线性回归模型
y=bx+a+εi,其中εi称为随机误差项,a和b是模型的未知参数,自变量x称为解释变量,因变量y称为预报变量.
设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系.根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中正确的是________.(填序号)
①y与x具有正的线性相关关系;
②回归直线过样本点的中心(,);
③若该大学某女生身高增加1 cm,则其体重约增加0.85 kg;
④若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg.
【解析】 回归方程中x的系数为0.85>0,因此y与x具有正的线性相关关系,①正确;
由回归方程系数的意义可知回归直线过样本点的中心(,),②正确;
依据回归方程中的含义可知,x每变化1个单位,相应变化约0.85个单位,③正确;
用回归方程对总体进行估计不能得到肯定结论,故④不正确.
【答案】 ①②③
教材整理2 相关性检验
阅读教材P87~P89例3以上部分,完成下列问题.
1.相关系数
计
算
r==
性质
范围
|r|≤1
线性相关程度
|r|越接近1,线性相关程度越强
|r|越接近0,线性相关程度越弱
2.相关性检验的步骤
(1)作统计假设:x与Y不具有线性相关关系.
(2)根据小概率0.05与n-2在附表中查出r的一个临界值r0.05.
(3)根据样本相关系数计算公式算出r的值.
(4)作统计推断.如果|r|>r0.05,表明有95%的把握认为x与Y之间具有线性相关关系.如果|r|≤r0.05,没有理由拒绝原来的假设.
1.判断(正确的打“√”,错误的打“×”)
(1)求回归直线方程前必须进行相关性检验.( )
(2)两个变量的相关系数越大,它们的相关程度越强.( )
(3)若相关系数r=0,则两变量x,y之间没有关系.( )
【解析】 (1)√ 相关性检验是了解成对数据的变化规律的,所以求回归方程前必须进行相关性检验.
(2)× 相关系数|r|越接近1,线性相关程度越强;|r|越接近0,线性相关程度越弱.
(3)× 若r=0是指x,y之间的相关关系弱,但并不能说没有关系.
【答案】 (1)√ (2)× (3)×
2.下列结论正确的是( )
①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
A.①② B.①②③
C.①②④ D.①②③④
【解析】 函数关系和相关关系的区别是前者是确定性关系,后者是非确定性关系,故①②正确;回归分析是对具有相关关系的两个变量进行统计分析的一种方法,故③错误,④正确.
【答案】 C
回归分析的有关概念
【例1】 (1)有下列说法:
①线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的数学方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;③通过回归方程=x+,可以估计和观测变量的取值和变化趋势;④因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.
其中正确命题的个数是( )
A.1 B.2
C.3 D.4
(2)关于变量y与x之间的回归直线方程,叙述正确的是( )
A.表示y与x之间的一种确定性关系
B.表示y与x之间的相关关系
C.表示y与x之间的最真实的关系
D.表示y与x之间真实关系的一种效果最好的拟合
(3)如果某地的财政收入x与支出y满足线性回归方程=x++ε(单位:亿元),其中=0.8,=2,|ε|≤0.5,如果今年该地区财政收入10亿元,则今年支出预计不会超过________亿.
【解】 (1)①反映的正是最小二乘法思想,故正确.②反映的是画散点图的作用,也正确.③解释的是回归方程=x+的作用,故也正确.④是不正确的,在求回归方程之前必须进行相关性检验,以发现两变量的关系.
(2)回归直线方程能最大可能地反映y与x之间的真实关系,故选项D正确.
(3)由题意可得:=0.8x+2+ε,当x=10时,=0.8×10+2+ε=10+ε,又|ε|≤0.5,∴9.5≤≤10.5.
故今年支出预计不会超过10.5亿.
【答案】 (1)C (2)D (3)10.5
1.在分析两个变量的相关关系时,可根据样本数据散点图确定两个变量之间是否存在相关关系,然后利用最小二乘法求出回归直线方程.
2.由线性回归方程给出的是一个预报值而非精确值.
3.随机误差的主要来源.
(1)线性回归模型与真实情况引起的误差;
(2)省略了一些因素的影响产生的误差;
(3)观测与计算产生的误差.
1.下列有关线性回归的说法,不正确的是________(填序号).
①自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系;
②在平面直角坐标系中,用描点的方法得到表示具有相关关系的两个量的一组数据的图形叫做散点图;
③线性回归方程最能代表观测值x,y之间的关系;
④任何一组观测值都能得到具有代表意义的回归直线方程.
【解析】 只有具有线性相关的两个观测值才能得到具有代表意义的回归直线方程.
【答案】 ④
线性回归分析
【例2】 为研究拉力x(N)对弹簧长度Y(cm)的影响,对不同拉力的6根弹簧进行测量,测得如下表中的数据:
x
5
10
15
20
25
30
Y
7.25
8.12
8.95
9.9
10.9
11.8
(1)画出散点图;
(2)如果散点图中的各点大致分布在一条直线的附近,求y与x之间的回归直线方程.
【精彩点拨】 →→
【解】 (1)散点图如图所示.
(2)将已知表中的数据列成下表:
xi
5
10
15
20
25
30
yi
7.25
8.12
8.95
9.9
10.9
11.8
xiyi
36.25
81.2
134.25
198
272.5
354
x
25
100
225
400
625
900
=17.5,≈9.49,iyi=1 076.2,=2 275.
∴==≈0.18,
=-=9.49-0.18×17.5=6.34,
∴回归直线方程为=0.18x+6.34.
1.散点图是定义在具有相关关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关回归分析.
2.求回归直线方程时,首先应注意到,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.
2.本题条件不变,若x增加2个单位,增加多少?
【解】 若x增加2个单位,则
=0.18(x+2)+6.34
=0.18x+6.34+0.36,
故增加0.36个单位.
非线性回归分析
[探究问题]
1.如何解答非线性回归问题?
【提示】 非线性回归问题有时并不给出经验公式.这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决.其一般步骤为:
2.已知x和y之间的一组数据,则下列四个函数中,哪一个作为回归模型最好?
x
1
2
3
y
3
5.99
12.01
①y=3×2x-1; ②y=log2x;
③y=4x; ④y=x2.
【提示】 观察散点图中样本点的分布规律可判断样本点分布在曲线y=3×2x-1附近.①作为回归模型最好.
【例3】 某地区不同身高的未成年男性的体重平均值如下表:
身高x(cm)
60
70
80
90
100
110
体重y(kg)
6.13
7.90
9.99
12.15
15.02
17.50
身高x(cm)
120
130
140
150
160
170
体重y(kg)
20.92
26.86
31.11
38.85
47.25
55.05
(1)试建立y与x之间的回归直线方程;
(2)如果一名在校男生身高为168 cm,预测他的体重约为多少?
【精彩点拨】 先由散点图确定相应的函数模型,再通过对数变换将非线性相关转化为线性相关的两个变量来求解.
【解】 (1)根据表中的数据画出散点图,如下:
由图看出,这些点分布在某条指数型函数曲线y=c1ec2x的周围,于是令z=ln y,列表如下:
x
60
70
80
90
100
110
z
1.81
2.07
2.30
2.50
2.71
2.86
x
120
130
140
150
160
170
z
3.04
3.29
3.44
3.66
3.86
4.01
作出散点图,如下:
由表中数据可求得z与x之间的回归直线方程为=0.693+0.020x,则有=e0.693+0.020x.
(2)由(1)知,当x=168时,=e0.693+0.020×168≈57.57,所以在校男生身高为168 cm,预测他的体重约为57.57 kg.
两个变量不具有线性关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型,如y=c1ec2x,我们可以通过对数变换把指数关系变为线性关系,令z=ln y,则变换后样本点应该分布在直线z=bx+a?a=ln c1,b=c2?的周围.
3.有一个测量水流量的实验装置,测得试验数据如下表:
i
1
2
3
4
5
6
7
水深h(厘米)
0.7
1.1
2.5
4.9
8.1
10.2
13.5
流量Q(升/分钟)
0.082
0.25
1.8
11.2
37.5
66.5
134
根据表中数据,建立Q与h之间的回归方程.
【解】 由表中测得的数据可以作出散点图,如图.
观察散点图中样本点的分布规律,可以判断样本点分布在某一条曲线附近,表示该曲线的函数模型是Q=m·hn(m,n是正的常数).两边取常用对数,
则lg Q=lg m+n·lg h,
令y=lg Q,x=lg h,那么y=nx+lg m,
即为线性函数模型y=bx+a的形式(其中b=n,a=lg m).
由下面的数据表,用最小二乘法可求得≈2.509 7,=-0.707 7,所以n≈2.51,m≈0.196.
i
hi
Qi
xi=lg hi
yi=lg Qi
x
xiyi
1
0.7
0.082
-0.154 9
-1.086 2
0.024
0.168 3
2
1.1
0.25
0.041 4
-0.602 1
0.001 7
-0.024 9
3
2.5
1.8
0.397 9
0.255 3
0.158 3
0.101 6
4
4.9
11.2
0.690 2
1.049 2
0.476 4
0.724 2
5
8.1
37.5
0.908 5
1.574 0
0.825 4
1.430 0
6
10.2
66.5
1.008 6
1.822 8
1.017 3
1.838 5
7
13.5
134
1.130 3
2.127 1
1.277 6
2.404 3
∑
41
251.332
4.022
5.140 1
3.780 7
6.642
于是所求得的回归方程为Q=0.196·h2.51.
1.下表是x和y之间的一组数据,则y关于x的线性回归方程必过点( )
x
1
2
3
4
y
1
3
5
7
A.(2,3) B.(1.5,4)
C.(2.5,4) D.(2.5,5)
【解析】 线性回归方程必过样本点的中心(,),
即(2.5,4),故选C.
【答案】 C
2.某产品的广告费用x与销售额y的统计数据如下表:
广告费用x(万元)
4
2
3
5
销售额y(万元)
49
26
39
54
根据上表可得回归方程=x+中的为9.4,据此模型预报广告费用为6万元时销售额为( )
A.63.6万元 B.65.5万元
C.67.7万元 D.72.0万元
【解析】 样本点的中心是(3.5,42),则=-=42-9.4×3.5=9.1,所以回归直线方程是=9.4x+9.1,把x=6代入得=65.5.
【答案】 B
3.如图所示,有5组(x,y)数据,去掉点________,剩下的4组数据的线性相关系数最大.
【答案】 D(3,10)
4.为了考查两个变量Y与x的线性相关性,测量x,Y的13对数据,若Y与x具有线性相关关系,则相关系数r绝对值的取值范围是________.
【解析】 相关系数临界值r0.05=0.553,所以Y与x若具有线性相关关系,则相关系数r绝对值的取值范围是(0.553,1].
【答案】 (0.553,1]
5.某种产品的广告费支出x与销售额y(单位:百万元)之间有如下对应数据:
x
2
4
5
6
8
y
30
40
60
50
70
(1)画出散点图;
(2)对两个变量进行相关性检验;
(3)求回归直线方程.
【解】 (1)散点图如图所示.
(2)计算各数据如下:
i
1
2
3
4
5
xi
2
4
5
6
8
yi
30
40
60
50
70
xiyi
60
160
300
300
560
=5,=50,
=145,=13 500,iyi=1 380
r=≈0.92,查得r0.05=0.878,r>r0.05,故有95%的把握认为该产品的广告费支出与销售额之间具有线性相关关系.
(3)===6.5,
=-=50-6.5×5=17.5,
于是所求的回归直线方程是=6.5x+17.5.
课件52张PPT。第三章 统计案例3.2 回归分析23456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051点击右图进入…Thank you for watching !课时分层作业(十九) 回归分析
(建议用时:45分钟)
[基础达标练]
一、选择题
1.在画两个变量的散点图时,下面叙述正确的是( )
A.预报变量在x轴上,解释变量在y轴上
B.解释变量在x轴上,预报变量在y轴上
C.可以选择两个变量中任意一个变量在x轴上
D.可以选择两个变量中任意一个变量在y轴上
【解析】 结合线性回归模型y=bx+a+ε可知,解释变量在x轴上,预报变量在y轴上,故选B.
【答案】 B
2.在回归分析中,相关指数r的绝对值越接近1,说明线性相关程度( )
A.越强 B.越弱
C.可能强也可能弱 D.以上均错
【解析】 ∵r=,
∴|r|越接近于1时,线性相关程度越强,故选A.
【答案】 A
3.已知x和Y之间的一组数据
x
0
1
2
3
Y
1
3
5
7
则Y与x的线性回归方程=x+必过点( )
A.(2,2) B.
C.(1,2) D.
【解析】 ∵=(0+1+2+3)=,=(1+3+5+7)=4,
∴回归方程=x+必过点.
【答案】 D
4.已知人的年龄x与人体脂肪含量的百分数y的回归方程为=0.577x-0.448,如果某人36岁,那么这个人的脂肪含量( )
A.一定是20.3%
B.在20.3%附近的可能性比较大
C.无任何参考数据
D.以上解释都无道理
【解析】 将x=36代入回归方程得=0.577×36-0.448≈20.3.由回归分析的意义知,这个人的脂肪含量在20.3%附近的可能性较大,故选B.
【答案】 B
5.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:
①y与x负相关且=2.347x-6.423;②y与x负相关且=-3.476x+5.648;③y与x正相关且=5.437x+8.493;④y与x正相关且=-4.326x-4.578.
其中一定不正确的结论的序号是( )
A.①② B.②③
C.③④ D.①④
【解析】 根据正负相关性的定义作出判断.
由正负相关性的定义知①④一定不正确.
【答案】 D
二、填空题
6.已知x,Y的取值如下表所示,由散点图分析可知Y与x线性相关,且线性回归方程为y=0.95x+2.6,那么表格中的数据m的值为________.
x
0
1
3
4
Y
2.2
4.3
4.8
m
【解析】 ==2,==,把(,)代入回归方程得=0.95×2+2.6,解得m=6.7.
【答案】 6.7
7.已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线方程是________.
【解析】 由斜率的估计值为1.23,且回归直线一定经过样本点的中心(4,5),可得5=+1.23×4,∴=0.08,即=1.23x+0.08.
【答案】 =1.23x+0.08
8.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.
【解析】 以x+1代x,得=0.254(x+1)+0.321,与=0.254x+0.321相减可得,年饮食支出平均增加0.254万元.
【答案】 0.254
三、解答题
9.关于某设备的使用年限x和所支出的维修费用Y(万元),有如下的统计资料:
x
2
3
4
5
6
Y
2.2
3.8
5.5
6.5
7.0
若由资料可知Y对x呈线性相关关系.试求:
(1)线性回归方程;
(2)估计使用年限为10年时,维修费用是多少?
【解】 (1)==4,
==5,
=90,iyi=112.3,
===1.23.
于是=-x=5-1.23×4=0.08.
所以线性回归方程为=x+=1.23x+0.08.
(2)当x=10时,=1.23×10+0.08=12.38(万元),
即估计使用10年时维修费用是12.38万元.
10.在一次抽样调查中测得样本的5个样本点,数值如下表:
x
0.25
0.5
1
2
4
Y
16
12
5
2
1
试建立Y与x之间的回归方程.
【解】 作出变量Y与x之间的散点图如图所示.
由图可知变量Y与x近似地呈反比例函数关系.
设y=,令t=,则y=kt.由Y与x的数据表可得Y与t的数据表:
t
4
2
1
0.5
0.25
Y
16
12
5
2
1
作出Y与t的散点图如图所示.
由图可知Y与t呈近似的线性相关关系.
又=1.55,=7.2, tiyi=94.25,t=21.312 5,
=
=≈4.134 4,
=-=7.2-4.134 4×1.55≈0.8,
∴=4.134 4t+0.8,
即Y与x之间的回归方程为=+0.8.
[能力提升练]
1.根据如下样本数据
x
3
4
5
6
7
8
Y
4.0
2.5
-0.5
0.5
-2.0
-3.0
得到的回归方程为=bx+a,则( )
A.a>0,b<0 B.a>0,b>0
C.a<0,b<0 D.a<0,b>0
【解析】 作出散点图如下:
由图象不难得出,回归直线=bx+a的斜率b<0,当x=0时,=a>0.故a>0,b<0.
【答案】 A
2.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:
父亲身高x(cm)
174
176
176
176
178
儿子身高Y(cm)
175
175
176
177
177
则Y对x的线性回归方程为( )
A.y=x-1 B.y=x+1
C.y=88+x D.y=176
【解析】 因为==176,==176,而回归方程经过样本中心点,所以排除A,B,又身高的整体变化趋势随x的增大而增大,排除D,所以选C.
【答案】 C
3.以模型y=cekx去拟合一组数据时,为了求出回归方程,设z=ln y,其变换后得到线性回归方程z=0.3x+4,则c=________.
【解析】 由题意,得ln(cekx)=0.3x+4,
∴ln c+kx=0.3x+4,
∴ln c=4,∴c=e4.
【答案】 e4
4.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(xi-)2
(wi-)2
(xi-)(yi-)
(wi-)(yi-)
46.6
563
6.8
289.8
1.6
1 469
108.8
表中wi=,w]=wi.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为=,=-.
【解】 (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程.
由于===68,
=- =563-68×6.8=100.6,
所以y关于w的线性回归方程为=100.6+68w,
因此y关于x的回归方程为=100.6+68.
(3)①由(2)知,当x=49时,
年销售量y的预报值=100.6+68=576.6,
年利润z的预报值=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.