2019年高一高二数学同步学案人教A版选修2-3 第三章 3.1 回归分析的基本思想及其初步应用(课件+讲义)

文档属性

名称 2019年高一高二数学同步学案人教A版选修2-3 第三章 3.1 回归分析的基本思想及其初步应用(课件+讲义)
格式 zip
文件大小 3.6MB
资源类型 教案
版本资源 人教新课标A版
科目 数学
更新时间 2019-05-06 08:16:15

文档简介



[核心必知]
1.预习教材,问题导入
根据以下提纲,预习教材P80~P89的内容,回答下列问题.
(1)在数学《必修3》中,我们利用回归分析的方法对两个具有线性相关关系的变量进行了研究,其步骤是什么?所求出的线性回归方程是什么?
提示:步骤为:画出两个变量的散点图,求回归直线方程,并用回归直线方程进行预报,线性回归方程为=x+.
(2)所有的两个相关变量都可以求回归方程吗?
提示:不一定.
2.归纳总结,核心必记
(1)回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)回归直线方程
方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定参数,其最小二乘估计分别为:

其中=i,=i,()称为样本点的中心.
(3)线性回归模型
线性回归模型y=bx+a+e,其中a和b为模型的未知参数,e称为随机误差.
[问题思考]
 通过教材P81中的例1计算出的回归方程=0.849x-85.712可以预报身高为172 cm的女大学生的体重为60.316 kg,请问,身高为172 cm的女大学生的体重一定是60.316 kg吗?为什么?
提示:不一定.从散点图可以看出,样本点散布在一条直线的附近,而不是在一条直线上,所以不能用一次函数y=bx+a表示.
[课前反思]
(1)回归分析的定义是什么?如何求回归直线方程?
 ;
(2)线性回归模型是什么?
  ;
(3)残差、残差图的定义是什么?如何作残差图?
 ;
(4)残差平方和和相关指数R2的定义是什么?它们与回归效果有什么关系?
  .
知识点1
 线性回归分析
[思考] 求线性回归方程的步骤是什么?
名师指津:(1)列表表示xi,yi,xiyi,x;
(2)计算,,,iyi;
(3)代入公式计算,的值;
(4)写出线性回归方程.
?讲一讲
1.(链接教材P81-例1)某种产品的广告费用支出x与销售额y(单位:百万元)之间有如下的对应数据:
x/百万元
2
4
5
6
8
y/百万元
30
40
60
50
70
(1)画出散点图;
(2)求线性回归方程;
(3)试预测广告费用支出为10百万元时的销售额.
[尝试解答] (1)散点图如图所示:
(2)列出下表,并用科学计算器进行有关计算:
i
1
2
3
4
5
合计
xi
2
4
5
6
8
25
yi
30
40
60
50
70
250
xiyi
60
160
300
300
560
1 380
x
4
16
25
36
64
145
所以,==5,==50,=145,
iyi=1 380.
于是可得===6.5,
=-=50-6.5×5=17.5.
所以所求的线性回归方程为=6.5x+17.5.
(3)根据(2)中求得的线性回归方程,当广告费用支出为10百万元时,
=6.5×10+17.5=82.5(百万元),
即广告费用支出为10百万元时,销售额大约为82.5百万元.
———————————————————————————————
(1)求线性回归方程前必须判断两个变量是否线性相关,如果两个变量本身不具备相关关系,或者它们之间的相关关系不显著,那么即使求出回归方程也是毫无意义的.
(2)写出回归直线方程=x+,并用回归直线方程进行预测说明:当x取x0时,由线性回归方程可得0的值,从而可进行相应的判断.
?练一练
1.某班5名学生的数学和物理成绩如下表:
    学生
学科成绩    
A
B
C
D
E
数学成绩(x)
88
76
73
66
63
物理成绩(y)
78
65
71
64
61
(1)画出散点图;
(2)求物理成绩y对数学成绩x的回归直线方程;
(3)一名学生的数学成绩是96,试预测他的物理成绩.
解:(1)如图所示.
(2)因为=×(88+76+73+66+63)=73.2,
=×(78+65+71+64+61)=67.8,
iyi=88×78+76×65+73×71+66×64+63×61=25 054,
=882+762+732+662+632=27 174.
所以==
≈0.625,=-≈67.8-0.625×73.2=22.05.
故y对x的回归直线方程是=0.625x+22.05.
(3)x=96,则=0.625×96+22.05≈82,
即可以预测他的物理成绩是82.
知识点2
残差分析 
[思考] 如何用残差图、残差平方和、相关指数R2分析拟合效果?
名师指津:残差图的带状区域的宽度越窄,模型拟合精度越高;残差平方和越小,模型拟合效果越好;R2越接近于1,模型拟合效果越好.
?讲一讲
2.假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得5组数据如下:
x
15.0
25.8
30.0
36.6
44.4
y
39.4
42.9
42.9
43.1
49.2
(1)以x为解释变量,y为预报变量,作出散点图;
(2)求y与x之间的回归方程,对于基本苗数56.7预报有效穗;
(3)计算各组残差,并计算残差平方和;
(4)求R2,并说明残差变量对有效穗的影响占百分之几?
[尝试解答] (1)散点图如下.
(2)由(1)中散点图看出,样本点大致分布在一条直线的附近,有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.
设回归方程为=x+.=30.36,=43.5,
=5 101.56,=9 511.43.
=1 320.66,2=921.729 6,
iyi=6 746.76.
则=≈0.29,=- ≈34.70.
故所求的回归直线方程为=0.29x+34.70.
当x=56.7时,=0.29×56.7+34.70=51.143.
估计成熟期有效穗为51.143.
(3)由于i=xi+,可以算得i=yi-i分别为1=0.35,2=0.718,3=-0.5,4=-2.214,5=1.624,残差平方和:≈8.43.
(4)(yi-)2=50.18,故R2=1-≈0.832.所以解释变量小麦基本苗数对总效应约贡献了83.2%,残差变量贡献了约1-83.2%=16.8%.
—————————————————————————
(1)利用残差分析研究两个变量间的关系时,首先要根据散点图来判断它们是否线性相关,是否可以用线性回归模型来拟合数据,然后通过残差1,2,…,n来判断模型拟合的效果.
(2)若残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合度越高,回归方程预报精确度越高.
?练一练
2.为研究质量x(单位:g)对弹簧长度y(单位:cm)的影响,对不同质量的6个物体进行测量,数据如下表:
x
5
10
15
20
25
30
y
7.25
8.12
8.95
9.90
10.9
11.8
(1)作出散点图并求回归直线方程;
(2)求出R2并说明回归模型拟合的程度;
(3)进行残差分析.
解:(1)散点图如图所示.
=×(5+10+15+20+25+30)=17.5,
=×(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,
= 2 275,iyi=1 076.2.
计算得≈0.183,≈6.285.
故所求回归直线方程为=6.285+0.183x.
(2)列表如下:
yi-i
0.05
0.005
-0.08
-0.045
0.04
0.025
yi-
-2.237
-1.367
-0.537
0.413
1.413
2.313
可得(yi-i)2≈0.013 18, (yi-)2=14.678 3.
所以R2=1-≈0.999 1,回归模型的拟合效果较好.
(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正错误,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在宽度不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与所挂物体的质量成线性关系.
知识点3
非线性回归分析
 
?讲一讲
3.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,于是对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)的数据作了初步处理,得到如图所示的散点图及一些统计量的值.



(xi-)2
(wi-)2
(xi-)
(yi-)
(wi-)
(yi-)
46.6
563
6.8
289.8
1.6
1469
108.8
注:表中wi=,=i.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y之间的关系为z=0.2y-x,根据(2)的结果回答下列问题:
(ⅰ)年宣传费x=49时,年销售量及年利润的预报值是多少?
(ⅱ)年宣传费x为何值时,年利润的预报值最大?
[尝试解答] (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程.由于
===68,
=-=563-68×6.8=100.6,
所以y关于w的线性回归方程为=100.6+68 w,因此y关于x的回归方程为=100.6+68.
(3)(ⅰ)由(2)知,当x=49时,年销售量y的预报值=100.6+68=576.6,
年利润z的预报值=576.6×0.2-49=66.32.
(ⅱ)根据(2)的结果知,年利润z的预报值
=0.2×(100.6+68)-x=-x+13.6+20.12,
所以当==6.8,即x=46.24时,取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
—————————————————————————————————
非线性回归问题有时并不给出经验公式.这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决.其一般步骤为:
?练一练
3.某电容器充电后,电压达到100 V,然后开始放电,由经验知道,此后电压U随时间t变化的规律用公式U=Aebt(b<0)表示,现测得时间t(s)时的电压U(V)如下表:
t/s
0
1
2
3
4
5
6
7
8
9
10
U/V
100
75
55
40
30
20
15
10
10
5
5
试求:电压U对时间t的回归方程(提示:对公式两边取自然对数,把问题转化为线性回归分析问题).
解:对U=Aebt两边取对数得ln U=ln A+bt,令y=ln U,a=ln A,x=t,则y=a+bx,y与x的数据如下表:
x
0
1
2
3
4
5
6
7
8
9
10
y
4.6
4.3
4.0
3.7
3.4
3.0
2.7
2.3
2.3
1.6
1.6
根据表中数据画出散点图,如图所示,从图中可以看出,y与x具有较好的线性相关关系,由表中数据求得=5,≈3.045,由公式计算得≈-0.313,=-=4.61,所以y对x的线性回归方程为=-0.313x+4.61.
所以ln =-0.313t+4.61,即=e-0.313t+4.61=e-0.313t·e4.61,因此电压U对时间t的回归方程为=e-0.313t·e4.61.
——————————————————[课堂归纳·感悟提升]———————————————————
1.本节课的重点是线性回归方程的求法及线性回归分析,难点是残差分析和非线性回归分析问题.
2.本节课要重点掌握的规律方法
(1)线性回归分析,见讲1;
(2)残差分析,见讲2;
(3)非线性回归分析,见讲3.
课下能力提升(十七)
[学业水平达标练]
题组1 线性回归分析
1.关于回归分析,下列说法错误的是(  )
A.在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定
B.线性相关系数可以是正的也可以是负的
C.在回归分析中,如果r2=1或r=±1,说明x与y之间完全线性相关
D.样本相关系数r∈(-1,1)
解析:选D 样本的相关系数应满足-1≤r≤1.
2.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图如图①;对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图如图②.由这两个散点图可以判断(  )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
解析:选C 由这两个散点图中的点的散布情况可以判断,变量x与y负相关,u与v正相关,选C.
3.若某地财政收入x与支出y满足回归方程=x++ei(单位:亿元)(i=1,2,…),其中=0.8,=2,|ei|<0.5,如果今年该地区财政收入10亿元,年支出预计不会超过(  )
                
A.10亿元 B.9亿元
C.10.5亿元 D.9.5亿元
解析:选C =0.8×10+2+ei=10+ei,
∵|ei|<0.5,∴9.5<<10.5.
4.为了了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球的时间x(单位:小时)与当天投篮中率y之间的关系:
时间x
1
2
3
4
5
命中率y
0.4
0.5
0.6
0.6
0.4
小李这5天的平均投篮命中率为________,用线性回归分析的方法,预测小李该月6号打6小时篮球的命中率为________.
解析:由题意得小李这5天的平均投篮命中率为
==0.5,
==3,∴==0.01,
=-=0.5-0.01×3=0.47,
∴=x+=0.01x+0.47,
∴x=6时,=0.01×6+0.47=0.53.
∴小李该月6号打6小时篮球的投篮命中率为0.53.
答案:0.5 0.53
5.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元)
8
8.2
8.4
8.6
8.8
9
销量y(件)
90
84
83
80
75
68
(1)求回归直线方程=x+,其中=-20,=-;
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)
解:(1)由于=(8+8.2+8.4+8.6+8.8+9)=8.5,
=(90+84+83+80+75+68)=80.
所以=-=80+20×8.5=250,从而回归直线方程为=-20x+250.
(2)设工厂获得的利润为L元,依题意得
L=x(-20x+250)-4(-20x+250)
=-20x2+330x-1 000
=-202+361.25.
当且仅当x=8.25时,L取得最大值.
故当单价定为8.25元时,工厂可获得最大利润.
题组2 残差分析
6.关于残差图的描述错误的是(  )
A.残差图的横坐标可以是样本编号
B.残差图的横坐标也可以是解释变量或预报变量
C.残差点分布的带状区域的宽度越窄相关指数越小
D.残差点分布的带状区域的宽度越窄残差平方和越小
解析:选C 残差点分布的带状区域的宽度越窄,说明模型拟合精度越高,则残差平方和越小,此时,相关指数R2的值越大,故描述错误的是选项C.
7.对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是(  )
解析:选A 用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.
8.在回归分析中,相关指数R2的值越大,说明残差平方和(  )
A.越大
B.越小
C.可能大也可能小
D.以上均错
解析:选B 因为R2=1-,
所以当R2越大时,(yi-i)2越小,即残差平方和越小.
9.某种产品的广告支出费用x(单位:万元)与销售额y(单位:万元)的数据如下表:
x
2
4
5
6
8
y
30
40
60
50
70
已知y关于x的线性回归方程为=6.5x+17.5,则当广告支出费用为5万元时,残差为________.
解析:当x=5时,=6.5×5+17.5=50,表格中对应y=60,于是残差为60-50=10.
答案:10
10.在一段时间内,某淘宝网店一种商品的销售价格x元和日销售量y件之间的一组数据为:
价格x元
22
20
18
16
14
日销售量y件
37
41
43
50
56
求出y关于x的回归方程,并说明该方程拟合效果的好坏.
参考数据:iyi=3 992,=1 660.
解:作出散点图(此处略),观察散点图,可知这些点散布在一条直线的附近,故可用线性回归模型来拟合数据.
因为==18,
==45.4.
所以==-2.35,
=45.4-(-2.35)×18=87.7.
所以回归方程为=-2.35x+87.7.
yi-i与yi-的值如下表:
yi-i
1
0.3
-2.4
-0.1
1.2
yi-
-8.4
-4.4
-2.4
4.6
10.6
计算得(yi-i)2=8.3,
(yi-)2=229.2,
所以R2=1-≈0.964.
因为0.964很接近于1,所以该模型的拟合效果比较好.
[能力提升综合练]
1.如图所示是四个残差图,其中回归模型的拟合效果最好的是(  )
解析:选B 选项A与B中的残差图都是水平带状分布,并且选项B的残差图散点分布集中,在更狭窄的范围内,所以B中回归模型的拟合效果最好,选B.
2.设(x1,y1),(x2,y2),…,(xn,yn)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的回归直线方程(如图所示),以下结论中正确的是(  )
A.x和y正相关
B.x和y的相关系数为直线l的斜率
C.x和y的相关系数在-1到0之间
D.当n为偶数时,分布在l两侧的样本点的个数一定相同
解析:选C 由图可知,回归直线的斜率为负值,所以x与y是负相关,且相关系数在-1到0之间,所以C正确.
3.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
收入x/万元
8.2
8.6
10.0
11.3
11.9
支出y/万元
6.2
7.5
8.0
8.5
9.8
根据上表可得线性回归方程=x+,其中=0.76,=-.据此估计,该社区一户年收入为15万元的家庭的年支出为(  )
A.11.4万元 B.11.8万元
C.12.0万元 D.12.2万元
解析:选B 由题意可得=×(8.2+8.6+10.0+11.3+11.9)=10,
=×(6.2+7.5+8.0+8.5+9.8)=8,
∴=8-0.76×10=0.4,
∴线性回归方程为=0.76x+0.4,
把x=15代入,可得=0.76×15+0.4=11.8.故选B.
4.已知x与y之间的几组数据如下表:
x
1
2
3
4
5
6
y
0
2
1
3
3
4
假设根据上表数据所得线性回归直线方程为=x+,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y′=b′x+a′,则以下结论正确的是(  )
A.>b′,>a′ B.>b′,C.a′ D.解析:选C 过(1,0)和(2,2)的直线方程为y′=2x-2,
画出六点的散点图,回归直线的大概位置如图所示,
显然,b′>,>a′,故选C.
5.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同的模型,计算得R2如下表:




R2
0.98
0.78
0.50
0.85
则建立的回归模型拟合效果最好的同学是(  )
A.甲 B.乙 C.丙 D.丁
解析:选A R2越大,表示回归模型的拟合效果越好.故选A.
6.在研究气温和热茶销售杯数的关系时,若求得相关指数R2≈0.85,则表明气温解释了________的热茶销售杯数变化,而随机误差贡献了剩余的________,所以气温对热茶销售杯数的效应比随机误差的效应大得多.
解析:由相关指数R2的意义可知,R2≈0.85表明气温解释了85%,而随机误差贡献了剩余的15%.
答案:85% 15%
7.从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得i=80,i=20,iyi=184,=720.
(1)求家庭的月储蓄y关于月收入x的线性回归方程=x+;
(2)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.
解:(1)由题意知n=10,=i=×80=8,
=i=×20=2,
所以====0.3,
=-=2-0.3×8=-0.4,
故所求线性回归方程为=0.3x-0.4.
(2)将x=7代入回归方程,可以预测家庭的月储蓄约为=0.3×7-0.4=1.7(千元).
课件39张PPT。谢谢!课下能力提升(十七)
[学业水平达标练]
题组1 线性回归分析
1.关于回归分析,下列说法错误的是(  )
A.在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定
B.线性相关系数可以是正的也可以是负的
C.在回归分析中,如果r2=1或r=±1,说明x与y之间完全线性相关
D.样本相关系数r∈(-1,1)
解析:选D 样本的相关系数应满足-1≤r≤1.
2.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图如图①;对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图如图②.由这两个散点图可以判断(  )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
解析:选C 由这两个散点图中的点的散布情况可以判断,变量x与y负相关,u与v正相关,选C.
3.若某地财政收入x与支出y满足回归方程=x++ei(单位:亿元)(i=1,2,…),其中=0.8,=2,|ei|<0.5,如果今年该地区财政收入10亿元,年支出预计不会超过(  )
                
A.10亿元 B.9亿元
C.10.5亿元 D.9.5亿元
解析:选C =0.8×10+2+ei=10+ei,
∵|ei|<0.5,∴9.5<<10.5.
4.为了了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球的时间x(单位:小时)与当天投篮中率y之间的关系:
时间x
1
2
3
4
5
命中率y
0.4
0.5
0.6
0.6
0.4
小李这5天的平均投篮命中率为________,用线性回归分析的方法,预测小李该月6号打6小时篮球的命中率为________.
解析:由题意得小李这5天的平均投篮命中率为
==0.5,
==3,∴==0.01,
=-=0.5-0.01×3=0.47,
∴=x+=0.01x+0.47,
∴x=6时,=0.01×6+0.47=0.53.
∴小李该月6号打6小时篮球的投篮命中率为0.53.
答案:0.5 0.53
5.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元)
8
8.2
8.4
8.6
8.8
9
销量y(件)
90
84
83
80
75
68
(1)求回归直线方程=x+,其中=-20,=-;
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)
解:(1)由于=(8+8.2+8.4+8.6+8.8+9)=8.5,
=(90+84+83+80+75+68)=80.
所以=-=80+20×8.5=250,从而回归直线方程为=-20x+250.
(2)设工厂获得的利润为L元,依题意得
L=x(-20x+250)-4(-20x+250)
=-20x2+330x-1 000
=-202+361.25.
当且仅当x=8.25时,L取得最大值.
故当单价定为8.25元时,工厂可获得最大利润.
题组2 残差分析
6.关于残差图的描述错误的是(  )
A.残差图的横坐标可以是样本编号
B.残差图的横坐标也可以是解释变量或预报变量
C.残差点分布的带状区域的宽度越窄相关指数越小
D.残差点分布的带状区域的宽度越窄残差平方和越小
解析:选C 残差点分布的带状区域的宽度越窄,说明模型拟合精度越高,则残差平方和越小,此时,相关指数R2的值越大,故描述错误的是选项C.
7.对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是(  )
解析:选A 用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.
8.在回归分析中,相关指数R2的值越大,说明残差平方和(  )
A.越大
B.越小
C.可能大也可能小
D.以上均错
解析:选B 因为R2=1-,
所以当R2越大时,(yi-i)2越小,即残差平方和越小.
9.某种产品的广告支出费用x(单位:万元)与销售额y(单位:万元)的数据如下表:
x
2
4
5
6
8
y
30
40
60
50
70
已知y关于x的线性回归方程为=6.5x+17.5,则当广告支出费用为5万元时,残差为________.
解析:当x=5时,=6.5×5+17.5=50,表格中对应y=60,于是残差为60-50=10.
答案:10
10.在一段时间内,某淘宝网店一种商品的销售价格x元和日销售量y件之间的一组数据为:
价格x元
22
20
18
16
14
日销售量y件
37
41
43
50
56
求出y关于x的回归方程,并说明该方程拟合效果的好坏.
参考数据:iyi=3 992,=1 660.
解:作出散点图(此处略),观察散点图,可知这些点散布在一条直线的附近,故可用线性回归模型来拟合数据.
因为==18,
==45.4.
所以==-2.35,
=45.4-(-2.35)×18=87.7.
所以回归方程为=-2.35x+87.7.
yi-i与yi-的值如下表:
yi-i
1
0.3
-2.4
-0.1
1.2
yi-
-8.4
-4.4
-2.4
4.6
10.6
计算得(yi-i)2=8.3,
(yi-)2=229.2,
所以R2=1-≈0.964.
因为0.964很接近于1,所以该模型的拟合效果比较好.
[能力提升综合练]
1.如图所示是四个残差图,其中回归模型的拟合效果最好的是(  )
解析:选B 选项A与B中的残差图都是水平带状分布,并且选项B的残差图散点分布集中,在更狭窄的范围内,所以B中回归模型的拟合效果最好,选B.
2.设(x1,y1),(x2,y2),…,(xn,yn)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的回归直线方程(如图所示),以下结论中正确的是(  )
A.x和y正相关
B.x和y的相关系数为直线l的斜率
C.x和y的相关系数在-1到0之间
D.当n为偶数时,分布在l两侧的样本点的个数一定相同
解析:选C 由图可知,回归直线的斜率为负值,所以x与y是负相关,且相关系数在-1到0之间,所以C正确.
3.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
收入x/万元
8.2
8.6
10.0
11.3
11.9
支出y/万元
6.2
7.5
8.0
8.5
9.8
根据上表可得线性回归方程=x+,其中=0.76,=-.据此估计,该社区一户年收入为15万元的家庭的年支出为(  )
A.11.4万元 B.11.8万元
C.12.0万元 D.12.2万元
解析:选B 由题意可得=×(8.2+8.6+10.0+11.3+11.9)=10,
=×(6.2+7.5+8.0+8.5+9.8)=8,
∴=8-0.76×10=0.4,
∴线性回归方程为=0.76x+0.4,
把x=15代入,可得=0.76×15+0.4=11.8.故选B.
4.已知x与y之间的几组数据如下表:
x
1
2
3
4
5
6
y
0
2
1
3
3
4
假设根据上表数据所得线性回归直线方程为=x+,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y′=b′x+a′,则以下结论正确的是(  )
A.>b′,>a′ B.>b′,C.a′ D.解析:选C 过(1,0)和(2,2)的直线方程为y′=2x-2,
画出六点的散点图,回归直线的大概位置如图所示,
显然,b′>,>a′,故选C.
5.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同的模型,计算得R2如下表:




R2
0.98
0.78
0.50
0.85
则建立的回归模型拟合效果最好的同学是(  )
A.甲 B.乙 C.丙 D.丁
解析:选A R2越大,表示回归模型的拟合效果越好.故选A.
6.在研究气温和热茶销售杯数的关系时,若求得相关指数R2≈0.85,则表明气温解释了________的热茶销售杯数变化,而随机误差贡献了剩余的________,所以气温对热茶销售杯数的效应比随机误差的效应大得多.
解析:由相关指数R2的意义可知,R2≈0.85表明气温解释了85%,而随机误差贡献了剩余的15%.
答案:85% 15%
7.从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得i=80,i=20,iyi=184,=720.
(1)求家庭的月储蓄y关于月收入x的线性回归方程=x+;
(2)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.
解:(1)由题意知n=10,=i=×80=8,
=i=×20=2,
所以====0.3,
=-=2-0.3×8=-0.4,
故所求线性回归方程为=0.3x-0.4.
(2)将x=7代入回归方程,可以预测家庭的月储蓄约为=0.3×7-0.4=1.7(千元).