[核心必知]
1.预习教材,问题导入
根据以下提纲,预习教材P2~P8的内容,回答下列问题.
(1)在数学《必修3》中,我们利用回归分析的方法对两个具有线性相关关系的变量进行了研究,其步骤是什么?所求出的线性回归方程是什么?
提示:步骤为:画出两个变量的散点图,求回归直线方程,并用回归直线方程进行预报.线性回归方程为=x+.
(2)所有的两个相关变量都可以求回归方程吗?
提示:不一定.
2.归纳总结,核心必记
(1)回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)回归直线方程
方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定参数,其最小二乘估计分别为:
其中=i,=i,(,)称为样本点的中心.
(3)线性回归模型
线性回归模型用y=bx+a+e来表示,其中a和b为模型的未知参数,e称为随机误差.
(4)刻画回归效果的方式
残差
把随机误差的估计值i称为相应于点(xi,yi)的残差
残差图
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图
残差图法
残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高
残差
平方和
残差平方和为(yi-i)2,残差平方和越小,模型拟合效果越好
相关
指数R2
R2=1-,R2表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示回归的效果越好
[问题思考]
(1)通过教材P2中的例1计算出的回归方程=0.849x-85.712可以预报身高为172 cm的女大学生的体重为60.316 kg.请问,身高为172 cm的女大学生的体重一定是60.316 kg吗?为什么?
提示:不一定.从散点图可以看出,样本点散布在一条直线的附近,而不是在一条直线上,所以不能用一次函数y=bx+a表示.
(2)下列说法正确的有哪些?
①在线性回归模型中,e是bx+a预报真实值y的随机误差,它是一个可观测的量;
②残差平方和越小的模型,拟合的效果越好;③用R2来刻画回归效果,R2越小,拟合的效果越好;④在残差图中,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.
提示:e是一个不可观测的量,故①不正确;R2越小,残差平方和越大,即模型的拟合效果越差,故③不正确;②④是正确的.
[课前反思]
(1)回归分析的定义是什么?如何求回归直线方程?
(2)线性回归模型是什么?
(3)残差、残差图的定义是什么?如何作残差图?
(4)残差平方和和相关指数R2的定义是什么?它们与回归效果有什么关系?
知识点1
线性回归分析
[思考] 求线性回归方程的步骤是什么?
名师指津:(1)列表表示xi,yi,xiyi,x;
(2)计算,,,iyi;
(3)代入公式计算,的值;
(4)写出线性回归方程.
?讲一讲
1.某商店为了更好地规划某种商品的进货量,从某一年的销售数据中,随机抽取了8组数据作为研究对象,如下表所示(x为该商品的进货量,y为销售天数):
x/吨
2
3
4
5
6
8
9
11
y/天
1
2
3
3
4
5
6
8
(1)根据表中数据在下图所示的网格中绘制散点图;
(2)根据表中提供的数据,求出y关于x的线性回归方程=x+;
(3)根据(2)中的计算结果,若该商店准备一次性进货该商品24吨,预测需要销售的天数.
参考数据:=356,iyi=241.
[尝试解答] (1)散点图如图所示:
(2)依题意,得=×(2+3+4+5+6+8+9+11)=6,
=×(1+2+3+3+4+5+6+8)=4,
又=356,iyi=241,
所以===,=4-×6=-,
故线性回归方程为=x-.
(3)由(2)知,当x=24时,=×24-≈17,
故若该商店一次性进货24吨,则预计需要销售17天.
(1)求线性回归方程前必须判断两个变量是否线性相关,如果两个变量本身不具备相关关系,或者它们之间的相关关系不显著,那么即使求出回归方程也是毫无意义的.
(2)写出回归直线方程=x+,并用回归直线方程进行预测说明:当x取x0时,由线性回归方程可得0的值,从而可进行相应的判断.
?练一练
1.某种商品价格与该商品日需求量之间的几组对照数据如下表:
价格x(元/kg)
10
15
20
25
30
日需求量y(kg)
11
10
8
6
5
(1)求y关于x的线性回归方程;
(2)利用(1)中的回归方程,当价格x=40元/kg时,日需求量y的预测值为多少?
解:(1)由所给数据计算得
=×(10+15+20+25+30)=20,
=×(11+10+8+6+5)=8,
(xi-)2=(-10)2+(-5)2+02+52+102=250,
(xi-)(yi-)=(-10)×3+(-5)×2+0×0+5×(-2)+10×(-3)=-80.
===-0.32.
=-b=8+0.32×20=14.4.
所求线性回归方程为=-0.32x+14.4.
(2)由(1)知当x=40时,y=-0.32×40+14.4=1.6.
故当价格x=40元/kg时,日需求量y的预测值为1.6kg.
知识点2
残差分析
[思考] 如何用残差图、残差平方和、相关指数R2分析拟合效果?
名师指津:残差图的带状区域的宽度越窄,模型拟合精度越高;残差平方和越小,模型拟合效果越好;R2越接近于1,模型拟合效果越好.
?讲一讲
2.假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得5组数据如下:
x
15.0
25.8
30.0
36.6
44.4
y
39.4
42.9
42.9
43.1
49.2
(1)以x为解释变量,y为预报变量,作出散点图;
(2)求y与x之间的回归方程,对于基本苗数56.7预报有效穗;
(3)计算各组残差,并计算残差平方和;
(4)求R2,并说明残差变量对有效穗的影响占百分之几?
[尝试解答] (1)散点图如下.
(2)由(1)中散点图看出,样本点大致分布在一条直线的附近,有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.
设回归方程为=x+.=30.36,=43.5,
=5 101.56,=9 511.43.
=1 320.66,2=921.729 6,
iyi=6 746.76.
则=≈0.29,=- ≈34.70.
故所求的回归直线方程为=0.29x+34.70.
当x=56.7时,=0.29×56.7+34.70=51.143.
估计成熟期有效穗为51.143.
(3)由于i=xi+,可以算得i=yi-i分别为1=0.35,2=0.718,3=-0.5,4=-2.214,5=1.624,残差平方和:≈8.43.
(4)(yi-)2=50.18,
故R2=1-≈0.832.
所以解释变量小麦基本苗数对总效应约贡献了83.2%,残差变量贡献了约1-83.2%=16.8%.
(1)利用残差分析研究两个变量间的关系时,首先要根据散点图来判断它们是否线性相关,是否可以用线性回归模型来拟合数据,然后通过残差1,2,…,n来判断模型拟合的效果.
(2)若残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合度越高,回归方程预报精确度越高.
?练一练
2.某运动员训练次数与运动成绩之间的数据关系如下:
次数(x)
30
33
35
37
39
44
46
50
成绩(y)
30
34
37
39
42
46
48
51
(1)作出散点图;
(2)求出线性回归方程;
(3)作出残差图,并说明模型的拟合效果;
(4)计算R2,并说明其含义.
解:(1)作出该运动员训练次数x与成绩y之间的散点图,如图所示,由散点图可知,它们之间具有线性相关关系.
(2)∵=39.25,=40.875,=12 656,
=13 731,iyi=13 180,
∴==≈1.041 5,
=-≈-0.003 875,
∴线性回归方程为=1.041 5x-0.003 875.
(3)残差分析
计算得1≈-1.24,2≈-0.366,3≈0.551,4≈0.468,5≈1.385,6≈0.178,7≈0.095,8≈-1.071.作残差图如图所示,由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.
(4)计算相关指数R2
计算相关指数R2≈0.985 5,说明了该运动员成绩的差异有98.55%是由训练次数引起的.
知识点3
非线性回归分析
?讲一讲
3.(链接教材P6-例2)某地区六年来轻工业产品利润总额y与年次x的试验数据如下表所示:
年次x
1
2
3
4
5
6
利润总额y
11.35
11.85
12.44
13.07
13.59
14.41
由经验知,年次x与利润总额y(单位:亿元)近似有如下关系:y=abxe0.其中a,b均为正数,求y关于x的回归方程.
[思路点拨] 解答此题可根据散点图选择恰当的拟合函数,而本题已经给出,只需将其转化为线性函数,利用最小二乘法求得回归直线方程,再将其还原为非线性回归方程即可.
[尝试解答] 对y=abxe0两边取自然对数,得ln y=ln ae0+xln b,令z=ln y,则z与x的数据如下表:
x
1
2
3
4
5
6
z
2.43
2.47
2.52
2.57
2.61
2.67
由z=ln ae0+xln b及最小二乘法公式,得
ln b≈0.047 7,ln ae0=2.378,
即=2.378+0.047 7x,故=10.8×1.05x.
非线性回归问题有时并不给出经验公式.这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决.其一般步骤为:
?练一练
3.某电容器充电后,电压达到100 V,然后开始放电,由经验知道,此后电压U随时间t变化的规律用公式U=Aebt(b<0)表示,现测得时间t(s)时的电压U(V)如下表:
t/s
0
1
2
3
4
5
6
7
8
9
10
U/V
100
75
55
40
30
20
15
10
10
5
5
试求:电压U对时间t的回归方程(提示:对公式两边取自然对数,把问题转化为线性回归分析问题).
解:对U=Aebt两边取对数得ln U=ln A+bt,
令y=ln U,a=ln A,x=t,
则y=a+bx,y与x的数据如下表:
x
0
1
2
3
4
5
6
7
8
9
10
y
4.6
4.3
4.0
3.7
3.4
3.0
2.7
2.3
2.3
1.6
1.6
根据表中数据画出散点图,如图所示,
从图中可以看出,y与x具有较好的线性相关关系,
由表中数据求得
=5,≈3.045,
由公式计算得
≈-0.313,=-=4.61,
所以y对x的线性回归方程为
=-0.313x+4.61.
所以ln =-0.313t+4.61,
即=e-0.313t+4.61=e-0.313t·e4.61,
因此电压U对时间t的回归方程为=e-0.313t·e4.61.
———————[课堂归纳·感悟提升]——————
1.本节课的重点是线性回归方程的求法及线性回归分析,难点是残差分析和非线性回归分析问题.
2.本节课要重点掌握的规律方法
(1)线性回归分析,见讲1;
(2)残差分析,见讲2;
(3)非线性回归分析,见讲3.
课下能力提升(一)
[学业水平达标练]
题组1 线性回归分析
1.某商品的销售量y(件)与销售价格x(元/件)存在线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=-10x+200,则下列结论正确的是( )
A.y与x具有正的线性相关关系
B.若r表示变量y与x之间的线性相关系数,则r=-10
C.当销售价格为10元时,销售量为100件
D.当销售价格为10元时,销售量为100件左右
解析:选D y与x具有负的线性相关关系,所以A项错误;当销售价格为10元时,销售量在100件左右,因此C错误,D正确;B项中-10是回归直线方程的斜率.
2.某学生四次模拟考试时,其英语作文的减分情况如下表:
考试次数x
1
2
3
4
所减分数y
4.5
4
3
2.5
显然所减分数y与模拟考试次数x之间有较好的线性相关关系,则其线性回归方程为( )
A.=0.7x+5.25 B.=-0.6x+5.25
C.=-0.7x+6.25 D.=-0.7x+5.25
解析:选D 由题意可知,所减分数y与模拟考试次数x之间为负相关,所以排除A,考试次数的平均数为=(1+2+3+4)=2.5,所减分数的平均数为=(4.5+4+3+2.5)=3.5,即直线应该过点(2.5,3.5),代入验证可知直线y=-0.7x+5.25成立,故选D.
3.若某地财政收入x与支出y满足回归方程=x++ei(单位:亿元)(i=1,2,…),其中=0.8,=2,|ei|<0.5,如果今年该地区财政收入10亿元,年支出预计不会超过( )
A.10亿元 B.9亿元
C.10.5亿元 D.9.5亿元
解析:选C =0.8×10+2+ei=10+ei,
∵|ei|<0.5,
∴9.5<<10.5.
4.为研究女大学生体重和身高的关系,从某大学随机选取8名女大学生,其身高和体重数据如下表:
身高x/cm
165
165
157
170
175
165
155
170
体重y/kg
48
57
50
54
64
61
43
59
利用最小二乘法求得身高预报体重的回归方程为=0.849x-85.712,据此可求得R2≈0.64.下列说法正确的是( )
A.两组变量的相关系数为0.64
B.R2越趋近于1,表示两组变量的相关关系越强
C.女大学生的身高解释了64%的体重变化
D.女大学生的身高差异有64%是由体重引起的
解析:选C 用最小二乘法求得身高预报体重的回归方程为=0.849x-85.712,据此可求得R2≈0.64,即女大学生的身高解释了64%的体重变化,而随机误差贡献了剩余的36%,故选C.
5.由某种设备的使用年限xi(年)与所支出的维修费yi(万元)的数据资料,算得=90,iyi=112,i=20,i=25.
(1)求所支出的维修费y对使用年限x的线性回归方程=x+;
(2)判断变量x与y之间是正相关还是负相关;
(3)估计使用年限为8年时支出的维修费.
解:(1)∵i=20,i=25,∴=i=4,
=i=5,∴===1.2,
=-=5-1.2×4=0.2,
∴线性回归方程为=1.2x+0.2.
(2)由(1)知=1.2>0,∴变量x与y之间是正相关.
(3)由(1)知,当x=8时,y=1.2×8+0.2=9.8,即估计使用年限为8年时,支出的维修费约是9.8万元.
题组2 残差分析
6.关于残差图的描述错误的是( )
A.残差图的横坐标可以是样本编号
B.残差图的横坐标也可以是解释变量或预报变量
C.残差点分布的带状区域的宽度越窄相关指数越小
D.残差点分布的带状区域的宽度越窄残差平方和越小
解析:选C 残差点分布的带状区域的宽度越窄,说明模型拟合精度越高,则残差平方和越小,此时,相关指数R2的值越大,故描述错误的是选项C.
7.对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是( )
解析:选A 用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.
8.在回归分析中,相关指数R2的值越大,说明残差平方和( )
A.越大 B.越小
C.可能大也可能小 D.以上均错
解析:选B 因为R2=1-,
所以当R2越大时,(yi-i)2越小,
即残差平方和越小.
9.通过下面的残差图,我们发现在采集样本点的过程中,样本点数据不准确的为( )
A.第四个 B.第五个
C.第六个 D.第七个
解析:选C 由题图可知第六个数据的偏差最大,故选C.
10.在一段时间内,某淘宝网店一种商品的销售价格x元和日销售量y件之间的一组数据为:
价格x元
22
20
18
16
14
日销售量y件
37
41
43
50
56
求出y关于x的回归方程,并说明该方程拟合效果的好坏.
参考数据:iyi=3 992,=1 660.
解:作出散点图(此处略),观察散点图,可知这些点散布在一条直线的附近,故可用线性回归模型来拟合数据.
因为==18,
==45.4.
所以==-2.35,
=45.4-(-2.35)×18=87.7.
所以回归方程为=-2.35x+87.7.
yi-i与yi-的值如下表:
yi-i
1
0.3
-2.4
-0.1
1.2
yi-
-8.4
-4.4
-2.4
4.6
10.6
计算得(yi-i)2=8.3,
(yi-)2=229.2,
所以R2=1-≈0.964.
因为0.964很接近于1,所以该模型的拟合效果比较好.
[能力提升综合练]
1.如图所示是四个残差图,其中回归模型的拟合效果最好的是( )
解析:选B 选项A与B中的残差图都是水平带状分布,并且选项B的残差图散点分布集中,在更狭窄的范围内,所以B中回归模型的拟合效果最好,选B.
2.某产品的广告费用x与销售额y的统计数据如下表:
广告费用x(万元)
4
2
3
5
销售额y(万元)
49
26
39
54
根据上表可得回归方程=x+中的为9.4,据此模型预报广告费用为6万元时销售额为( )
A.63.6万元 B.65.5万元
C.67.7万元 D.72.0万元
解析:选B 样本点的中心是(3.5,42),
则=-=42-9.4×3.5=9.1,
所以回归直线方程是=9.4x+9.1,
把x=6代入得=65.5.
3.某饮料店的日销售收入y(单位:百元)与当天平均气温x(单位:度)之间有下列数据:
x
-2
-1
0
1
2
y
5
4
2
2
1
甲、乙、丙三位同学对上述数据进行了研究,分别得到了x与y之间的三个线性回归方程:①=-x+2.8,②=-x+3,③=-1.2x+2.6;其中正确的是( )
A.① B.②
C.③ D.①③
解析:选A 回归方程=x+表示的直线必过点(,),即必过点(0,2.8),而给出的三个线性回归方程中,只有①表示的直线过点(0,2.8),故正确的是①,故选A.
4.已知x与y之间的几组数据如下表:
x
1
2
3
4
5
6
y
0
2
1
3
3
4
假设根据上表数据所得线性回归直线方程为=x+,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y′=b′x+a′,则以下结论正确的是( )
A.>b′,>a′ B.>b′,
C.a′ D.解析:选C 过(1,0)和(2,2)的直线方程为y′=2x-2,
画出六点的散点图,回归直线的大概位置如图所示,
显然,b′>,>a′,故选C.
5.某种商品的广告费支出x与销售额y之间有如下关系:(单位:万元)
x
2
4
5
6
8
y
30
40
60
50
70
y与x的线性回归方程为=6.5x+17.5,当广告费支出5万元时,残差为________.
解析:当广告费x=5时,=6.5×5+17.5=50,残差为60-50=10.
答案:10
6.在一次考试中,5名学生的数学和物理成绩如下表:(已知学生的数学和物理成绩具有线性相关关系)
学生的编号i
1
2
3
4
5
数学成绩x
80
75
70
65
60
物理成绩y
70
66
68
64
62
现已知其线性回归方程为=0.36x+,则根据此线性回归方程估计数学得90分的同学的物理成绩为______(四舍五入到整数).
解析:==70,
==66,
所以66=0.36×70+,=40.8,
所以0.36×90+40.8=73.2≈73.
答案:73
7.某研究性学习小组对春季昼夜温差大小与某花卉种子发芽多少之间的关系进行研究,他们分别记录了3月1日至3月5日的每天昼夜温差与实验室每天每100颗种子浸泡后的发芽数,得到如下资料:
日期
3月1日
3月2日
3月3日
3月4日
3月5日
温差
x(℃)
10
11
13
12
8
发芽数
y(颗)
23
25
30
26
16
(1)从3月1日至3月5日中任选2天,记发芽的种子数分别为m,n,求事件“m,n均小于25”的概率;
(2)请根据3月2日至3月4日的数据,求出y关于x的线性回归方程=x+;
(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)所得的线性回归方程是否可靠?
解:(1)m,n构成的基本事件(m,n)有:(23,25),(23,30),(23,26),(23,16),(25,30),(25,26),(25,16),(30,26),(30,16),(26,16) ,共10个,其中“m,n均小于25”的有1个,故其概率为P=.
(2)∵=12,=27,
∴==,
于是=27-×12=-3,故所求线性回归方程为=x-3.
(3)由(2)知=x-3,
当x=10时,y=22;当x=8时,y=17,与检验数据的误差均为1,满足题意.故认为得到的线性回归方程是可靠的.
课件42张PPT。线性回归分析残差分析 非线性回归分析 谢谢!课下能力提升(一)
[学业水平达标练]
题组1 线性回归分析
1.某商品的销售量y(件)与销售价格x(元/件)存在线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=-10x+200,则下列结论正确的是( )
A.y与x具有正的线性相关关系
B.若r表示变量y与x之间的线性相关系数,则r=-10
C.当销售价格为10元时,销售量为100件
D.当销售价格为10元时,销售量为100件左右
解析:选D y与x具有负的线性相关关系,所以A项错误;当销售价格为10元时,销售量在100件左右,因此C错误,D正确;B项中-10是回归直线方程的斜率.
2.某学生四次模拟考试时,其英语作文的减分情况如下表:
考试次数x
1
2
3
4
所减分数y
4.5
4
3
2.5
显然所减分数y与模拟考试次数x之间有较好的线性相关关系,则其线性回归方程为( )
A.=0.7x+5.25 B.=-0.6x+5.25
C.=-0.7x+6.25 D.=-0.7x+5.25
解析:选D 由题意可知,所减分数y与模拟考试次数x之间为负相关,所以排除A,考试次数的平均数为=(1+2+3+4)=2.5,所减分数的平均数为=(4.5+4+3+2.5)=3.5,即直线应该过点(2.5,3.5),代入验证可知直线y=-0.7x+5.25成立,故选D.
3.若某地财政收入x与支出y满足回归方程=x++ei(单位:亿元)(i=1,2,…),其中=0.8,=2,|ei|<0.5,如果今年该地区财政收入10亿元,年支出预计不会超过( )
A.10亿元 B.9亿元
C.10.5亿元 D.9.5亿元
解析:选C =0.8×10+2+ei=10+ei,
∵|ei|<0.5,
∴9.5<<10.5.
4.为研究女大学生体重和身高的关系,从某大学随机选取8名女大学生,其身高和体重数据如下表:
身高x/cm
165
165
157
170
175
165
155
170
体重y/kg
48
57
50
54
64
61
43
59
利用最小二乘法求得身高预报体重的回归方程为=0.849x-85.712,据此可求得R2≈0.64.下列说法正确的是( )
A.两组变量的相关系数为0.64
B.R2越趋近于1,表示两组变量的相关关系越强
C.女大学生的身高解释了64%的体重变化
D.女大学生的身高差异有64%是由体重引起的
解析:选C 用最小二乘法求得身高预报体重的回归方程为=0.849x-85.712,据此可求得R2≈0.64,即女大学生的身高解释了64%的体重变化,而随机误差贡献了剩余的36%,故选C.
5.由某种设备的使用年限xi(年)与所支出的维修费yi(万元)的数据资料,算得=90,iyi=112,i=20,i=25.
(1)求所支出的维修费y对使用年限x的线性回归方程=x+;
(2)判断变量x与y之间是正相关还是负相关;
(3)估计使用年限为8年时支出的维修费.
解:(1)∵i=20,i=25,∴=i=4,
=i=5,∴===1.2,
=-=5-1.2×4=0.2,
∴线性回归方程为=1.2x+0.2.
(2)由(1)知=1.2>0,∴变量x与y之间是正相关.
(3)由(1)知,当x=8时,y=1.2×8+0.2=9.8,即估计使用年限为8年时,支出的维修费约是9.8万元.
题组2 残差分析
6.关于残差图的描述错误的是( )
A.残差图的横坐标可以是样本编号
B.残差图的横坐标也可以是解释变量或预报变量
C.残差点分布的带状区域的宽度越窄相关指数越小
D.残差点分布的带状区域的宽度越窄残差平方和越小
解析:选C 残差点分布的带状区域的宽度越窄,说明模型拟合精度越高,则残差平方和越小,此时,相关指数R2的值越大,故描述错误的是选项C.
7.对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是( )
解析:选A 用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.
8.在回归分析中,相关指数R2的值越大,说明残差平方和( )
A.越大 B.越小
C.可能大也可能小 D.以上均错
解析:选B 因为R2=1-,
所以当R2越大时,(yi-i)2越小,
即残差平方和越小.
9.通过下面的残差图,我们发现在采集样本点的过程中,样本点数据不准确的为( )
A.第四个 B.第五个
C.第六个 D.第七个
解析:选C 由题图可知第六个数据的偏差最大,故选C.
10.在一段时间内,某淘宝网店一种商品的销售价格x元和日销售量y件之间的一组数据为:
价格x元
22
20
18
16
14
日销售量y件
37
41
43
50
56
求出y关于x的回归方程,并说明该方程拟合效果的好坏.
参考数据:iyi=3 992,=1 660.
解:作出散点图(此处略),观察散点图,可知这些点散布在一条直线的附近,故可用线性回归模型来拟合数据.
因为==18,
==45.4.
所以==-2.35,
=45.4-(-2.35)×18=87.7.
所以回归方程为=-2.35x+87.7.
yi-i与yi-的值如下表:
yi-i
1
0.3
-2.4
-0.1
1.2
yi-
-8.4
-4.4
-2.4
4.6
10.6
计算得(yi-i)2=8.3,
(yi-)2=229.2,
所以R2=1-≈0.964.
因为0.964很接近于1,所以该模型的拟合效果比较好.
[能力提升综合练]
1.如图所示是四个残差图,其中回归模型的拟合效果最好的是( )
解析:选B 选项A与B中的残差图都是水平带状分布,并且选项B的残差图散点分布集中,在更狭窄的范围内,所以B中回归模型的拟合效果最好,选B.
2.某产品的广告费用x与销售额y的统计数据如下表:
广告费用x(万元)
4
2
3
5
销售额y(万元)
49
26
39
54
根据上表可得回归方程=x+中的为9.4,据此模型预报广告费用为6万元时销售额为( )
A.63.6万元 B.65.5万元
C.67.7万元 D.72.0万元
解析:选B 样本点的中心是(3.5,42),
则=-=42-9.4×3.5=9.1,
所以回归直线方程是=9.4x+9.1,
把x=6代入得=65.5.
3.某饮料店的日销售收入y(单位:百元)与当天平均气温x(单位:度)之间有下列数据:
x
-2
-1
0
1
2
y
5
4
2
2
1
甲、乙、丙三位同学对上述数据进行了研究,分别得到了x与y之间的三个线性回归方程:①=-x+2.8,②=-x+3,③=-1.2x+2.6;其中正确的是( )
A.① B.②
C.③ D.①③
解析:选A 回归方程=x+表示的直线必过点(,),即必过点(0,2.8),而给出的三个线性回归方程中,只有①表示的直线过点(0,2.8),故正确的是①,故选A.
4.已知x与y之间的几组数据如下表:
x
1
2
3
4
5
6
y
0
2
1
3
3
4
假设根据上表数据所得线性回归直线方程为=x+,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y′=b′x+a′,则以下结论正确的是( )
A.>b′,>a′ B.>b′,C.a′ D.解析:选C 过(1,0)和(2,2)的直线方程为y′=2x-2,
画出六点的散点图,回归直线的大概位置如图所示,
显然,b′>,>a′,故选C.
5.某种商品的广告费支出x与销售额y之间有如下关系:(单位:万元)
x
2
4
5
6
8
y
30
40
60
50
70
y与x的线性回归方程为=6.5x+17.5,当广告费支出5万元时,残差为________.
解析:当广告费x=5时,=6.5×5+17.5=50,残差为60-50=10.
答案:10
6.在一次考试中,5名学生的数学和物理成绩如下表:(已知学生的数学和物理成绩具有线性相关关系)
学生的编号i
1
2
3
4
5
数学成绩x
80
75
70
65
60
物理成绩y
70
66
68
64
62
现已知其线性回归方程为=0.36x+,则根据此线性回归方程估计数学得90分的同学的物理成绩为______(四舍五入到整数).
解析:==70,
==66,
所以66=0.36×70+,=40.8,
所以0.36×90+40.8=73.2≈73.
答案:73
7.某研究性学习小组对春季昼夜温差大小与某花卉种子发芽多少之间的关系进行研究,他们分别记录了3月1日至3月5日的每天昼夜温差与实验室每天每100颗种子浸泡后的发芽数,得到如下资料:
日期
3月1日
3月2日
3月3日
3月4日
3月5日
温差
x(℃)
10
11
13
12
8
发芽数
y(颗)
23
25
30
26
16
(1)从3月1日至3月5日中任选2天,记发芽的种子数分别为m,n,求事件“m,n均小于25”的概率;
(2)请根据3月2日至3月4日的数据,求出y关于x的线性回归方程=x+;
(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)所得的线性回归方程是否可靠?
解:(1)m,n构成的基本事件(m,n)有:(23,25),(23,30),(23,26),(23,16),(25,30),(25,26),(25,16),(30,26),(30,16),(26,16) ,共10个,其中“m,n均小于25”的有1个,故其概率为P=.
(2)∵=12,=27,
∴==,
于是=27-×12=-3,故所求线性回归方程为=x-3.
(3)由(2)知=x-3,
当x=10时,y=22;当x=8时,y=17,与检验数据的误差均为1,满足题意.故认为得到的线性回归方程是可靠的.