第三章 统计案例
3.1 回归分析的基本思想及其初步应用
知识
1.回归分析
回归分析是对具有________________的两个变量进行统计分析的一种常用方法,回归分析的基本步骤是画出两个变量的________________,求________________,并用回归方程进行预报.
2.线性回归模型
(1)在线性回归方程中,,________________.
其中________________,________________,称为样本的中心.
(2)线性回归模型,其中称为_______________,自变量称为_______________变量,因变量称为________________变量.
温馨提示:是回归直线的斜率的估计值,表示每增加一个单位,的平均增加单位数.
3.刻画回归效果的方式
方式方法
计算公式
刻画效果
________________
越_____________,表示回归的效果越好
残差图
称为相应于点的残差,
残差点________________地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度________________,说明模型拟合精确度越高
残差平方和
残差平方和越________________,模型的拟合效果越好
知识参考答案:
1.相关关系 散点图 回归方程
2.(1) (2)随机误差 解释 预报
3. 接近于1 比较均匀 越窄 小
重点
重点
了解随机误差、残差、残差分析的概念,会用残差分析判断线性回归模型的拟合效果,掌握建立回归模型的步骤
难点
通过对典型案例的探究,了解回归分析的基本思想方法和初步应用
易错
不能准确理解概念和参数的含义
重点 概念辨析
有下列说法:
①线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的数学方法;
②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;
③通过回归方程可以估计观测变量的取值和变化趋势;
④因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.
其中正确命题的个数是
A.1 B.2
C.3 D.4
【答案】C
【解析】①反映的正是最小二乘法思想,故正确;
②反映的是画散点图的作用,也正确;
③解释的是回归方程的作用,故也正确;
④是不正确的,在求回归方程之前必须进行相关性检验,以体现两变量的关系.
因此正确命题的个数为3,故选C.
【名师点睛】由题目可获取以下信息:①线性回归分析;②散点图;③相关性检验等的相关概念及意义.解答本题可先逐一核对相关概念及其性质,然后再逐一作出判断,最后得出结论.
重点 线性回归模型
一台机器由于使用时间较长,生产的零件有一些会缺损,按不同转速生产出来的零件有缺损的统计数据如下表:
转速x(转/秒)
16
14
12
8
每小时生产缺损零件数y(件)
11
9
8
5
(1)作出散点图;
(2)如果与线性相关,求出回归直线方程;
(3)若实际生产中,允许每小时生产的产品中有缺损的零件最多为10个,那么,机器的转速应控制在什么范围内?(结果保留整数)
附:线性回归方程中,,其中为样本平均值.
【答案】(1)见解析;(2);(3)机器的运转速度应控制在转/秒内.
【解析】(1)根据表中的数据画出散点图如下图:
(2)由题中数据列表如下:
i
1
2
3
4
xi
16
14
12
8
yi
11
9
8
5
xiyi
176
126
96
40
,
∴,∴.
(3)令,解得,
故机器的运转速度应控制在转/秒内.
【名师点睛】(1)求回归直线方程的一般步骤如下:①作出散点图,依据问题所给的数据在平面直角坐标系中描点,观察点的分布是否呈条状分布,即是否在一条直线附近,从而判断两变量是否具有线性相关关系;②当两变量具有线性相关关系时,求回归系数,写出回归直线方程.
(2)回归直线方程中的表示x每增加1个单位时,的变化量的估计值为.
(3)可以利用回归直线方程预报在取某个值时的估计值.
(4)由于回归直线方程中的系数和是通过样本估计而来的,存在着误差,这种误差可能导致预报结果有偏差.
难点 线性回归分析
为研究重量(单位:克)对弹簧长度(单位:厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:
x
5
10
15
20
25
30
y
7.25
8.12
8.95
9.90
10.9
11.8
(1)作出散点图,并求回归方程:
(2)求相关指数R2,并判断模型的拟合效果;
(3)进行残差分析.
【答案】(1)散点图见解析,回归方程为;(2)回归模型的拟合效果较好;(3)见解析.
【解析】(1)散点图如下图所示:
从散点图,可以看出这些点大致分布在一条直线的附近,因此,可用公式求得线性回归方程的系数.
因为,
,
,.
计算,得.
所以所求回归方程为.
(3)由表中数据可以看出残差点比较均匀地落在比较狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与拉力呈线性关系.由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型.
【名师点睛】(1)线性回归分析的过程:①随机抽取样本,确定数据,形成样本点;②由样本点形成散点图,判定是否具有线性相关关系;③由最小二乘法求线性回归方程;④进行残差分析,分析模型的拟合效果,不合适时,分析错因,予以纠正;⑤依据回归方程作出预报.
(2)用散点图可粗略判断两个变量间有无线性相关关系,用相关指数R2可以描述两个变量之间的密切程度.
难点 非线性回归分析
在一次抽样调查中测得样本的5个样本点,数值如表:
x
0.25
0.5
1
2
4
y
16
12
5
2
1
试建立y与x之间的回归方程.
【答案】见解析.
【解析】作出变量y与x之间的散点图如图所示:
由图可知变量y与x近似地呈反比例函数关系.
设,令,则.由y与x的数据表可得y与t的数据表:
t
4
2
1
0.5
0.25
y
16
12
5
2
1
作出y与t的散点图如图所示:
由图可知y与t呈近似的线性相关关系.
又,
,
,
∴.
所以y与x的回归方程是.
【名师点睛】求非线性回归方程的步骤如下:
①确定变量,作出散点图;
②根据散点图,选择恰当的拟合函数;
③变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程;
④分析拟合效果,通过计算相关指数或画残差图来判断拟合效果;
⑤根据相应的变换,写出非线性回归方程.
易错 不能准确理解概念和参数的含义
关于与有如下数据:
x
2
4
5
6
8
y
30
40
60
50
70
为了对两个变量进行统计分析,现有以下两种线性模型:甲模型,乙模型,试比较哪一个模型拟合的效果更好.
【错解】∵,
,
∴,∴乙模型拟合的效果更好.
【错因分析】明确的大小与拟合效果的关系,用相关指数来比较模型的拟合效果,越大,模型的拟合效果越好,并不是越小模型的拟合效果越好.
【正解】∵,
,
∴,∴甲模型拟合的效果更好.
基础训练
1.已知回归方程,而试验得到一组数据是(2,4.9),(3,7.1),(4,9.1),则残差平方和是
A.0.01 B.0.02
C.0.03 D.0.04
2.在回归分析中,相关指数R2的值越大,说明残差平方和
A.越大 B.越小
C.可能大也可能小 D.以上均不正确
3.对变量x、y有观测数据(xi,yi)(i=1,2,…,10),得散点图①;对变量u、v有观测数据(ui,vi)(i=1,2,…,10),得散点图②.由这两个散点图可以判断
A.变量x与y正相关,u与v正相关 B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关 D.变量x与y负相关,u与v负相关
4.两个变量x与y的散点图如图,可用如下函数进行拟合,比较合理的是
A. B.
C. D.
5.已知x和y之间的一组数据如下表:
x
0
1
2
3
y
1
3
5
7
则y与x的线性回归方程必过点
A.(2,2) B.(,0)
C.(1,2) D.(,4)
6.在对两个变量x,y进行回归分析时有以下操作:①求回归方程;②收集数据(xi,yi),,,…,n;③对所求出的回归方程作出解释;④根据所收集的数据绘制散点图.则下列操作顺序正确的是
A.③②④① B.①②④③
C.②①③④ D.②④①③
7.对两个变量y和x进行回归分析,得到一组样本数据:,则下列说法中不正确的是
A.由样本数据得到的回归方程必过样本点的中心
B.残差平方和越小的模型,拟合的效果越好
C.用相关指数来刻画回归效果,的值越小,说明模型的拟合效果越好
D.若变量y和x之间的相关系数,则变量y与x之间具有线性相关关系
8.某学校开展研究性学习活动,某同学获得一组实验数据如下表:
x
1.99
3
4
5.1
6.12
y
1.5
4.04
7.5
12
18.01
对于表中数据,现给出下列拟合曲线,其中拟合程度最好的是
A.y=2x-2 B.
C. D.
9.已知方程是根据女大学生的身高预报她的体重的回归方程,其中x的单位是cm,的单位是kg,那么针对某个体(160,53)的残差是________________.
10.已知x,y的取值如下表:
x
0
1
3
4
y
2.2
4.3
4.8
6.7
若x,y具有线性相关关系,且回归方程为,则________________.
11.某市居民2011~2015年家庭年平均收入x(单位:万元)与年平均支出y(单位:万元)的统计资料如下表:
年份
2011
2012
2013
2014
2015
收入x
11.5
12.1
13
13.5
15
支出y
6.8
8.8
9.8
10
12
根据统计资料,居民家庭年平均收入的中位数是________________,家庭年平均收入与年平均支出有________________线性相关关系.
12.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:
①y与x负相关且=2.3x-6.4; ②y与x负相关且=-3.4x+5;
③y与x正相关且=5.3x+8.4; ④y与x正相关且=-4.36x-4.5.
其中一定不正确的结论的序号是________________.
13.随着我国经济的发展,居民的储蓄存款逐年增长,某地区城乡居民人民币储蓄存款(年底余额)如下表:
年份
2014
2015
2016
2017
2018
时间代号t
1
2
3
4
5
储蓄存款y(千亿元)
5
6
7
8
10
(1)求y关于t的回归方程;
(2)用所求回归方程预测该地区2019年(t=6)的人民币储蓄存款.
附:回归方程中,.
14.某班5名学生的数学和物理成绩如下表:
学生
学科
A
B
C
D
E
数学成绩(x)
88
76
73
66
63
物理成绩(y)
78
65
71
64
61
(1)画出散点图;
(2)求物理成绩y对数学成绩x的回归方程;
(3)一名学生的数学成绩是96分,试预测他的物理成绩.
能力提升
15.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计表:
收入x(万元)
8.2
8.6
10.0
11.3
11.9
支出y(万元)
6.2
7.5
8.0
8.5
9.8
根据上表可得回归直线方程,其中.据此估计该社区一户年收入为15万元家庭的年支出为
A.11.4万元 B.11.8万元
C.12.0万元 D.12.2万元
16.具有线性相关关系的变量x,y有一组观测数据(xi,yi)(i=1,2,…,8),其回归直线方程是且,,则实数
A. B.
C. D.
17.已知具有线性相关关系的两个变量x、y之间的一组数据如下表:
x
0
1
2
3
4
y
2.2
4.3
4.5
4.8
6.7
且回归方程,则当x=6时,y的预测值为
A.8.46 B.6.8
C.6.3 D.5.76
18.关于x与y有如下数据:
x
2
4
5
6
8
y
30
40
60
50
70
为了对x,y两个变量进行统计分析,现有以下两种线性模型:甲:=6.5x+17.5,乙:=7x+17,则________________(填“甲”或“乙”)模型拟合的效果更好.
19.某商场为了了解毛衣的月销售量(件)与月平均气温(℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如下表:
月平均气温(℃)
17
13
8
2
月销售量(件)
24
33
40
55
由表中数据算出线性回归方程中的,气象部门预测下个月的平均气温约为℃,据此估计该商场下个月毛衣销售量约为________________件.
20.某学生课外活动兴趣小组对两个相关变量收集到5组数据如下表:
x
10
20
30
40
50
y
62
■
75
81
89
由最小二乘法求得回归方程为,现发现表中有一个数据模糊不清,请推断该点数据的值为________________.
21.以下是某地收集到的新房屋的销售价格y和房屋的面积x的数据:
房屋面积(m2)
115
110
80
135
105
销售价格(万元)
24.8
21.6
18.4
29.2
22
(1)画出数据对应的散点图;
(2)求线性回归方程,并在散点图中加上回归直线;
(3)根据(2)的结果估计当房屋面积为150m2时的销售价格.
22.某电脑公司有6名产品推销员,其工作年限与年推销金额的数据如下表:
推销员编号
1
2
3
4
5
工作年限x/年
3
5
6
7
9
推销金额y/万元
2
3
3
4
5
(1)以工作年限为自变量,推销金额为因变量y,作出散点图;
(2)求年推销金额y关于工作年限x的线性回归方程;
(3)若第6名推销员的工作年限为11年,试估计他的年推销金额.
23.某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100棵种子中的发芽数,得到如下资料:
日期
12月1日
12月2日
12月3日
12月4日
12月5日
温差x(℃)
10
11
13
12
8
发芽y(颗)
23
25
30
26
16
该农科所确定的研究方案是:先从这5组数据中选取3组数据求线性回归方程,剩下的2组数据用于回归方程检验.
(1)若选取的是12月1日与12月5日的2组数据,请根据12月2日至12月4日的数据,求出y关于x的线性回归方程;
(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠?
(3)请预测温差为14℃的发芽数.
真题练习
24.(2018新课标全国Ⅲ理)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
参考数据:,,,≈2.646,
参考公式:相关系数
回归方程中斜率和截距的最小二乘估计公式分别为:.
25.(2019浙江)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:
抽取次序
1
2
3
4
5
6
7
8
零件尺寸
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
经计算得,,,,其中为抽取的第个零件的尺寸,.求的相关系数,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).
附:样本的相关系数,.
26.(2018新课标全国Ⅱ理)下图是某地区2000年至2016年环境基础设施投资额(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了与时间变量的两个线性回归模型.根据2000年至2016年的数据(时间变量的值依次为)建立模型①:;根据2010年至2016年的数据(时间变量的值依次为)建立模型②:.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
参考答案
1.【答案】C
【解析】因为残差,所以残差的平方和为.故选C.
2.【答案】B
【解析】因为,所以当越大时,越小,即残差平方和越小,故选B.
5.【答案】D
【解析】因为,,所以回归方程必过点(,4).故选D.
6.【答案】D
【解析】根据回归分析的思想,可知对两个变量x,y进行回归分析时,应先收集数据(xi,yi),然后绘制散点图,再求回归方程,最后对所求的回归方程作出解释,正确操作的顺序为②④①③,故选D.
7.【答案】C
【解析】R2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好,故选C.
8.【答案】C
【解析】可以代入检验,当x取相应的值时,所求y与已知y相差平方和最小的便是拟合程度最高的.故选C.
9.【答案】
【解析】把代入,可得,
所以残差.
10.【答案】2.6
【解析】由已知得,,而回归方程过点,则4.5=0.95×2+,解得a=2.6.
13.【答案】(1);(2)千亿元.
【解析】(1)整理所给数据:
序号
t
y
t2
ty
1
1
5
1
5
2
2
6
4
12
3
3
7
9
21
4
4
8
16
32
5
5
10
25
50
15
36
55
120
由上表可得,,,.
所以,故,
故所求回归直线方程为.
(2)当t=6时,=1.2×6+3.6=10.8(千亿元).
所以预测该地区2019年的人民币储蓄存款为10.8千亿元.
14.【答案】(1)散点图见解析;(2);(3)预测他的物理成绩是82分.
【解析】(1)散点图如下图所示:
(2)由图可看出,这些点在一条直线附近,可以用线性回归方程来刻画与之间的关系,
因为,,
,
,
所以,所以.
故y对x的线性回归方程是.
(3)当时,,所以预测他的物理成绩是82分.
16.【答案】B
【解析】因为,,所以,,所以这组数据的样本中心点是(,),把样本中心点代入回归直线方程得,,解得,故选B.
17.【答案】C
【解析】因为,,所以将点代入回归方程,可得,解得,所以,当时,,故选C.
18.【答案】甲
19.【答案】70
【解析】由表格得为(10,38),因为在回归直线上,
所以,解得,所以,当时,.
故估计该商场下个月毛衣销售量约为70件.
20.【答案】
【解析】由题意可得,设要求的数据为,
则有,
因为回归直线过样本点的中心,
所以,解得.
21.【答案】(1)见解析;(2);(3)31.2442万元.
【解析】(1)散点图如图所示:
(2),,,.
设所求回归直线方程为,则,,
故所求回归直线方程为.
(3)当x=150m2时,销售价格的估计值为=0.1962×150+1.8142=31.2442(万元).
22.【答案】(1)见解析;(2);(3)5.9万元.
【解析】(1)画出散点图如图所示:
(2)从散点图可以看出,这些点大致在一条直线附近,
则可设所求的线性回归方程为.
由题意可得,,
所以,,
所以,,
所以年推销金额y关于工作年限x的线性回归方程为.
(3)当x=11时,=0.5x+0.4=0.5×11+0.4=5.9(万元).
所以可以估计第6名推销员的年销售金额为5.9万元.
23.【答案】(1);(2)研究所得到的线性回归方程是可靠的;(3)32颗.
【解析】(1)由数据求得,,.
由公式求得,,,
所以y关于x的线性回归方程为.
(2)当时,;
当时,,.
所以该研究所得到的线性回归方程是可靠的.
(3)当时,有,
所以当温差为14℃时的发芽数约为32颗.
24.【答案】(1)见解析;(2)预测2016年我国生活垃圾无害化处理量约1.82亿吨.
【解析】(1)由折线图中数据和附注中参考数据得,,
,
,
故.
由于与的相关系数近似为0.99,说明与的线性相关程度相当高,
从而可以用线性回归模型拟合与的关系.
(2)由及(1)得,
.
所以关于的回归方程为.
将2016年对应的代入回归方程得.
所以预测2016年我国生活垃圾无害化处理量约1.82亿吨.
25.【答案】,可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.
【解析】由样本数据得的相关系数为
.
由于,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.
26.【答案】(1)利用模型①预测值为226.1,利用模型②预测值为256.5;(2)利用模型②得到的预测值更可靠,理由见解析.
(2)利用模型②得到的预测值更可靠.理由如下:
(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=–30.4+13.5t上下,
说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.
2010年相对2009年的环境基础设施投资额有明显增加,
2010年至2016年的数据对应的点位于一条直线的附近,
说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,
利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,
因此利用模型②得到的预测值更可靠.
(ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,
由模型①得到的预测值226.1亿元的增幅明显偏低,
而利用模型②得到的预测值的增幅比较合理,
说明利用模型②得到的预测值更可靠.
(以上给出了2种理由,答出其中任意一种或其他合理理由均可.)
【名师点睛】若已知回归直线方程,则可以直接将数值代入求得特定要求下的预测值;若回归直线方程有待定参数,则根据回归直线方程恒过点求参数.