第一章 统计案例
1.1 回归分析的基本思想及其初步应用
1.回归分析
回归分析是对具有________________的两个变量进行统计分析的一种常用方法,回归分析的基本步骤是画出两个变量的________________,求________________,并用回归方程进行预报.
2.线性回归模型
(1)在线性回归方程中,,________________.
其中________________,________________,称为样本的中心.
(2)线性回归模型,其中称为_______________,自变量称为_______________变量,因变量称为________________变量.
温馨提示:是回归直线的斜率的估计值,表示每增加一个单位,的平均增加单位数.
3.刻画回归效果的方式
方式方法
计算公式
刻画效果
________________
越_____________,表示回归的效果越好
残差图
称为相应于点的残差,
残差点________________地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度________________,说明模型拟合精确度越高
残差平方和
残差平方和越________________,模型的拟合效果越好
K知识参考答案:
1.相关关系 散点图 回归方程
2.(1) (2)随机误差 解释 预报
3. 接近于1 比较均匀 越窄 小
K—重点
了解随机误差、残差、残差分析的概念,会用残差分析判断线性回归模型的拟合效果,掌握建立回归模型的步骤
K—难点
通过对典型案例的探究,了解回归分析的基本思想方法和初步应用
K—易错
不能准确理解概念和参数的含义
概念辨析
有下列说法:
①线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的数学方法;
②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;
③通过回归方程可以估计观测变量的取值和变化趋势;
④因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.
其中正确命题的个数是
A.1 B.2
C.3 D.4
【答案】C
【解析】①反映的正是最小二乘法思想,故正确;
②反映的是画散点图的作用,也正确;
③解释的是回归方程的作用,故也正确;
④是不正确的,在求回归方程之前必须进行相关性检验,以体现两变量的关系.
因此正确命题的个数为3,故选C.
【名师点睛】由题目可获取以下信息:①线性回归分析;②散点图;③相关性检验等的相关概念及意义.解答本题可先逐一核对相关概念及其性质,然后再逐一作出判断,最后得出结论.
线性回归模型
一台机器由于使用时间较长,生产的零件有一些会缺损,按不同转速生产出来的零件有缺损的统计数据如下表:
转速x(转/秒)
16
14
12
8
每小时生产缺损零件数y(件)
11
9
8
5
(1)作出散点图;
(2)如果与线性相关,求出回归直线方程;
(3)若实际生产中,允许每小时生产的产品中有缺损的零件最多为10个,那么,机器的转速应控制在什么范围内?(结果保留整数)
附:线性回归方程中,,其中为样本平均值.
【答案】(1)见解析;(2);(3)机器的运转速度应控制在转/秒内.
【解析】(1)根据表中的数据画出散点图如下图:
(2)由题中数据列表如下:
i
1
2
3
4
xi
16
14
12
8
yi
11
9
8
5
xiyi
176
126
96
40
,
∴,∴.
(3)令,解得,
故机器的运转速度应控制在转/秒内.
【名师点睛】(1)求回归直线方程的一般步骤如下:①作出散点图,依据问题所给的数据在平面直角坐标系中描点,观察点的分布是否呈条状分布,即是否在一条直线附近,从而判断两变量是否具有线性相关关系;②当两变量具有线性相关关系时,求回归系数,写出回归直线方程.
(2)回归直线方程中的表示x每增加1个单位时,的变化量的估计值为.
(3)可以利用回归直线方程预报在取某个值时的估计值.
(4)由于回归直线方程中的系数和是通过样本估计而来的,存在着误差,这种误差可能导致预报结果有偏差.
线性回归分析
为研究重量(单位:克)对弹簧长度(单位:厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:
x
5
10
15
20
25
30
y
7.25
8.12
8.95
9.90
10.9
11.8
(1)作出散点图,并求回归方程:
(2)求相关指数R2,并判断模型的拟合效果;
(3)进行残差分析.
【答案】(1)散点图见解析,回归方程为;(2)回归模型的拟合效果较好;(3)见解析.
【解析】(1)散点图如下图所示:
从散点图,可以看出这些点大致分布在一条直线的附近,因此,可用公式求得线性回归方程的系数.
因为,
,
,.
计算,得.
所以所求回归方程为.
(2)列表如下:
0.05
0.005
0.04
0.025
1.41
2.31
,所以,
所以回归模型的拟合效果较好.
【名师点睛】(1)线性回归分析的过程:①随机抽取样本,确定数据,形成样本点;②由样本点形成散点图,判定是否具有线性相关关系;③由最小二乘法求线性回归方程;④进行残差分析,分析模型的拟合效果,不合适时,分析错因,予以纠正;⑤依据回归方程作出预报.
(2)用散点图可粗略判断两个变量间有无线性相关关系,用相关指数R2可以描述两个变量之间的密切程度.
非线性回归分析
在一次抽样调查中测得样本的5个样本点,数值如表:
x
0.25
0.5
1
2
4
y
16
12
5
2
1
试建立y与x之间的回归方程.
【答案】见解析.
【解析】作出变量y与x之间的散点图如图所示:
由图可知变量y与x近似地呈反比例函数关系.
设,令,则.由y与x的数据表可得y与t的数据表:
t
4
2
1
0.5
0.25
y
16
12
5
2
1
作出y与t的散点图如图所示:
由图可知y与t呈近似的线性相关关系.
又,
,
,
∴.
所以y与x的回归方程是.
【名师点睛】求非线性回归方程的步骤如下:
①确定变量,作出散点图;
②根据散点图,选择恰当的拟合函数;
③变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程;
④分析拟合效果,通过计算相关指数或画残差图来判断拟合效果;
⑤根据相应的变换,写出非线性回归方程.
不能准确理解概念和参数的含义
关于与有如下数据:
x
2
4
5
6
8
y
30
40
60
50
70
为了对两个变量进行统计分析,现有以下两种线性模型:甲模型,乙模型,试比较哪一个模型拟合的效果更好.
【错解】∵,,
∴,∴乙模型拟合的效果更好.
【错因分析】明确的大小与拟合效果的关系,用相关指数来比较模型的拟合效果,越大,模型的拟合效果越好,并不是越小模型的拟合效果越好.
【正解】∵,,
∴,∴甲模型拟合的效果更好.
1.已知回归方程,而试验得到一组数据是(2,4.9),(3,7.1),(4,9.1),则残差平方和是
A.0.01 B.0.02
C.0.03 D.0.04
2.对变量x、y有观测数据(xi,yi)(i=1,2,…,10),得散点图①;对变量u、v有观测数据(ui,vi)(i=1,2,…,10),得散点图②.由这两个散点图可以判断
A.变量x与y正相关,u与v正相关 B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关 D.变量x与y负相关,u与v负相关
3.已知x和y之间的一组数据如下表:
x
0
1
2
3
y
1
3
5
7
则y与x的线性回归方程必过点
A.(2,2) B.(,0)
C.(1,2) D.(,4)
4.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y与x负相关且=2.3x-6.4;②y与x负相关且=-3.4x+5;③y与x正相关且=5.3x+8.4;④y与x正相关且=-4.36x-4.5.其中一定不正确的结论的序号是
A.①② B.②③
C.③④ D.①④
5.某学校开展研究性学习活动,某同学获得一组实验数据如下表:
x
1.99
3
4
5.1
6.12
y
1.5
4.04
7.5
12
18.01
对于表中数据,现给出下列拟合曲线,其中拟合程度最好的是
A.y=2x-2 B.
C. D.
6.已知x,y的取值如下表:
x
0
1
3
4
y
2.2
4.3
4.8
6.7
若x,y具有线性相关关系,且回归方程为,则_______________.
7.某市居民2011~2015年家庭年平均收入x(单位:万元)与年平均支出y(单位:万元)的统计资料如下表:
年份
2011
2012
2013
2014
2015
收入x
11.5
12.1
13
13.5
15
支出y
6.8
8.8
9.8
10
12
根据统计资料,居民家庭年平均收入的中位数是_______________,家庭年平均收入与年平均支出有_______________线性相关关系.
8.随着我国经济的发展,居民的储蓄存款逐年增长,某地区城乡居民人民币储蓄存款(年底余额)如下表:
年份
2014
2015
2016
2017
2018
时间代号t
1
2
3
4
5
储蓄存款y(千亿元)
5
6
7
8
10
(1)求y关于t的回归方程;
(2)用所求回归方程预测该地区2019年(t=6)的人民币储蓄存款.
附:回归方程中,.
9.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计表:
收入x(万元)
8.2
8.6
10.0
11.3
11.9
支出y(万元)
6.2
7.5
8.0
8.5
9.8
根据上表可得回归直线方程,其中.据此估计该社区一户年收入为15万元家庭的年支出为
A.11.4万元 B.11.8万元
C.12.0万元 D.12.2万元
10.具有线性相关关系的变量x,y有一组观测数据(xi,yi)(i=1,2,…,8),其回归直线方程是且,,则实数
A. B.
C. D.
11.已知具有线性相关关系的两个变量x、y之间的一组数据如下表:
x
0
1
2
3
4
y
2.2
4.3
4.5
4.8
6.7
且回归方程,则当x=6时,y的预测值为
A.8.46 B.6.8
C.6.3 D.5.76
12.关于x与y有如下数据:
x
2
4
5
6
8
y
30
40
60
50
70
为了对x,y两个变量进行统计分析,现有以下两种线性模型:甲:=6.5x+17.5,乙:=7x+17,则_______________(填“甲”或“乙”)模型拟合的效果更好.
13.以下是某地收集到的新房屋的销售价格y和房屋的面积x的数据:
房屋面积(m2)
115
110
80
135
105
销售价格(万元)
24.8
21.6
18.4
29.2
22
(1)画出数据对应的散点图;
(2)求线性回归方程,并在散点图中加上回归直线;
(3)根据(2)的结果估计当房屋面积为150m2时的销售价格.
14.某电脑公司有6名产品推销员,其工作年限与年推销金额的数据如下表:
推销员编号
1
2
3
4
5
工作年限x/年
3
5
6
7
9
推销金额y/万元
2
3
3
4
5
(1)以工作年限为自变量,推销金额为因变量y,作出散点图;
(2)求年推销金额y关于工作年限x的线性回归方程;
(3)若第6名推销员的工作年限为11年,试估计他的年推销金额.
15.(2016新课标全国III)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
参考数据:,,,≈2.646,
参考公式:相关系数
回归方程中斜率和截距的最小二乘估计公式分别为:.
16.(2017新课标全国I文节选)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:
抽取次序
1
2
3
4
5
6
7
8
零件尺寸
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
经计算得,,,,其中为抽取的第个零件的尺寸,.求的相关系数,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).
附:样本的相关系数,.
1.【答案】C
【解析】因为残差,所以残差的平方和为.故选C.
2.【答案】C
【解析】题图①中的数据y随x的增大而减小,因此变量x与y负相关;题图②中,随着u的增大,v也增大,因此变量u与v正相关,故选C.
3.【答案】D
【解析】因为,,所以回归方程必过点(,4).故选D.
5.【答案】C
【解析】可以代入检验,当x取相应的值时,所求y与已知y相差平方和最小的便是拟合程度最高的.故选C.
6.【答案】2.6
【解析】由已知得,,而回归方程过点,则4.5=0.95×2+,解得a=2.6.
7.【答案】13 正
【解析】把2011~2015年家庭年平均收入按从小到大顺序排列为11.5,12.1,13,13.5,15,因此中位数为13,由统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正的线性相关关系.
8.【答案】(1);(2)千亿元.
【解析】(1)整理所给数据:
序号
t
y
t2
ty
1
1
5
1
5
2
2
6
4
12
3
3
7
9
21
4
4
8
16
32
5
5
10
25
50
15
36
55
120
由上表可得,,,.
所以,故,
故所求回归直线方程为.
(2)当t=6时,=1.2×6+3.6=10.8(千亿元).
所以预测该地区2019年的人民币储蓄存款为10.8千亿元.
9.【答案】B
【解析】,,
线性回归方程为,
所以当x=15时,.故选B.
11.【答案】C
【解析】因为,,所以将点代入回归方程,可得,解得,所以,当时,,故选C.
12.【答案】甲
【解析】设甲模型的相关指数为,则=1-=1-=0.845;设乙模型的相关指数为,则=1-=0.82.因为0.845>0.82,即>,所以甲模型拟合效果更好.
13.【答案】(1)见解析;(2);(3)31.2442万元.
【解析】(1)散点图如图所示:
(3)当x=150m2时,销售价格的估计值为=0.1962×150+1.8142=31.2442 (万元).
14.【答案】(1)见解析;(2);(3)5.9万元.
【解析】(1)画出散点图如图所示:
(2)从散点图可以看出,这些点大致在一条直线附近,
则可设所求的线性回归方程为.
由题意可得,,
所以,,
所以,,
所以年推销金额y关于工作年限x的线性回归方程为.
(3)当x=11时,=0.5x+0.4=0.5×11+0.4=5.9(万元).
所以可以估计第6名推销员的年销售金额为5.9万元.
15.【答案】(1)见解析;(2)预测2016年我国生活垃圾无害化处理量将约1.82亿吨.
【解析】(1)由折线图中数据和附注中参考数据得,,,
,
故.
(2)由及(1)得,
.
所以关于的回归方程为.
将2016年对应的代入回归方程得.
所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.
16.【答案】,可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.
【解析】由样本数据得的相关系数为
.
由于,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.