§4.3 统计模型
4.3.1 一元线性回归模型
学习目标 1.了解变量间的相关关系.2.能根据散点图判断两个变量是否具有相关关系.3.了解线性回归思想,会求回归直线的方程.4.会判断相关性的强弱,能根据回归直线方程进行预测.
知识点一 相关关系
1.两个变量的关系
分类
函数关系
相关关系
特征
两变量关系确定
两变量关系带有不确定性
2.散点图:一般地,如果收集到了变量x和变量y的n对数据(简称为成对数据),则在平面直角坐标系xOy中描出点(xi,yi),i=1,2,3,…,n,就可以得到这n对数据的散点图.
3.线性相关:如果变量x与变量y之间的关系可以近似地用一次函数来刻画,则称x与y线性相关.
4.正相关与负相关
正相关
负相关
一个变量增大,另一个变量大致是增大的
一个变量增大,另一个变量大致是减少的
知识点二 回归直线方程及其性质
1.最小二乘法
一般地,已知变量x与y的n对成对数据(xi,yi),i=1,2,…,n,任意给定一个一次函数y=bx+a,对每一个已知的xi,由直线方程可以得到一个估计值i=bxi+a,如果一次函数=x+能使(1-y1)2+(2-y2)2+…+(n-yn)2=(yi-i)2取得最小值,则=x+称为y关于x的回归直线方程(对应的直线称为回归直线),因为是使得平方和最小,所以其中涉及的方法称为最小二乘法.
2.回归直线方程的系数计算公式
回归直线方程
回归系数的计算公式
的计算公式
=x+
=
=
=-
3.回归直线方程的性质
(1)回归直线一定过点(,).
(2)一次函数=x+的单调性由的符号决定,函数递增的充要条件是>0.
(3)回归系数的实际意义:当x增大一个单位时,平均变化个单位.
思考 正相关、负相关与的符号有何关系?
答案 y与x正相关的充要条件是>0,y与x负相关的充要条件是<0.
知识点三 相关系数
1.相关系数:统计学里一般用r==来衡量y与x的线性相关性强弱,这里的r称为线性相关系数(简称相关系数).
2.相关系数的性质
性质1
|r|≤1,且y与x正相关的充要条件是r>0,y与x负相关的充要条件是r<0
性质2
|r|越小,两个变量之间的线性相关性越弱,|r|越大,两个变量之间的线性相关性越强
性质3
|r|=1的充要条件是成对数据构成的点都在回归直线上
1.函数关系是一种确定关系,而相关关系是一种不确定关系.( √ )
2.样本相关系数r越大,两变量的相关性越强.( × )
3.散点图可以直观地分析出两个变量是否具有相关性.( √ )
4.若变量x,y满足函数关系,则这两个变量线性相关.( × )
一、相关关系的判断
例1 (1)(多选)下列关系中,属于相关关系的是( )
A.正方形的边长与面积之间的关系
B.农作物的产量与施肥量之间的关系
C.出租车费与行驶的里程
D.降雪量与交通事故的发生率之间的关系
答案 BD
解析 A中,正方形的边长与面积之间的关系是函数关系;B中,农作物的产量与施肥量之间不具有严格的函数关系,但具有相关关系;C为确定的函数关系;D中,降雪量与交通事故的发生率之间具有相关关系.
(2)某种产品的广告支出费x与销售额y之间有如下对应数据(单位:百万元):
x
2
4
5
6
8
y
30
40
60
50
70
①画出散点图;
②从散点图中判断销售金额与广告支出费成什么样的关系?
解 ①以x对应的数据为横坐标,y对应的数据为纵坐标,所作的散点图如图所示.
②从图中可以发现广告支出费与销售金额之间具有相关关系,并且当广告支出费由小变大时,销售金额也大多由小变大,图中的数据大致分布在某条直线的附近,即x与y成正相关关系.
(学生)反思感悟 两个变量是否相关的两种判断方法
(1)根据实际经验:借助积累的经验进行分析判断.
(2)利用散点图:通过散点图,观察它们的分布是否存在一定的规律,直观地进行判断.如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.
跟踪训练1 (多选)在下列所示的四个图中,每个图的两个变量具有相关关系的图是( )
答案 BC
解析 图A的两个变量具有函数关系;图BC的两个变量具有相关关系;图D的两个变量之间既不是函数关系,也不是相关关系.
二、回归直线方程及其应用
例2 某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:
x
6
8
10
12
y
2
3
5
6
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的回归直线方程=x+;
(3)试根据求出的回归直线方程,预测记忆力为9的同学的判断力.
解 (1)散点图如图所示:
(2)==9,
==4,
=62+82+102+122=344,
iyi=6×2+8×3+10×5+12×6=158,
===0.7,
=-=4-0.7×9=-2.3,
故回归直线方程为=0.7x-2.3.
(3)由(2)中回归直线方程可知,当x=9时,=0.7×9-2.3=4,即预测记忆力为9的同学的判断力为4.
(学生)反思感悟 求回归直线方程可分如下四步来完成
(1)列:列表表示xi,yi,x,xiyi;
(2)算:计算,,,iyi;
(3)代:代入公式计算,的值;
(4)写:写出回归直线方程.
跟踪训练2 随着我国经济的发展,居民储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:
年份
2015
2016
2017
2018
2019
时间代号t
1
2
3
4
5
储蓄存款y(千亿元)
5
6
7
8
10
(1)求y关于t的回归直线方程=t+;
(2)用所求回归直线方程预测该地区2021年(t=7)的人民币储蓄存款.
解 (1)由题意可知,n=5,=i==3,
=i==7.2.
又=55,
iyi=120,
计算得,==1.2,=-=7.2-1.2×3=3.6.
故所求回归直线方程为=1.2t+3.6.
(2)将t=7代入=1.2t+3.6,可得=1.2×7+3.6=12(千亿元),
所以预测该地区2021年的人民币储蓄存款为12千亿元.
三、相关系数及其应用
命题角度1 相关系数的性质
例3 (1)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r如下表:
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
则哪位同学的试验结果体现A,B两变量有更强的线性相关性( )
A.甲
B.乙
C.丙
D.丁
答案 D
解析 |r|越接近1,相关性越强,故选D.
(2)在一组数据为(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若这组样本数据的相关系数为-1,则所有的样本点(xi,yi)(i=1,2,…,n)满足的方程可以是( )
A.y=-x+1
B.y=x-1
C.y=x+1
D.y=-x2
答案 A
解析 ∵这组样本数据的相关系数为-1,
∴这一组数据(x1,y1),(x2,y2),…,(xn,yn)线性相关,且是负相关.
∴可排除B,C,D,故选A.
反思感悟 相关系数的性质
(1)r的绝对值越接近0,相关性越弱;
(2)r的绝对值越接近1,相关性越强.
跟踪训练3 (1)对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图图1;对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图图2.由这两个散点图可以判断( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
答案 C
解析 由这两个散点图可以判断,变量x与y负相关,u与v正相关.
(2)(多选)对两个变量的相关系数r,下列说法正确的是( )
A.|r|越大,相关程度越大
B.|r|越小,相关程度越大
C.|r|趋近于0时,没有线性相关关系
D.|r|越接近1时,线性相关程度越强
答案 AD
解析 对于A,|r|越大,相关程度越大,A正确;对于B,|r|越小,相关程度越小,B错误;对于C,|r|趋近于0时,线性相关关系越弱,C错误;对于D,|r|越接近1时,线性相关程度越强,D正确.综上,正确的是AD.
命题角度2 相关系数的应用
例4 某厂的生产原料耗费x(单位:百万元)与销售额y(单位:百万元)之间有如下的对应关系:
x
2
4
6
8
y
30
40
50
70
(1)画出(x,y)的散点图;
(2)计算x与y之间的相关系数,并刻画它们的相关程度.
解 (1)画出(x,y)的散点图如图所示.
(2)=5,=47.5,
=120,=9
900,iyi=1
080,
故相关系数r=
=≈0.982
7.
由相关系数r≈0.982
7,可以推断生产原料耗费与销售额这两个变量正线性相关,且相关程度很高.
反思感悟 线性相关强弱的判断方法
(1)散点图:散点图只是粗略作出判断,其图像越接近直线,相关性越强.
(2)相关系数:相关系数能够较准确的判断相关的程度,其绝对值越大,相关性越强.
跟踪训练4 假设关于某种设备的使用年限x(单位:年)与所支出的维修费用y(单位:万元)有如下统计资料:
x
2
3
4
5
6
y
2.2
3.8
5.5
6.5
7.0
计算y与x之间的相关系数(精确到0.001,已知=90,≈140.8,iyi=112.3,≈8.9,≈1.4).
解 ∵==4,
==5.
iyi-5=112.3-5×4×5=12.3,
-52=90-5×42=10,
-52=140.8-125=15.8,
∴r====≈≈0.987.
四、非线性回归
例5 某地区不同身高的未成年男性的体重平均值如下表:
身高x(cm)
60
70
80
90
100
110
体重y(kg)
6.13
7.90
9.99
12.15
15.02
17.50
身高x(cm)
120
130
140
150
160
170
体重y(kg)
20.92
26.86
31.11
38.85
47.25
55.05
(1)试建立y与x之间的非线性回归方程;
(2)如果一名在校男生身高为168
cm,预测他的体重约为多少?
解 (1)根据表中的数据画出散点图,如下:
由图看出,这些点分布在某条指数型函数曲线的周围,于是令z=ln
y,列表如下:
x
60
70
80
90
100
110
z
1.81
2.07
2.30
2.50
2.71
2.86
x
120
130
140
150
160
170
z
3.04
3.29
3.44
3.66
3.86
4.01
作出散点图,如下:
由表中数据可求得z与x之间的回归直线方程为=0.663+0.020x,则有=e0.663+0.020x.
(2)由(1)知,当x=168时,=e0.663+0.020×168≈55.87,所以在校男生身高为168
cm,预测他的体重约为55.87
kg.
反思感悟 非线性回归问题的解题步骤
跟踪训练5 在一次抽样调查中测得样本的5个样本点,数值如下表:
x
0.25
0.5
1
2
4
y
16
12
5
2
1
试建立y与x之间的非线性回归方程.
解 由数值表可作散点图如下:
根据散点图可知y与x近似地呈反比例函数关系,
设y=,令t=,
则y=kt,原数据变为:
t
4
2
1
0.5
0.25
y
16
12
5
2
1
由置换后的数值表作散点图如下:
由散点图可以看出y与t呈近似的线性相关关系,列表如下:
i
ti
yi
tiyi
t
y
1
4
16
64
16
256
2
2
12
24
4
144
3
1
5
5
1
25
4
0.5
2
1
0.25
4
5
0.25
1
0.25
0.062
5
1
∑
7.75
36
94.25
21.312
5
430
所以=1.55,=7.2.
所以=≈4.134
4.=-≈0.791
7.
所以=4.134
4t+0.791
7.
所以y与x的非线性回归方程是=+0.791
7.
1.根据一组数据判断是否线性相关时,应选哪个图( )
A.茎叶图
B.频率分布直方图
C.散点图
D.频率分布折线图
答案 C
解析 判断两个变量是否有线性相关关系时,应先画出散点图.若这些点大体分布在一条直线附近,则具有线性相关关系.
2.设一个回归直线方程为=3+1.2x,则变量x增加一个单位时( )
A.y平均增加1.2个单位
B.y平均增加3个单位
C.y平均减少1.2个单位
D.y平均减少3个单位
答案 A
解析 由=1.2>0,故选A.
3.设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线方程的回归系数为,回归截距是,那么必有( )
A.与r的符号相同
B.与r的符号相同
C.与r的符号相反
D.与r的符号相反
答案 A
解析 由公式可知与r的符号相同.
4.已知x与y之间的一组数据:
x
0
1
2
3
y
1
3
5
7
若y与x线性相关,则y与x的回归直线=x+必过点( )
A.(2,2)
B.(1.5,0)
C.(1,2)
D.(1.5,4)
答案 D
解析 ∵==1.5,==4,
∴回归直线必过点(1.5,4).
5.若施肥量x(kg)与水稻产量y(kg)的回归直线方程为=5x+250,当施肥量为80
kg时,预计水稻产量约为________kg.
答案 650
解析 把x=80代入回归直线方程可得其预测值=5×80+250=650(kg).
1.知识清单:
(1)相关关系与线性相关关系的判断.
(2)求回归直线方程并预测结果.
(3)相关系数及其应用.
(4)非线性回归问题.
2.方法归纳:数形结合法、转化法.
3.常见误区:
(1)相关系数的大小与相关程度的关系判断错误.
(2)不判断是否线性相关,盲目求回归直线方程.
1.(多选)关于相关关系,下列说法正确的是( )
A.相关关系是一种非确定关系
B.相关系数r越大,两个变量的相关性越强
C.当两个变量相关且相关系数r>0时,表明两个变量正相关
D.相关系数r的绝对值越接近1,表明两个变量的相关性越强
答案 ACD
解析 对于A,相关关系不同于函数关系,它是一种非确定的关系,A正确,对于B,相关系数|r|越大,两个变量的相关性越强,B错误;对于C,当两个变量相关且相关系数r>0时,说明两个变量正相关,C正确;对于D,相关系数r的绝对值越接近1,表明两个变量的相关性越强,D正确.故选ACD.
2.(多选)某校地理学兴趣小组在某座山测得海拔高度、气压和沸点的六组数据绘制成散点图如图所示,则下列说法正确的是( )
A.沸点与海拔高度呈正相关
B.沸点与气压呈正相关
C.沸点与海拔高度呈负相关
D.沸点与海拔高度、沸点与气压的相关性都很强
答案 BCD
解析 由题干左图知气压随海拔高度的增加而减小,由题干右图知沸点随气压的升高而升高,所以沸点与气压呈正相关,沸点与海拔高度呈负相关,由于两个散点图中的点都成线性分布,所以沸点与海拔高度、沸点与气压的相关性都很强,故B,C,D正确,A错误.
3.如图所示,有5组(x,y)数据,去掉哪一组数据之后,剩下的4组数据成线性相关关系( )
A.E
B.D
C.B
D.A
答案 B
解析 去掉D组数据之后,剩下的4组数据成线性相关关系.
4.两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是( )
A.y=a·xb
B.y=a+bln
x
C.y=a·ebx
D.y=a·
答案 B
解析 由散点图可知,此曲线类似对数函数型曲线,因此可用函数y=a+bln
x模型进行拟合.
5.(多选)对于回归直线方程=x+
(>0),下列说法正确的是( )
A.当x增加一个单位时,的值平均增加个单位
B.点(,)一定在=x+所表示的直线上
C.当x=t时,一定有y=t+
D.当x=t时,y的值近似为t+
答案 ABD
解析 回归直线方程是一个模拟函数,它表示的是一系列离散的点大致所在直线的位置及其大致变化规律,所以有些散点不一定在回归直线上.
6.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y=ebx+a的周围.令=ln
y,求得回归方程为=0.25x-2.58,则该模型的非线性回归方程为________.
答案 =e0.25x-2.58
解析 因为=0.25x-2.58,=ln
y,
所以=e0.25x-2.58.
7.若回归直线方程中的回归系数=0,则相关系数r=________.
答案 0
解析 相关系数r=与=的分子相同,故r=0.
8.某品牌服装专卖店为了解保暖衬衣的销售量y(件)与平均气温x(℃)之间的关系,随机统计了连续四旬的销售量与当旬平均气温,其数据如表:
时间
二月上旬
二月中旬
二月下旬
三月上旬
旬平均气温x(℃)
3
8
12
17
旬销售量y(件)
55
m
33
24
由表中数据算出回归直线方程=x+中的=-2,=10,=38.
(1)表中数据m=________;
(2)气象部门预测三月中旬的平均气温约为22
℃,据此估计,该品牌的保暖衬衣在三月中旬的销售量约为________件.
答案 (1)40 (2)14
解析 (1)由=38,得m=40.
(2)由=-得=58,故=-2x+58,
当x=22时,=14,
故三月中旬的销售量约为14件.
9.某个男孩的年龄与身高的统计数据如下表所示:
年龄x(岁)
1
2
3
4
5
6
身高y(cm)
78
87
98
108
115
120
(1)画出散点图;
(2)判断y与x是否具有线性相关关系,如果相关,是正相关还是负相关.
解 (1)散点图如图所示.
(2)由图知,所有数据点接近一条直线排列,因此,认为y与x具有线性相关关系,且是正相关关系.
10.由某种设备的使用年限xi(年)与所支出的维修费yi(万元)的数据资料算得如下结果,=90,iyi=112,i=20,i=25.
(1)求所支出的维修费y关于使用年限x的回归直线方程=x+;
(2)①判断变量x与y之间是正相关还是负相关;
②当使用年限为8年时,试估计支出的维修费是多少?
解 (1)∵i=20,i=25,
∴=i=4,=i=5,
∴===1.2,
=-=5-1.2×4=0.2.
∴所求回归直线方程为=1.2x+0.2.
(2)①由(1)知=1.2>0,∴变量x与y之间是正相关.
②由(1)知,当x=8时,=1.2×8+0.2=9.8,
即使用年限为8年时,支出的维修费约是9.8万元.
11.某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:
月份
1
2
3
4
5
6
人均销售额
6
5
8
3
4
7
利润率(%)
12.6
10.4
18.5
3.0
8.1
16.3
根据表中数据,下列说法正确的是( )
A.利润率与人均销售额成正比例函数关系
B.利润率与人均销售额成反比例函数关系
C.利润率与人均销售额成正相关关系
D.利润率与人均销售额成负相关关系
答案 C
解析 根据题意,画出利润率与人均销售额的散点图,如图所示.
由散点图可知,利润率与人均销售额成正相关关系.故选C.
12.(多选)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系.根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归直线方程为=0.85x-85.71,则下列结论中正确的是( )
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(,)
C.若该大学某女生身高增加1
cm,则其体重约增加0.85
kg
D.若该大学某女生身高为170
cm,则可判定其体重必为58.79
kg
答案 ABC
解析 A,B,C均正确,是回归直线方程的性质,D项是错误的,回归直线方程只能预测学生的体重,应为大约58.79
kg.
13.已知变量y关于x的非线性回归方程为=,其一组数据如下表所示:
x
1
2
3
4
y
e
e3
e4
e6
若x=5,则预测y的值可能为( )
A.e5
B.
C.e7
D.
答案 D
解析 将式子两边取对数,得到ln
=x-0.5,
令=ln
,得到=x-0.5,
列出x,z的取值对应的表格如下:
x
1
2
3
4
z
1
3
4
6
则==2.5,==3.5,
∵(,)满足=x-0.5,
∴3.5=×2.5-0.5,解得=1.6,
∴=1.6x-0.5,∴=e1.6x-0.5,
当x=5时,=e1.6×5-0.5=.
14.某数学老师身高176
cm,他爷爷、父亲和儿子的身高分别是173
cm、170
cm、182
cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________
cm.
答案 185
解析 因为儿子的身高与父亲的身高有关,所以设儿子的身高为Y(单位:cm),父亲身高为X(单位:cm),根据数据列表:
X
173
170
176
Y
170
176
182
由表中数据,求得回归系数=1,=3.
于是儿子身高与父亲身高的关系式为=X+3,
当X=182时,=185.
故预测该老师的孙子的身高为185
cm.
15.同一资料,如果将x作为自变量,y作为因变量,得回归系数;将y作为自变量,x作为因变量,得回归系数′,则相关系数r与,′的关系是________.
答案 |r|=
解析 当x作自变量时,得=;
当y作自变量时,得′=,而r=;
从而′=r2,所以|r|=.
16.
下图是我国2013年至2019年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1-7分别对应年份2013-2019.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2021年我国生活垃圾无害化处理量.
附注:
参考数据:i=9.32,iyi=40.17,=0.55,≈2.646.
参考公式:相关系数r=,
回归直线方程=+t中斜率和截距最小二乘法估计公式分别为:
=,=-.
解 (1)由折线图中数据和附注中参考数据得
=4,(ti-)2=28,=0.55,
(ti-)(yi-)=iyi-i=40.17-4×9.32=2.89.
r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.331及(1)得
==≈0.103,
=-≈1.331-0.103×4≈0.92.
所以y关于t的回归直线方程为:=0.92+0.10t.
将2021年对应的t=9代入回归直线方程得:=0.92+0.10×9=1.82.所以预测2021年我国生活垃圾无害化处理量将约为1.82亿吨.(共86张PPT)
学习目标
XUE
XI
MU
BIAO
1.了解变量间的相关关系.
2.能根据散点图判断两个变量是否具有相关关系.
3.了解线性回归思想,会求回归直线的方程.
4.会判断相关性的强弱,能根据回归直线方程进行预测.
内
容
索
引
知识梳理
题型探究
随堂演练
课时对点练
1
知识梳理
PART
ONE
1.两个变量的关系
2.散点图:一般地,如果收集到了变量x和变量y的n对数据(简称为成对数据),则在平面直角坐标系xOy中描出点(xi,yi),i=1,2,3,…,n,就可以得到这n对数据的散点图.
3.线性相关:如果变量x与变量y之间的关系可以近似地用
来刻画,则称x与y线性相关.
知识点一 相关关系
分类
函数关系
相关关系
特征
两变量关系_____
两变量关系带有_________
确定
不确定性
一次函数
4.正相关与负相关
正相关
负相关
一个变量增大,另一个变量大致是________
一个变量增大,另一个变量大致是________
增大的
减少的
知识点二 回归直线方程及其性质
回归直线方程
回归系数
的计算公式
的计算公式
?
?
?
?
2.回归直线方程的系数计算公式
3.回归直线方程的性质
(1)回归直线一定过点__________.
知识点三 相关系数
线性相关性强弱
2.相关系数的性质
性质1
|r|≤1,且y与x正相关的充要条件是
,y与x负相关的充要条件是______
性质2
|r|越小,两个变量之间的线性相关性越
,|r|越大,两个变量之间的线性相关性越___
性质3
|r|=1的充要条件是成对数据构成的点都在
上
r>0
r<0
弱
强
回归直线
1.函数关系是一种确定关系,而相关关系是一种不确定关系.(
)
2.样本相关系数r越大,两变量的相关性越强.(
)
3.散点图可以直观地分析出两个变量是否具有相关性.(
)
4.若变量x,y满足函数关系,则这两个变量线性相关.(
)
思考辨析
判断正误
SI
KAO
BIAN
XI
PAN
DUAN
ZHENG
WU
×
×
√
√
2
题型探究
PART
TWO
一、相关关系的判断
例1 (1)(多选)下列关系中,属于相关关系的是
A.正方形的边长与面积之间的关系
B.农作物的产量与施肥量之间的关系
C.出租车费与行驶的里程
D.降雪量与交通事故的发生率之间的关系
解析 A中,正方形的边长与面积之间的关系是函数关系;
B中,农作物的产量与施肥量之间不具有严格的函数关系,但具有相关关系;
C为确定的函数关系;
D中,降雪量与交通事故的发生率之间具有相关关系.
√
√
(2)某种产品的广告支出费x与销售额y之间有如下对应数据(单位:百万元):
?
①画出散点图;
解 以x对应的数据为横坐标,y对应的数据为纵坐标,所作的散点图如图所示.
x
2
4
5
6
8
y
30
40
60
50
70
②从散点图中判断销售金额与广告支出费成什么样的关系?
解 从图中可以发现广告支出费与销售金额之间具有相关关系,并且当广告支出费由小变大时,销售金额也大多由小变大,图中的数据大致分布在某条直线的附近,即x与y成正相关关系.
反思感悟
两个变量是否相关的两种判断方法
(1)根据实际经验:借助积累的经验进行分析判断.
(2)利用散点图:通过散点图,观察它们的分布是否存在一定的规律,直观地进行判断.如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.
跟踪训练1 (多选)在下列所示的四个图中,每个图的两个变量具有相关关系的图是
√
√
解析 图A的两个变量具有函数关系;
图BC的两个变量具有相关关系;
图D的两个变量之间既不是函数关系,也不是相关关系.
例2 某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:
?
(1)请画出上表数据的散点图;
二、回归直线方程及其应用
解 散点图如图所示:
x
6
8
10
12
y
2
3
5
6
x
6
8
10
12
y
2
3
5
6
反思感悟
跟踪训练2 随着我国经济的发展,居民储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:
年份
2015
2016
2017
2018
2019
时间代号t
1
2
3
4
5
储蓄存款y(千亿元)
5
6
7
8
10
所以预测该地区2021年的人民币储蓄存款为12千亿元.
三、相关系数及其应用
命题角度1 相关系数的性质
例3 (1)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r如下表:
?
则哪位同学的试验结果体现A,B两变量有更强的线性相关性
A.甲
B.乙
C.丙
D.丁
解析 |r|越接近1,相关性越强,故选D.
?
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
√
解析 ∵这组样本数据的相关系数为-1,
∴这一组数据(x1,y1),(x2,y2),…,(xn,yn)线性相关,且是负相关.
∴可排除B,C,D,故选A.
(2)在一组数据为(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若这组样本数据的相关系数为-1,则所有的样本点(xi,yi)(i=1,2,…,n)满足的方程可以是
A.y=-
x+1
B.y=x-1
C.y=x+1
D.y=-x2
√
反思感悟
相关系数的性质
(1)r的绝对值越接近0,相关性越弱;
(2)r的绝对值越接近1,相关性越强.
跟踪训练3 (1)对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图图1;对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图图2.由这两个散点图可以判断
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
解析 由这两个散点图可以判断,变量x与y负相关,u与v正相关.
√
(2)(多选)对两个变量的相关系数r,下列说法正确的是
A.|r|越大,相关程度越大
B.|r|越小,相关程度越大
C.|r|趋近于0时,没有线性相关关系
D.|r|越接近1时,线性相关程度越强
解析 对于A,|r|越大,相关程度越大,A正确;
对于B,|r|越小,相关程度越小,B错误;
对于C,|r|趋近于0时,线性相关关系越弱,C错误;
对于D,|r|越接近1时,线性相关程度越强,D正确.综上,正确的是AD.
√
√
命题角度2 相关系数的应用
例4 某厂的生产原料耗费x(单位:百万元)与销售额y(单位:百万元)之间有如下的对应关系:
?
(1)画出(x,y)的散点图;
解 画出(x,y)的散点图如图所示.
x
2
4
6
8
y
30
40
50
70
(2)计算x与y之间的相关系数,并刻画它们的相关程度.
x
2
4
6
8
y
30
40
50
70
由相关系数r≈0.982
7,可以推断生产原料耗费与销售额这两个变量正线性相关,且相关程度很高.
反思感悟
线性相关强弱的判断方法
(1)散点图:散点图只是粗略作出判断,其图像越接近直线,相关性越强.
(2)相关系数:相关系数能够较准确的判断相关的程度,其绝对值越大,相关性越强.
跟踪训练4 假设关于某种设备的使用年限x(单位:年)与所支出的维修费用y(单位:万元)有如下统计资料:
x
2
3
4
5
6
y
2.2
3.8
5.5
6.5
7.0
四、非线性回归
例5 某地区不同身高的未成年男性的体重平均值如下表:
?
(1)试建立y与x之间的非线性回归方程;
身高x(cm)
60
70
80
90
100
110
体重y(kg)
6.13
7.90
9.99
12.15
15.02
17.50
身高x(cm)
120
130
140
150
160
170
体重y(kg)
20.92
26.86
31.11
38.85
47.25
55.05
解 根据表中的数据画出散点图,如图:
由图看出,这些点分布在某条指数型函数曲线的周围,于是令z=ln
y,列表如下:
x
60
70
80
90
100
110
z
1.81
2.07
2.30
2.50
2.71
2.86
x
120
130
140
150
160
170
z
3.04
3.29
3.44
3.66
3.86
4.01
作出散点图,如图:
(2)如果一名在校男生身高为168
cm,预测他的体重约为多少?
身高x(cm)
60
70
80
90
100
110
体重y(kg)
6.13
7.90
9.99
12.15
15.02
17.50
身高x(cm)
120
130
140
150
160
170
体重y(kg)
20.92
26.86
31.11
38.85
47.25
55.05
反思感悟
非线性回归问题的解题步骤
跟踪训练5 在一次抽样调查中测得样本的5个样本点,数值如下表:
?
试建立y与x之间的非线性回归方程.
x
0.25
0.5
1
2
4
y
16
12
5
2
1
解
由数值表可作散点图如图:
根据散点图可知y与x近似地呈反比例函数关系,
则y=kt,原数据变为:
t
4
2
1
0.5
0.25
y
16
12
5
2
1
由置换后的数值表作散点图如图:
i
ti
yi
tiyi
?
?
1
4
16
64
16
256
2
2
12
24
4
144
3
1
5
5
1
25
4
0.5
2
1
0.25
4
5
0.25
1
0.25
0.062
5
1
∑
7.75
36
94.25
21.312
5
430
由散点图可以看出y与t呈近似的线性相关关系,列表如下:
3
随堂演练
PART
THREE
1.根据一组数据判断是否线性相关时,应选哪个图
A.茎叶图
B.频率分布直方图
C.散点图
D.频率分布折线图
1
2
3
4
5
√
解析 判断两个变量是否有线性相关关系时,应先画出散点图.若这些点大体分布在一条直线附近,则具有线性相关关系.
2.设一个回归直线方程为
=3+1.2x,则变量x增加一个单位时
A.y平均增加1.2个单位
B.y平均增加3个单位
C.y平均减少1.2个单位
D.y平均减少3个单位
1
2
3
4
5
√
解析 由
=1.2>0,故选A.
1
2
3
4
5
√
1
2
3
4
5
4.已知x与y之间的一组数据:
?
A.(2,2)
B.(1.5,0)
C.(1,2)
D.(1.5,4)
x
0
1
2
3
y
1
3
5
7
√
∴回归直线必过点(1.5,4).
1
2
3
4
5
5.若施肥量x(kg)与水稻产量y(kg)的回归直线方程为
=5x+250,当施肥量为80
kg时,预计水稻产量约为______kg.
650
解析 把x=80代入回归直线方程可得其预测值
=5×80+250=650(kg).
1.知识清单:
(1)相关关系与线性相关关系的判断.
(2)求回归直线方程并预测结果.
(3)相关系数及其应用.
(4)非线性回归问题.
2.方法归纳:数形结合法、转化法.
3.常见误区:
(1)相关系数的大小与相关程度的关系判断错误.
(2)不判断是否线性相关,盲目求回归直线方程.
课堂小结
KE
TANG
XIAO
JIE
4
课时对点练
PART
FOUR
1.(多选)关于相关关系,下列说法正确的是
A.相关关系是一种非确定关系
B.相关系数r越大,两个变量的相关性越强
C.当两个变量相关且相关系数r>0时,表明两个变量正相关
D.相关系数r的绝对值越接近1,表明两个变量的相关性越强
基础巩固
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
√
16
√
√
解析 对于A,相关关系不同于函数关系,它是一种非确定的关系,A正确,
对于B,相关系数|r|越大,两个变量的相关性越强,B错误;
对于C,当两个变量相关且相关系数r>0时,说明两个变量正相关,C正确;
对于D,相关系数r的绝对值越接近1,表明两个变量的相关性越强,D正确.故选ACD.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
2.(多选)某校地理学兴趣小组在某座山测得海拔高度、气压和沸点的六组数据绘制成散点图如图所示,则下列说法正确的是
A.沸点与海拔高度呈正相关
B.沸点与气压呈正相关
C.沸点与海拔高度呈负相关
D.沸点与海拔高度、沸点与气压
的相关性都很强
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
√
√
16
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
解析 由题干左图知气压随海拔高度的增加而减小,由题干右图知沸点随气压的升高而升高,所以沸点与气压呈正相关,沸点与海拔高度呈负相关,由于两个散点图中的点都成线性分布,所以沸点与海拔高度、沸点与气压的相关性都很强,故B,C,D正确,A错误.
3.如图所示,有5组(x,y)数据,去掉哪一组数据之后,剩下的4组数据成线性相关关系
A.E
B.D
C.B
D.A
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
√
解析 去掉D组数据之后,剩下的4组数据成线性相关关系.
16
4.两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是
A.y=a·xb
B.y=a+bln
x
C.y=a·ebx
D.y=a·
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
√
16
解析 由散点图可知,此曲线类似对数函数型曲线,因此可用函数y=a+bln
x模型进行拟合.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
√
16
√
√
解析 回归直线方程是一个模拟函数,它表示的是一系列离散的点大致所在直线的位置及其大致变化规律,所以有些散点不一定在回归直线上.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
7.若回归直线方程中的回归系数
=0,则相关系数r=____.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
0
8.某品牌服装专卖店为了解保暖衬衣的销售量y(件)与平均气温x(℃)之间的关系,随机统计了连续四旬的销售量与当旬平均气温,其数据如表:
?
?
(1)表中数据m=______;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
40
16
时间
二月上旬
二月中旬
二月下旬
三月上旬
旬平均气温x(℃)
3
8
12
17
旬销售量y(件)
55
m
33
24
(2)气象部门预测三月中旬的平均气温约为22
℃,据此估计,该品牌的保暖衬衣在三月中旬的销售量约为_____件.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
14
16
时间
二月上旬
二月中旬
二月下旬
三月上旬
旬平均气温x(℃)
3
8
12
17
旬销售量y(件)
55
m
33
24
故三月中旬的销售量约为14件.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
9.某个男孩的年龄与身高的统计数据如下表所示:
?
(1)画出散点图;
16
解 散点图如图所示.
年龄x(岁)
1
2
3
4
5
6
身高y(cm)
78
87
98
108
115
120
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
(2)判断y与x是否具有线性相关关系,如果相关,是正相关还是负相关.
16
解 由图知,所有数据点接近一条直线排列,因此,认为y与x具有线性相关关系,且是正相关关系.
年龄x(岁)
1
2
3
4
5
6
身高y(cm)
78
87
98
108
115
120
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
(2)①判断变量x与y之间是正相关还是负相关;
②当使用年限为8年时,试估计支出的维修费是多少?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
解 由(1)知,当x=8时,
=1.2×8+0.2=9.8,
即使用年限为8年时,支出的维修费约是9.8万元.
月份
1
2
3
4
5
6
人均销售额
6
5
8
3
4
7
利润率(%)
12.6
10.4
18.5
3.0
8.1
16.3
11.某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:
?
根据表中数据,下列说法正确的是
A.利润率与人均销售额成正比例函数关系
B.利润率与人均销售额成反比例函数关系
C.利润率与人均销售额成正相关关系
D.利润率与人均销售额成负相关关系
综合运用
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
√
16
解析 根据题意,画出利润率与人均销售额的散点图,如图所示.
由散点图可知,利润率与人均销售额成正相关关系.故选C.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
12.(多选)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系.根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归直线方程为
=0.85x-85.71,则下列结论中正确的是
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心
C.若该大学某女生身高增加1
cm,则其体重约增加0.85
kg
D.若该大学某女生身高为170
cm,则可判定其体重必为58.79
kg
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
√
16
√
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
解析 A,B,C均正确,是回归直线方程的性质,D项是错误的,回归直线方程只能预测学生的体重,应为大约58.79
kg.
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
√
x
1
2
3
4
y
e
e3
e4
e6
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
列出x,z的取值对应的表格如下:
x
1
2
3
4
z
1
3
4
6
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
14.某数学老师身高176
cm,他爷爷、父亲和儿子的身高分别是173
cm、170
cm、182
cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为_____
cm.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
185
16
解析 因为儿子的身高与父亲的身高有关,所以设儿子的身高为Y(单位:cm),父亲身高为X(单位:cm),根据数据列表:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
X
173
170
176
Y
170
176
182
故预测该老师的孙子的身高为185
cm.
拓广探究
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
16.
下图是我国2013年至2019年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1-7分别对应年份2013-2019.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
解 由折线图中数据和附注中参考数据得
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
所以y关于t的回归直线方程为:
=0.92+0.10t.
将2021年对应的t=9代入回归直线方程得:
=0.92+0.10×9=1.82.
所以预测2021年我国生活垃圾无害化处理量将约为1.82亿吨.
16