1.2 相关系数
1.3 可线性化的回归分析
学习目标 1.了解线性相关系数r的求解公式,并会初步应用.2.理解回归分析的基本思想.
3.通过可线性化的回归分析,判断几种不同模型的拟合程度.
知识点一 相关系数
1.相关系数r的计算
假设两个随机变量的数据分别为(x1,y1),(x2,y2),…,(xn,yn),则变量间线性相关系数r==
=.
2.相关系数r的性质
(1)r的取值范围为[-1,1].
(2)|r|值越大,误差Q越小,变量之间的线性相关程度越高.
(3)|r|值越接近0,误差Q越大,变量之间的线性相关程度越低.
3.相关性的分类
(1)当r>0时,两个变量正相关.
(2)当r<0时,两个变量负相关.
(3)当r=0时,两个变量线性不相关.
知识点二 可线性化的回归分析
曲线方程
曲线图形
变换公式
变换后的线性函数
幂函数曲线
y=axb
c=lna
v=lnx
u=lny
u=c+bv
指数曲线
y=aebx
c=lna
u=lny
u=c+bx
倒指数曲线
c=lna
v=
u=lny
u=c+bv
对数曲线
y=a+blnx
v=lnx
u=y
u=a+bv
1.回归分析中,若r=±1说明x,y之间具有完全的线性关系.( √ )
2.若r=0,则说明两变量是函数关系.( × )
3.样本相关系数的范围是r∈(-∞,+∞).( × )
类型一 线性相关系数及其应用
例1 下图是我国2012年至2018年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1-7分别对应年份2012-2018.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2020年我国生活垃圾无害化处理量.
附注:
参考数据:i=9.32,iyi=40.17,=0.55,≈2.646.
参考公式:相关系数r=,
回归方程y=a+bt中斜率和截距的最小二乘估计公式分别为:b=,a=-b.
解 (1)由折线图中数据和附注中参考数据得
=4,(ti-)2=28,=0.55.
(ti-)(yi-)=iyi-i=40.17-4×9.32=2.89,r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.331及(1)得b==≈0.103,
a=-b≈1.331-0.103×4≈0.92.
所以y关于t的回归方程为y=0.92+0.10t.
将2020年对应的t=9代入回归方程得y=0.92+0.10×9=1.82.
所以预测2020年我国生活垃圾无害化处理量将约为1.82亿吨.
反思与感悟 (1)散点图只能直观判断两变量是否具有相关关系.
(2)相关系数能精确刻画两变量线性相关关系的强弱.
跟踪训练1 变量x,y的散点图如图所示,那么x,y之间的相关系数r的最接近的值为( )
A.1B.-0.5C.0D.0.5
考点
题点
答案 C
解析 从散点图中,我们可以看出,x与y没有线性相关关系,因而r的值接近于0.
类型二 可线性化的回归分析
例2 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)的数据作了初步处理,得到下面的散点图及一些统计量的值.
(xi-)2
(wi-)2
(xi-)
·(yi-)
(wi-)·
(yi-)
46.6
563
6.8
289.8
1.6
1469
108.8
表中wi=,=i.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)当年宣传费x=49时,年销售量的预报值是多少?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为
β=,α=-β.
考点 非线性回归分析
题点 非线性回归分析
解 (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程.
由于d===68,
c=-d=563-68×6.8=100.6,
所以y关于w的线性回归方程为y=100.6+68w,
因此y关于x的回归方程为y=100.6+68.
(3)由(2)知,当x=49时,
年销售量y的预报值y=100.6+68=576.6.
反思与感悟 由样本数据先作散点图,根据散点图的分布规律选择合适的函数模型.如果发现具有线性相关头系,可由公式或计算器的统计功能,求得线性回归方程的两个参数.如果发现是指数型函数或二次函数,可以通过一些代数变换,转化为线性回归模型.
跟踪训练2 在一次抽样调查中测得样本的5个样本点,数值如下表:
x
0.25
0.5
1
2
4
y
16
12
5
2
1
求y关于x的回归方程.
考点 非线性回归分析
题点 非线性回归分析
解 由数值表可作散点图如图,
根据散点图可知y与x近似地呈反比例函数关系,
设y=,令t=,则y=kt,原数据变为:
t
4
2
1
0.5
0.25
y
16
12
5
2
1
由置换后的数值表作散点图如下:
由散点图可以看出y与t呈近似的线性相关关系,列表如下:
i
ti
yi
tiyi
t
1
4
16
64
16
2
2
12
24
4
3
1
5
5
1
4
0.5
2
1
0.25
5
0.25
1
0.25
0.0625
∑
7.75
36
94.25
21.3125
所以=1.55,=7.2.
所以b=≈4.1344,
a=-b≈0.8.
所以y=4.1344t+0.8.
所以y与x之间的回归方程是y=+0.8.
1.给定y与x是一组样本数据,求得相关系数r=-0.690,则( )
A.y与x的线性相关性很强
B.y与x线性不相关
C.y与x正线性相关
D.y与x负线性相关
考点 线性相关系数
题点 线性相关系数的应用
答案 D
解析 因为|r|=|-0.690|<0.75,
所以y与x的线性相关性一般,
又因为r=-0.690<0,
所以y与x负线性相关.
2.某种细胞在培养正常的情况下,时刻t(单位:分)与细胞数n(单位:个)的部分数据如下:
t
0
20
60
140
n
1
2
8
128
根据表中的数据,推测繁殖到1000个细胞时的时刻t最接近于( )
A.200B.220C.240D.260
考点 非线性回归分析
题点 非线性回归分析
答案 A
解析 由表可得时刻t(单位:分)与细胞数n满足回归方程n=,由此可知n=1000时,t接近200.
3.对于回归分析,下列说法错误的是( )
A.在回归分析中,变量间的关系是非确定性关系,因此因变量不能由自变量唯一确定
B.线性相关系数可以是正的或负的
C.回归分析中,如果r=±1,说明x与y之间完全线性相关
D.样本相关系数r∈(-1,1)
考点 线性相关系数
题点 线性相关系数的应用
答案 D
解析 ∵相关系数|r|≤1,∴D错误.
4.由两个变量x与y的散点图可看出样本点分布在一条曲线y=x2的附近,若要将其线性化,则只需要设________即可.
考点 非线性回归分析
题点 非线性回归分析
答案 t=x2
解析 设t=x2,则y=t为线性回归方程.
5.一唱片公司研究预支出费用x(十万元)与唱片销售量y(千张)之间的关系,从其所发行的唱片中随机抽选了10张,得到如下的资料:i=28,=303.4,i=75,=598.5,
iyi=237,则y与x的相关系数r的绝对值为________.
考点 线性相关系数
题点 线性相关系数的应用
答案 0.3
解析 根据公式得相关系数
r===0.3,
所以|r|=0.3.
1.散点图的优点是直观.但是有时不能准确判断,尤其数据较多时,不易作出散点图.这时可根据线性相关系数r来判断.
2.对于具有非线性相关关系的两个变量,可以通过对变量进行变换,转化为线性回归问题去解决.
一、选择题
1.若两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归方程为y=bx+a,那么( )
A.b·r>0 B.b·r<0
C.a·r>0 D.a·r<0
考点 线性相关系数
题点 线性相关系数的应用
答案 A
解析 对于回归方程y=bx+a,当b>0时,x和y正相关,则r>0;
当b<0时,x和y负相关,则r<0.
综上所述,b·r>0.
2.关于两个变量x,y与其线性相关系数r,有下列说法:
①若r>0,则x增大时,y也相应增大;
②若|r|越趋近于1,则x与y的线性相关程度越强;
③若r=1或r=-1,则x与y的关系完全对应(有函数关系),在散点图上各个散点均在一条直线上.
其中正确的有( )
A.①② B.②③
C.①③ D.①②③
考点 线性相关系数
题点 线性相关系数的应用
答案 D
解析 根据相关系数的定义,变量之间的相关关系可利用相关系数r进行判断:
当r为正数时,表示变量x,y正相关;
当r为负数时,表示两个变量x,y负相关;
|r|越接近于1,相关程度越强;
|r|越接近于0,相关程度越弱.故可知①②③正确.
3.甲、乙、丙、丁四位同学各自对A,B两变量进行线性相关试验,并用回归分析方法分别求得相关系数r如表:
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
则这四位同学的试验结果能体现出A,B两变量有更强的线性相关性的是( )
A.甲B.乙C.丙D.丁
考点 线性相关系数
题点 线性相关系数的应用
答案 D
解析 由相关系数的意义可知,相关系数的绝对值越接近于1,相关性越强,结合题意可知,丁的线性相关性更强,故选D.
4.若一函数模型为y=ax2+bx+c(a≠0),为将y转化为关于t的线性回归方程,则需作变换t等于( )
A.x2 B.(x+a)2
C.2 D.以上都不对
考点 非线性回归分析
题点 非线性回归分析
答案 C
解析 y关于t的线性回归方程,实际上就是y关于t的一次函数,
因为y=a2+(a≠0),
故选C.
5.对于指数曲线y=aebx,令u=lny,c=lna,经过非线性化回归分析之后,可以转化成的形式为( )
A.u=c+bx B.u=b+cx
C.y=b+cx D.y=c+bx
考点 非线性回归分析
题点 非线性回归分析
答案 A
解析 对方程y=aebx两边同时取对数,然后将u=lny,c=lna代入,不难得出u=c+bx.
6.某奶茶店为了了解奶茶销售量与气温之间的关系,随机统计并制作了6天卖出的奶茶的杯数与气温的对照表:
气温x(℃)
26
19
14
10
4
-1
杯数y
201
242
339
383
505
640
经检验,这组样本数据具有线性相关关系,那么,对于气温x(℃)与奶茶销售量y(杯)这两个变量,下列判断正确的是( )
A.呈正相关,其回归直线经过点(12,385)
B.呈负相关,其回归直线经过点(12,385)
C.呈正相关,其回归直线经过点(12,386)
D.呈负相关,其回归直线经过点(12,386)
考点 线性回归直线方程
题点 样本点中心的应用
答案 B
解析 画出散点图(图略)可知成负相关,
又根据表中数据可得==12,
==385,故选B.
7.有一组数据如下表:
X
1.993
3.002
4.001
5.032
6.121
Y
1.501
4.413
7.498
12.04
17.93
现准备从以下函数中选择一个能够近似地表示这组数据满足的规律,其中拟合最好的是( )
A.y=-2x-2 B.y=log2x
C.y=2x-1+1 D.y=x2-
考点 非线性回归分析
题点 非线性回归分析
答案 D
解析 把X看作自变量,Y看作其函数值,从表中数据的变化趋势看,函数递增的速度不断加快.
A选项中一次函数是以一个恒定的幅度变化,其图像是直线,不符合本题的变化规律.
B选项为对数型函数,随着X的增大Y的递增速度不断变慢,不符合本题的变化规律.
C选项为指数型函数,随着X的增大Y的递增速度不断变快,但增长速度超出题目中Y的增长速度,不符合本题的变化规律.
D选项是二次函数,对比数据知,其最接近这组数据的变化趋势.故选D.
8.设(x1,y1),(x2,y2),…,(xn,yn)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线如图,以下说法正确的是( )
A.x和y的相关系数为直线l的斜率
B.x和y的相关系数在0到1之间
C.当n为偶数时,分布在l两侧的样本点的个数一定相同
D.由直线l可知,r一定小于0
考点 线性相关系数
题点 线性相关系数的应用
答案 D
解析 因为r的符号与线性回归方程y=a+bx斜率符号相同,故r一定小于0.
二、填空题
9.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为________.
考点 线性相关系数
题点 线性相关系数的应用
答案 1
解析 根据样本相关系数的定义可知,当所有样本点都在直线y=x+1上时,相关系数为1.
10.若已知(yi-)2是(xi-)2的4倍,(xi-)(yi-)是(xi-)2的1.5倍,则相关系数r的值为________.
考点 线性相关系数
题点 线性相关系数的应用
答案
解析 由r=,得r=.
11.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y=ebx+a的周围.令z=lny,求得线性回归方程为z=0.25x-2.58,则该模型的回归方程为______.
考点 非线性回归分析
题点 非线性回归分析
答案 y=e0.25x-2.58
解析 因为z=0.25x-2.58,z=lny,
所以y=e0.25x-2.58.
三、解答题
12.噪声污染已经成为影响人们身体健康和生活质量的严重问题,为了了解声音强度D(单位:分贝)与声音能量I(单位:W/cm2)之间的关系,将测量得到的声音强度Di和声音能量Ii(i=1,2,…,10)数据做了初步处理,得到下面的散点图及一些统计量的值.
(数据:=3.16×10-12,=45.7,=-11.5,
(Ii-)2=1.56×10-11,
(Wi-)2=0.51,
(Ii-)(Di-)=6.88×10-11,
(Wi-)(Di-)=5.1,
其中Wi=lgIi,=i)
根据给出的数据,求声音强度D关于声音能量I的回归方程D=a+blgI;
附:对于一组数据(μ1,υ1),(μ2,υ2),…,(μn,υn),其回归直线υ=α+βμ的斜率和截距的最小二乘估计分别为
β=,α=-β.
考点 非线性回归分析
题点 非线性回归分析
解 令Wi=lgIi,先建立D关于W的线性回归方程,
由于b===10,
∴a=-b=160.7,
∴D关于W的线性回归方程为D=10W+160.7,
∴D关于I的回归方程为D=10lgI+160.7.
四、探究与拓展
13.已知某个样本点中的变量x,y线性相关,相关系数r>0,平移坐标系,则在以(,)为坐标原点的坐标系下的散点图中,大多数的点都落在第________象限.
考点 线性相关系数
题点 线性相关系数的应用
答案 一、三
解析 因为r>0时,b>0,
所以大多数的点都落在第一、三象限.
14.某种书每册的成本费y(元)与印刷册数x(万册)有关,经统计得到数据如下:
x
1
2
3
5
10
20
30
50
100
200
y
10.15
5.52
4.08
2.85
2.11
1.62
1.41
1.30
1.21
1.15
令μ=,检验每册书的成本费y与μ之间是否具有线性相关关系,若有,求出y对μ的回归方程.
(参考数据:=1.413014,=171.803,iyi=15.20878)
考点 非线性回归分析
题点 非线性回归分析
解 设μ=,则y与μ的数据关系如下表所示:
μ
1
0.5
0.33
0.2
0.1
0.05
0.033
0.02
0.01
0.005
y
10.15
5.52
4.08
2.85
2.11
1.62
1.41
1.30
1.21
1.15
由上表可以得到=×(1+0.5+…+0.005)=0.2248,
=×(10.15+5.52+…+1.15)=3.14,
则r=≈0.9998.
由于r的值非常接近于1,这表明两个变量的线性相关关系很强,从而求y与μ的回归方程有意义.
又b=≈8.98,
则a=-b=3.14-8.98×0.2248≈1.12,
所以y关于μ的回归方程为y=1.12+8.98μ.