第9章 统计
9.1 线性回归分析
9.1.1 变量的相关性 9.1.2 一元线性回归模型
基础过关练
题组一 变量间的相关关系
1.下列变量之间的关系不是相关关系的是( )
A.光照时间与大棚内蔬菜的产量
B.举重运动员所能举起的杠铃的最大质量与他的体重
C.某正方形的边长与此正方形的面积
D.人的身高与体重
2.根据变量x,y的不同成对数据,绘制了以下四个散点图,由这四个散点图可以判断变量x与y呈负相关关系的是( )
3.已知变量x和y满足关系y=-x+1,变量y与z正相关,则( )
A.x与y负相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y正相关,x与z负相关
D.x与y负相关,x与z正相关
题组二 样本相关系数
4.开始吸烟的年龄X与其得肺癌的相对危险度Y的一组对应数据为(16,15.10),(18,12.81),(20,9.72),(22,3.21);每天吸烟的支数U与其得肺癌的相对危险度V的一组对应数据为(10,7.5),(20,9.5),(30,16.6).用r1表示变量X与Y之间的样本相关系数,r2表示变量U与V之间的样本相关系数,则下列说法正确的是( )
A.r1=r2 B.r1>r2>0
C.05.对四组数据进行统计,获得以下散点图,关于其样本相关系数的比较正确的是( )
A.r2C.r26.已知四组不同数据对应的两变量的样本相关系数如下:①组数据对应变量的样本相关系数r1=0;②组数据对应变量的样本相关系数r2=-0.95;③组数据对应变量的样本相关系数的绝对值|r3|=0.89;④组数据对应变量的样本相关系数r4=0.75.则下列说法正确的是( )
A.①组数据对应的样本点都在同一直线上
B.②组数据对应的两变量线性相关性最强
C.③组数据对应的两变量线性相关性最强
D.④组数据对应的两变量线性相关性最弱
7.现有某种机械设备,随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.此种机械设备的使用年限x(单位:年)与失效费y(单位:万元)的统计数据如下表所示,则y与x的样本相关系数r= .
使用年限x/年 2 4 5 6 8
失效费y/万元 3 4 5 6 7
附:r=≈1.4.
题组三 经验回归方程及其应用
8.根据变量x,y的一组样本数据(xi,yi)(i=1,2,3,…,10)得到其经验回归方程为=2x-0.4,且=2.去除两个样本数据(-3,-1)和(3,-3)后,得到新的经验回归直线的斜率为3,则样本数据(4,8)对应的残差为( )
A.1.5 B.-1
C.-1.5 D.1
9.(多选题)某课外兴趣小组在探究学习活动中,测得变量x,y的10组成对数据如下表所示:
x 165 168 170 172 173 174 175 177 179 182
y 55 89 61 65 67 70 75 75 78 80
由最小二乘法计算得到y关于x的经验回归方程为x,样本相关系数为r1,经过观察散点图,分析残差,把数据(168,89)去掉后,用剩下的9组数据计算得到的经验回归方程为x,样本相关系数为r2.则( )
A. B.
C. D.>0
10.(多选题)某小卖部5天内卖出热茶的杯数y与当天气温x(单位:℃)的散点图如图所示,若去掉B(7,35),则下列说法正确的有( )
A.决定系数R2变大
B.变量x与y的相关性变弱
C.样本相关系数r的绝对值变大
D.当气温为11 ℃时,估计卖出热茶的杯数为35
11.为实施乡村振兴,科技兴农,某村建起了田园综合体,并从省城请来专家进行技术指导.根据统计,该田园综合体中的西红柿亩产量的增加量y(千克)与某种液体肥料每亩使用量x(千克)之间的对应数据如表所示.
x/千克 2 4 5 6 8
y/千克 300 400 400 400 500
(1)通过计算样本相关系数r来判断是否可用一元线性回归模型拟合y与x的关系(若|r|>0.75,则线性相关程度很高,可以用一元线性回归模型拟合);
(2)求y关于x的经验回归方程,并估计当液体肥料每亩使用量为15千克时,西红柿亩产量的增加量.
参考公式:
样本相关系数r=;
在中,.
参考数据:≈3.16.
题组四 非线性回归分析
12.以模型y=cekx去拟合一组数据时,为了求出回归方程,设z=ln y,将其变换后得到经验回归方程=0.2x+3,则估计c,k的值分别是( )
A.e2,0.6 B.e2,0.3
C.e3,0.2 D.e4,0.6
13.当两个变量呈非线性相关时,有些可以通过适当的转换进行线性相关化,比如反比例关系y=,可以设一个新的变量u=,这样y与u之间就是线性关系.下列表格中的数据可以用非线性方程=0.14x2+进行拟合,用线性回归的相关知识,可求得的值约为( )
x 1 2 3 4 5 6
y 2.5 3.6 4.4 5.4 6.6 7.5
A.2.98 B.2.88 C.2.78 D.2.68
14.某乡政府为提高当地农民的收入,指导农民种植药材,并取得了较好的效果.以下是某农户2018—2022年种植药材的平均收入的统计数据:
年份 2018 2019 2020 2021 2022
年份代码x 1 2 3 4 5
平均收入y/千元 59 61 64 68 73
(1)根据表中数据,现有y=a+bx与y=c+dx2两种模型可以拟合y与x之间的关系,请分别求出两种模型的回归方程;(结果保留一位小数)
(2)统计学中常通过比较残差的平方和来比较两个模型的拟合效果,请根据残差平方和说明上述两个模型哪一个的拟合效果更好,并据此预测2030年该农户种植药材的平均收入.
参考数据:)2=374,其中ti=.
参考公式:经验回归方程中,.
能力提升练
题组一 经验回归方程及其应用
1.已知某种商品的广告费投入x(单位:万元)与销售额y(单位:万元)之间有如下对应数据:
x/万元 2 4 5 6 8
y/万元 30 40 50 60 70
根据上表可得y关于x的经验回归方程为,计算得=7,则当投入10万元广告费时,销售额的估计值为( )
A.75万元 B.85万元
C.99万元 D.105万元
2.某学习小组对一组数据(xi,yi)(i=1,2,3,…,7)进行回归分析,甲同学首先求出经验回归方程为=3x+2,样本点的中心为(2,m).乙同学对甲的计算过程进行检查,发现甲将数据(4,6)误输入成(6,4),将这两个数据修正后得到经验回归方程为x+4,则=( )
A.
3.某学校校医研究温差x(℃)与本校当天新增感冒人数y的关系,该医生记录了5天的数据,由于保管不善,其中有两个数据看不清楚,现分别用m,n代替,已知18≤m≤24,26≤n≤34,且样本点的中心为(8,25),则下列结论正确的是( )
x 5 6 8 9 12
y 17 m 25 n 35
A.在m,n确定的条件下,去掉样本点(8,25),则样本相关系数r增大
B.在m,n确定的条件下,经过拟合,发现数据基本符合经验回归方程,则=4
C.在m,n确定的条件下,经过拟合,发现数据基本符合经验回归方程,则当x=12时,残差为0.4
D.事件“m=20,n=28”发生的概率为
4.垃圾是人类日常生活和生产中产生的废弃物,由于排出量大,成分复杂多样,且具有污染性,所以需要无害化、减量化处理.某市为调查产生的垃圾数量,采用简单随机抽样的方法抽取20个县城进行了分析,得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个县城的人口数(单位:万)和该县年产生垃圾总量(单位:吨),并计算得yi=4 000,)2=8 000,)=700.
(1)请用样本相关系数说明该组数据中y与x之间的关系可用一元线性回归模型进行拟合;
(2)求y关于x的经验回归方程;
(3)某科研机构研发了两款垃圾处理机器,其中甲款机器每台售价为100万元,乙款机器每台售价为80万元,下表是以往两款垃圾处理机器的使用年限(整年)统计表:
台数 使用年限 总计
1年 2年 3年 4年
款式 甲款 5 20 15 10 50
乙款 15 20 10 5 50
根据以往经验可知,某县城环保机构每年可获得政府支持的垃圾处理费用为50万元,且仅考虑购买机器的成本和每台机器的使用年限(使用年限均为整年).该县城环保机构若考虑购买其中一款垃圾处理机器,以使用年限的频率估计概率,该机构选择购买哪一款垃圾处理机器更划算
参考公式:
样本相关系数r=;
对于一组具有线性相关关系的数据(xi,yi)(i=1,2,…,n),其经验回归直线.
5.消费者信心指数是反映消费者信心强弱的指标,它是预测经济走势和消费趋向的一个先行指标,是监测经济周期变化的重要依据.消费者信心指数值在0和200之间.指数超过100,表明消费者信心处于强信心区;指数等于100,表示消费者信心处于强弱临界点;指数小于100,表示消费者信心处于弱信心区.
我国某城市2016年至2019年各季度的消费者信心指数如下表1:
表1
2016年 2017年 2018年 2019年
第一季度 104.50 111.70 118.50 119.30
第二季度 104.00 110.20 114.60 118.20
第三季度 105.50 114.20 110.20 118.10
第四季度 106.80 113.20 113.20 119.30
将2016年至2019年该城市各季度的消费者信心指数整理得到如下频数分布表2:
表2
分组 [100,105) [105,110) [110,115) [115,120]
频数 2 2 7 5
记2016年至2019年的年份序号为xi(i=1,2,3,4),该城市各年消费者信心指数的年平均值(四舍五入取整)为yi(i=1,2,3,4),xi与yi的关系如下表3:
表3
年份序号xi 1 2 3 4
消费者信心指 数的年平均值yi 105 112 114 119
(1)从2016年至2019年该城市各季度的消费者信心指数中任取2个,求其中至少有一个不小于115的概率;
(2)用表2中各区间的中点值代替该区间的消费者信心指数,从2016年至2019年各季度的消费者信心指数中任取一个将其记为随机变量X,求X的概率分布和数学期望(保留2位小数);
(3)根据表3的数据建立y关于x的经验回归方程,并根据建立的经验回归方程估计2020年该城市消费者信心指数的年平均值.
参考数据和公式:=112.5;在中,.
题组二 非线性回归分析及其应用
6.用模型y=aekx拟合一组数据(xi,yi)(i=1,2,…,10),若x1+x2+…+x10=10,y1y2…y10=e70,设z=ln y,得变换后的经验回归方程为x+4,则估计ak= .
7.某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每批产品的非原料总成本y(元)与生产该产品的数量x(千件)有关,经统计得到如下数据:
x/千件 1 2 3 4 5 6 7
y/元 6 11 21 34 66 101 196
根据以上数据,绘制散点图,如图所示.
观察散点图,两个变量不具有线性相关关系,现考虑用对数函数模型y=a+bln x和指数函数模型y=c·dx分别对两个变量的关系进行拟合.
(1)根据散点图判断,y=a+bln x与y=c·dx(c,d均为大于零的常数)哪一个适宜作为非原料总成本y关于生产该产品的数量x的回归方程类型;(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中的数据,建立y关于x的回归方程;
(3)已知每件产品的原料成本为10元,若该产品的总成本不得高于123 470元,请估计最多能生产多少千件该产品.
参考数据:
xiyi xivi 100.54
4 62.14 1.54 140 2 535 50.12 3.47
其中vi=lg yi,vi.
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归直线u的斜率和截距的最小二乘估计分别为.
答案与分层梯度式解析
第9章 统计
9.1 线性回归分析
9.1.1 变量的相关性
9.1.2 一元线性回归模型
基础过关练
1.C 2.B 3.A 4.D 5.A 6.B 8.C 9.BCD
10.AC 12.C 13.B
1.C 选项C中的两个变量之间是函数关系,故不是相关关系;选项A、B、D中的两个变量之间的关系均是相关关系.故选C.
2.B A中,各点的分布没有明显相关性,不符合题意;
B中,各点分布在一条直线附近,且变量之间呈负相关关系,符合题意;
C中,各点分布在一条抛物线附近,表明两变量之间不是线性相关关系,不符合题意;
D中,各点分布在一条直线附近,且变量之间呈正相关关系,不符合题意.
故选B.
3.A 由正相关、负相关的定义可知x与y负相关,x与z负相关.故选A.
4.D 由X与Y的对应数据可得,Y随X的增大而减小,故X与Y呈负相关关系,故r1<0;
由U与V的对应数据可得,V随U的增大而增大,故U与V呈正相关关系,故r2>0,
故r1<0故选D.
5.A 由题中的散点图可以看出,图1和图3对应的两变量正相关,则样本相关系数大于0,即r1>0,r3>0;图2和图4对应的两变量负相关,则样本相关系数小于0,即r2<0,r4<0.又图1和图2中的点相对于图3和图4中的点更加集中,所以r1更接近1,r2更接近-1,所以r2解题模板 由散点图判断样本相关系数的大小关系时,一般先由散点图的分布(左下到右上、左上到右下)确定样本相关系数的符号,再由散点图是否集中在某条直线附近确定样本相关系数绝对值的大小.
6.B 样本相关系数r的绝对值越接近1,两变量的相关性越强;样本相关系数r的绝对值越接近0,两变量的相关性越弱.
破题关键
对于A,①组数据对应变量的样本相关系数r1=0,故①组数据对应的两变量无线性关系,样本点不在同一直线上,故A错误;
对于B、C,②组数据对应变量的样本相关系数的绝对值|r2|=0.95,为四组样本相关系数中绝对值的最大值,故②组数据对应的两变量线性相关性最强,故B正确,C错误;
对于D,①组数据对应变量的样本相关系数r1=0,为四组样本相关系数中绝对值的最小值,故①组数据对应的两变量线性相关性最弱,故D错误.故选B.
7.答案 0.98
解析 由题表知,×(2+4+5+6+8)=5,
×(3+4+5+6+7)=5,
所以)=(2-5)×(3-5)+(4-5)×(4-5)+(5-5)×(5-5)+(6-5)×(6-5)+(8-5)×(7-5)=14,
)2=(2-5)2+(4-5)2+(5-5)2+(6-5)2+(8-5)2=20,
)2=(3-5)2+(4-5)2+(5-5)2+(6-5)2+(7-5)2=10,
所以样本相关系数r==0.98.
8.C
思路分析 由经验回归方程求出,再求出新样本数据的平均数,从而求出新的经验回归方程,然后求出预测值,进而得到残差.
解析 将=2代入=2x-0.4,得=2×2-0.4=3.6,
去除两个样本数据(-3,-1)和(3,-3)后,=5,又新的经验回归直线的斜率为3,故其截距,故新的经验回归方程为,当x=4时,,则样本数据(4,8)对应的残差为8-=-1.5.
故选C.
9.BCD 对于10组数据,×(165+168+170+172+173+174+175+177+179+182)=173.5,
因为离群点(168,89)的横坐标168小于平均值173.5,纵坐标89相对较大,
所以去掉离群点后经验回归直线的截距变小而斜率变大,所以,故A错误,B正确;
去掉离群点后,成对样本数据的线性相关程度更强,拟合效果会更好,所以|r1|<|r2|,
由题中表格可知,x与y正相关,所以00,所以,故C,D正确.
故选BCD.
10.AC 由题中散点图可知,去掉B(7,35)后,变量x与y的相关性变强,故决定系数R2变大,故A正确,B错误;
因为x与y是负相关,所以样本相关系数r的绝对值变大,故C正确;
设y关于x的经验回归方程为,
去掉B(7,35)后,=36,
xi'yi'=4×50+10×37+13×33+17×24=1 407,
x'2i =42+102+132+172=574,
所以≈-1.97,
'=36+1.97×11=57.67,
所以y关于x的经验回归方程为=-1.97x+57.67,
当x=11时,=-1.97×11+57.67=36,
故当气温为11 ℃时,估计卖出热茶的杯数为36,故D错误.
故选AC.
11.解析 (1)由题表可得=5,
=400,
所以)=(-3)×(-100)+(-1)×0+0×0+1×0+3×100=600,
)2=(-3)2+(-1)2+02+12+32=20,
)2=(-100)2+02+02+02+1002=20 000,
所以r=≈0.95.
因为|r|>0.75,所以可以用一元线性回归模型拟合y与x的关系.
(2)结合(1)知,=30,
所以=400-5×30=250,
所以=30x+250.
当x=15时,=30×15+250=700,
故估计当液体肥料每亩使用量为15千克时,西红柿亩产量的增加量为700千克.
12.C 对y=cekx两边同时取以e为底的对数,得ln y=ln(cekx)=ln c+ln ekx=kx+ln c.
因为z=ln y,所以z=kx+ln c,
又=0.2x+3,所以=0.2,ln =3,
所以=e3.
13.B 设z=x2,则,则
z 1 4 9 16 25 36
y 2.5 3.6 4.4 5.4 6.6 7.5
则,
=5,
则≈2.88.
故选B.
14.解析 (1)由题表得×(59+61+64+68+73)=65,
所以)2=10,
所以=3.5,
=65-3.5×3=54.5.
由题知,t=x2,则y=c+dx2=c+dt,
易得×(12+22+32+42+52)=11,
≈0.6,
则=65-0.6×11=58.4.
所以两种模型的回归方程分别为=0.6x2+58.4.
(2)对于模型=3.5x+54.5,其残差平方和为(59-58)2+(61-61.5)2+(64-65)2+(68-68.5)2+(73-72)2=3.5.
对于模型=0.6x2+58.4,其残差平方和为(59-59)2+(61-60.8)2+(64-63.8)2+(68-68)2+(73-73.4)2=0.24.
因为0.24<3.5,所以模型=0.6x2+58.4的拟合效果更好.
当x=13时,=0.6×132+58.4=159.8,
故预测2030年该农户种植药材的平均收入为159.8千元,即15.98万元.
能力提升练
1.B 2.D 3.D
1.B 由题意得×(30+40+50+60+70)=50,
∵经验回归直线过样本点的中心(5,50),
∴50=7×5+,解得=15,
∴经验回归方程为=7x+15.
当x=10时,=7×10+15=85,
故当投入10万元广告费时,销售额的估计值为85万元.
故选B.
2.D 由题意可得m=3×2+2=8,假设甲输入的(x1,y1)为(6,4),
则6+x2+x3+…+x7=2×7=14,则x2+x3+…+x7=8,
同理,4+y2+y3+…+y7=7×8=56,则y2+y3+…+y7=52,
将(6,4)改为(4,6)后,有4+x2+x3+…+x7=12,即,
同理,有6+y2+y3+…+y7=58,即,所以修正后的样本点的中心为,
将x+4,得+4,解得.
故选D.
3.D 对于A,因为经验回归直线必过样本点的中心(8,25),
所以在m,n确定的条件下,去掉样本点(8,25),样本相关系数r不变,所以A错误;
对于B,将(8,25)代入,可得25=2.6×8+,解得=4.2,所以B错误;
对于C,由B中分析知=2.6x+4.2,当x=12时,=35.4,则对应残差为35-35.4=-0.4,所以C错误;
对于D,由题得17+m+25+n+35=25×5,解得m+n=48,又18≤m≤24,26≤n≤34,故m可取18,19,20,21,22,对应的n可取30,29,28,27,26,
即(m,n)的取值为(18,30),(19,29),(20,28),(21,27),(22,26),
所以事件“m=20,n=28”发生的概率为,所以D正确.
故选D.
4.解析 (1)由题意知样本相关系数r==0.875.
因为y与x的样本相关系数接近于1,
所以y与x之间具有较强的线性相关关系,可用一元线性回归模型进行拟合.
(2)设y关于x的经验回归方程为,
则=8.75,
=200-8.75×4=165,
所以=8.75x+165.
(3)以频率估计概率,设购买一台甲款垃圾处理机器减去政府支持费用后的垃圾处理费用为X万元,其概率分布为
X -50 0 50 100
P 0.1 0.4 0.3 0.2
则E(X)=-50×0.1+0×0.4+50×0.3+100×0.2=30,
设购买一台乙款垃圾处理机器减去政府支持费用后的垃圾处理费用为Y万元,其概率分布为
Y -30 20 70 120
P 0.3 0.4 0.2 0.1
则E(Y)=-30×0.3+20×0.4+70×0.2+120×0.1=25.
因为E(X)>E(Y),所以该机构选择购买一台甲款垃圾处理机器更划算.
5.解析 (1)由题表2,可得共统计了2+2+7+5=16个消费者信心指数,其中不小于115的共有5个,
所以从2016年至2019年该城市各季度的消费者信心指数中任取2个,其中至少有一个不小于115的概率为.
(2)由题意可知X的可能取值为102.5,107.5,112.5,117.5,
其中P(X=102.5)=,
P(X=112.5)=,
所以随机变量X的概率分布为
X 102.5 107.5 112.5 117.5
P
数学期望E(X)=102.5×≈112.19.
(3)由题知=112.5,
则)=(1-2.5)×(105-112.5)+(2-2.5)×(112-112.5)+(3-2.5)×(114-112.5)+(4-2.5)×(119-112.5)=22,
)2=(1-2.5)2+(2-2.5)2+(3-2.5)2+(4-2.5)2=5,
所以=4.4,
=112.5-4.4×2.5=101.5,
所以变量y关于x的经验回归方程为=4.4x+101.5,
2020年对应的年份序号为5,当x=5时,=4.4×5+101.5=123.5,故估计2020年该城市消费者信心指数的年平均值为123.5.
6.答案 3e4
解析 由题意得=7,
因为()在经验回归直线x+4上,
所以7=+4,解得=3,
由y=aekx得z=ln y=ln a+kx,
又=3x+4,所以ln =3,故=e4,
所以估计ak=3e4.
7.解析 (1)根据题中的散点图判断,y=c·dx(c,d均为大于零的常数)适宜作为非原料总成本y关于生产该产品的数量x的回归方程类型.
(2)对y=c·dx两边同时取常用对数,得lg y=lg(c·dx)=lg c+xlg d.
由题知,v=lg y,∴v=lg c+xlg d,
∵xivi=50.12,
∴lg =0.25,
lg lg =1.54-4×0.25=0.54,
∴=0.54+0.25x,∴lg =0.54+0.25x,
∴=100.54+0.25x=3.47×100.25x,
即y关于x的回归方程为=3.47×100.25x.
(3)设生产了x千件该产品,生产总成本为g(x)元,则g(x)=3.47×100.25x+x×10×1 000=3.47×100.25x+10 000x,
又g(x)=3.47×100.25x+10 000x在其定义域内单调递增,且g(12)=3.47×103+120 000=123 470,
所以估计最多能生产12千件该产品.
方法总结 当两个变量不具有线性相关关系时,不能直接利用经验回归方程建立两个变量的关系,可以通过变换将其转化为一元线性回归模型,如y=c1,我们可以通过对数变换把指数关系变为线性关系,令z=ln y,则变换后样本点应该分布在直线z=bx+a(a=ln c1,b=c2)的附近.
4(共30张PPT)
9.1 线性回归分析
必备知识 清单破
1.两个变量的关系
知识点 1 变量间的相关关系
分类 函数关系 相关关系
特征 两个变量具有确定性关系 两个变量没有确定性关系
知识点 2 样本相关系数
1.一元线性回归模型的概念
散点图上的点在一条直线附近,但并不都在这条直线上.也就是说,这条直线并不能精确 地反映x与y之间的关系,y的值不能由x确定,在此,我们将两者之间的关系表示为y=a+bx+ε,其 中a+bx是确定性函数,ε称为随机误差.
我们将y=a+bx+ε称为一元线性回归模型.其中,y称为因变量或响应变量,x称为自变量或解释 变量.
2.经验回归直线
设有n对观测数据(xi,yi)(i=1,2,3,…,n),根据一元线性回归模型,对于每一个xi,对应的随机 误差项εi=yi-(a+bxi),当 + +…+ 取得最小值时得到的直线 = + x称为这n对数据的经验
回归直线,此直线方程称为y关于x的经验回归方程,其中 称为回归截距, 称为回归系数, 称
知识点3 一元线性回归模型
为回归值.把上述方法称为“最小二乘法”,由此求得的 , 分别叫作b,a的最小二乘估计.
3.经验回归方程的计算公式及其性质
(1)经验回归方程的计算公式
= + x中,回归系数 的计算公式: = = ,回归截距 的计算公式: =
- .
其中a,b上方加“^”表示由观察值按最小二乘法求得的估计值.
表示实际值y的估计值.
(2)性质
①经验回归直线一定过点( , ).
②y与x正相关的充要条件是 >0,y与x负相关的充要条件是 <0.
③ 的实际意义:当x增大一个单位时, 增大 个单位.
对于变量y与x的关系,不是线性相关关系,称为非线性相关关系,其方程称为非线性回归 方程.一般地,非线性回归方程的曲线类型可以通过作出散点图进行猜测,而非线性回归方程 有时可以通过变量替换后,借助求经验回归方程的过程确定.
知识点 4 非线性回归方程
1.概念:一般地,我们将观测值与对应的估计值之差称为残差.残差是随机误差ε的估计结果.
2.统计学中也用决定系数R2的统计量来比较两个模型的拟合效果,R2的计算公式是R2=1- ,其中R2越大,表示残差平方和越小,即模型拟合效果越好;R2越小,表示残差平方和
越大,即模型的拟合效果越差.
知识点 5 残差
知识辨析
1.相关关系是函数关系吗
2.若两个变量的样本相关系数r=0,则这两个变量间是不是没有任何关系
3.经验回归直线一定过成对样本数据(x1,y1),(x2,y2),…,(xn,yn)中的某一点吗
4.y的实际值与估计值之间的误差记为e,称之为随机误差,它是由计算产生的误差吗
5.已知x与y之间的一组数据(0,1),(1,3),(2,5),(3,7),y与x线性相关,则经验回归直线 = x+ 是否
必过点(1.5,4)
6.若所有样本点(xi,yi)(i=1,2,…,n)都在直线y= x+1上,则这组数据的样本相关系数是不是
一语破的
1.不是.相关关系是一种非确定性关系,是指两个变量有关系,但又没有确切到可由其中的一 个去精确地决定另一个的程度.
2.不是.两个变量的样本相关系数r=0只表明这两个变量间没有线性相关关系,但不排除它们 之间有其他相关关系.
3.不一定.经验回归直线一定过成对样本数据(xi,yi)(i=1,2,…,n)的中心点( , ).
4.不一定.随机误差产生的主要原因有所选用的确定性函数不恰当引起的误差,忽略了某些因 素的影响,存在观测误差等.
5.是.因为 = =1.5, = =4,所以经验回归直线必过点(1.5,4).
6.不是.这组数据的样本相关系数为1.
关键能力 定点破
1.利用散点图判断两个变量的相关性
(1)如果变量x和y正相关,那么散点图表现为点散布的位置是从左下到右上的区域;如果变量x 和y负相关,那么散点图表现为点散布的位置是从左上到右下的区域.
(2)如果散点落在一条直线附近,则认为这两个变量线性相关.
2.利用样本相关系数判断两个变量相关性强弱
样本相关系数r是从数值上来判断变量间的线性相关程度的量,是定量分析.|r|刻画了样 本点集中于某条直线的程度.
|r|越接近1,散点图中的点分布越接近一条直线,两个变量的线性相关程度越强.
定点 1 变量间相关关系的判断
典例1 在下列各图中,每个图的两个变量具有相关关系的是 ( )
(1) (2) (3) (4)
A.(1)(2) B.(1)(3)
C.(2)(4) D.(2)(3)
D
解析 对于题图(1),所有的散点都在曲线上,故具有函数关系;
对于题图(2),所有的散点分布在一条直线附近,具有相关关系;
对于题图(3),所有的散点分布在一条曲线附近,具有相关关系;
对于题图(4),所有的散点杂乱无章,不具有相关关系.故选D.
典例2 某农科所对冬季昼夜温差(最高温度与最低温度的差)大小与某反季节大豆新品种一 天内发芽数之间的关系进行了分析研究,他们分别记录了4月1日至4月6日每天昼夜最高、最 低的温度(如图甲),以及实验室每天每100颗种子中的发芽数情况(如图乙).
图甲
图乙
(1)请画出发芽数y与温差x的散点图;
(2)判断两个变量是否线性相关,计算样本相关系数,并刻画它们的相关程度.
参考数据:
xiyi=2 051, ≈6.5.
参考公式:样本相关系数r= .(当|r|>0.75时,认为成对样本数据的线性相
关程度较强)
解析 (1)散点图如图所示.
(2)r=
≈ ≈0.952.
由样本相关系数r≈0.952>0.75,可以推断发芽数与温差这两个变量正相关,且线性相关程度 较强.
规律总结 判断两个变量之间的线性相关关系一般用散点图,但在作图时,由于存在误差,有 时很难判断这些点是否分布在一条直线附近,此时可以利用样本相关系数r来判断.样本相关 系数是从数值上来判断的,是定量分析,比散点图(定性分析)要精细得多.
利用公式 = , = - 求经验回归方程的一般步骤:
(1)列出xi,yi,xiyi;
(2)计算 , , , xiyi;
(3)代入公式计算 , 的值;
(4)写出经验回归方程.
知识点 2 求经验回归方程
典例 流行性感冒(简称流感)是由流感病毒引起的一种急性呼吸道感染疾病,具有传染性强、 传播速度快的特点.其主要通过空气中的飞沫、人与人之间的接触或与被污染物品的接触传 播.流感每年在世界各地均有传播,在我国北方通常呈冬春季流行,南方有冬春季和夏季两个 流行高峰.儿童相对免疫力低,在幼儿园、小学等人员密集的地方更容易被传染.某幼儿园将 去年春季该园患流感的小朋友按照年龄与人数统计,得到如下数据:
年龄x 2 3 4 5 6
患病人数y 22 22 17 14 10
(1)求y关于x的经验回归方程;
(2)计算变量x,y的样本相关系数r(计算结果精确到0.01),并判断是否可以认为该幼儿园去年 春季患流感人数与年龄负相关程度很强.(若|r|∈[0.75,1],则x,y相关程度很强;若|r|∈(0.25,0.7 5),则x,y相关程度一般;若|r|∈[0,0.25],则x,y相关程度较弱)
参考数据: ≈5.477.
参考公式:样本相关系数r= ,
经验回归方程 = x+ 中, = , = - .
解析 (1)由题表中的数据,得
= =4,
= =17,
=(-2)2+(-1)2+02+12+22=10,
=52+52+02+(-3)2+(-7)2=108,
(xi- )(yi- )=(-2)×5+(-1)×5+0×0+1×(-3)+2×(-7)=-32,
所以 = = =-3.2,
= - =17-(-3.2)×4=29.8,
所以y关于x的经验回归方程是 =-3.2x+29.8.
(2)由(1)及已知,得r= = ≈ ≈-0.97.因为|r|≈0.97∈[0.75,1],所以认为该
幼儿园去年春季患流感人数与年龄负相关程度很强.
1.研究两个变量的关系时,依据样本数据画出散点图,从整体上看,如果散点没有分布在一条 直线附近,就称这两个变量之间不具有线性相关关系.当两个变量不具有线性相关关系时,依 据散点的分布选择合适的曲线方程来拟合数据,可通过变量代换,利用线性回归模型建立两 个变量间的非线性回归方程.常见的非线性回归方程的转换方式如下:
定点 3 非线性回归分析
曲线方程 曲线(曲线的一部分) 变换公式 变换后的线性函数
y=axb c=ln a,v=ln x,u=ln y u=c+bv
y=aebx c=ln a,u=ln y u=c+bx
y=a c=ln a,v= ,u=ln y u=c+bv
y=a+bln x v=ln x y=a+bv
2.建立非线性回归模型的基本步骤
(1)确定研究对象,明确涉及的变量;
(2)画出确定好的变量间的散点图,观察它们之间的关系(是否存在非线性关系);
(3)由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函 数模型、指数函数模型、对数函数模型等);
(4)通过换元,将非线性回归模型转化为线性回归模型;
(5)按照公式计算经验回归方程中的参数,得到经验回归方程;
(6)消去新元,得到非线性回归方程.
典例 混凝土具有原材料丰富、抗压强度高、耐久性好等特点,是目前使用量最大的土木建 筑材料.抗压强度是混凝土质量控制的重要技术参数,也是实际工程对混凝土要求的基本指 标.为了解某型号某批次混凝土的抗压强度(单位:MPa)随龄期(单位:天)的发展规律,质检部门 在标准试验条件下记录了10组混凝土试件在龄期xi(i=1,2,…,10)分别为2,3,4,5,7,9,12,14,17,21 时的抗压强度yi的值,并对数据进行了初步处理,得到散点图及一些统计量的值.
(xi- )2 (wi- )2
9.4 29.7 2 370.4 5.5
(xi- )(yi- ) (wi- )(yi- )
439.2 55
表中wi=ln xi, = wi.
(1)根据散点图判断y=a+bx与y=c+dln x哪一个适宜作为抗压强度y关于龄期x的回归方程类型, 根据判断结果和表中数据,建立y关于x的回归方程;
(2)工程中常把龄期为28天的混凝土试件的抗压强度f28视作混凝土抗压强度标准值.已知该型 号混凝土设置的最低抗压强度标准值为40 MPa.
①试预测该批次混凝土是否达标;
②由于抗压强度标准值需要较长时间才能评定,因此早期预测在工程质量控制中具有重要的 意义.经验表明,该型号混凝土第7天的抗压强度f7与第28天的抗压强度f28具有线性相关关系f28 =1.2f7+7,试估计在早期质量控制中,龄期为7天的混凝土试件需达到的抗压强度.
参考数据:ln 2≈0.69,ln 7≈1.95.
解析 (1)由题中的散点图可以判断出,y=c+dln x适宜作为抗压强度y关于龄期x的回归方程类 型.
由题知,w=ln x,先建立y关于w的经验回归方程.
由于 = = =10,
= - =29.7-10×2=9.7,
所以y关于w的经验回归方程为 =9.7+10w,
因此y关于x的回归方程为 =9.7+10ln x.
(2)①由(1)知,当龄期为28天,即x=28时,抗压强度y的估计值 =9.7+10ln 28=9.7+10×(2ln 2+ln
7)≈9.7+10×(2×0.69+1.95)=43.
因为43>40,
所以预测该批次混凝土达标.
②令f28=1.2f7+7≥40,得f7≥27.5,
所以估计龄期为7天的混凝土试件需达到的抗压强度为27.5 MPa.