第2课时 相关系数、非线性回归
1.了解线性相关系数r的求解公式,并会初步应用. 2.了解非线性相关与线性相关的转化. 3.会用回归分析解决一些简单的实际问题.
INCLUDEPICTURE "新知学习探究LLL.TIF" INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\新知学习探究LLL.TIF" \* MERGEFORMATINET
INCLUDEPICTURE "新课导学1LLL.TIF" INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\新课导学1LLL.TIF" \* MERGEFORMATINET
INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\25HB-40.TIF" \* MERGEFORMATINET
思考 如图所示,是某池塘中的浮萍蔓延的面积y(单位:m2)与时间t(单位:月)的关系图象,请问面积y(单位:m2)与时间t(单位:月)之间的关系是线性相关关系吗?如果不是,那是什么关系?
提示:不是线性相关关系,是非线性相关关系.
1.相关系数
统计学里一般用r==
INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\25HB-41.tif" \* MERGEFORMATINET
A.r2<r4<0<r3<r1
B.r4<r2<0<r1<r3
C.r4<r2<0<r3<r1
D.r2<r4<0<r1<r3
【解析】 r1,r3都是正相关,所以r1>0,r3>0,并且r1线性相关性较强,所以r1>r3;r2,r4都是负相关,所以r2<0,r4<0,且r2线性相关性较强,所以|r2|>|r4|,所以r2<r4,所以r2<r4<0<r3<r1.故选A.
【答案】 A
INCLUDEPICTURE "解题技法LLL.TIF" INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\解题技法LLL.TIF" \* MERGEFORMATINET
关于相关系数r的两点说明
(1)样本的相关系数r可以定量地反映出变量间的相关程度,明确给出有无必要建立两变量间的回归直线方程.
(2)|r|很小只是说明两个变量之间的线性相关程度弱,但不一定不相关.
[跟踪训练1] (多选)(2024·内蒙古呼和浩特期末)对两个变量的相关系数r,下列说法正确的是( )
A.|r|越大,线性相关性越强
B.|r|越小,线性相关性越强
C.|r|趋近于0时,没有线性相关关系
D.|r|越接近1时,线性相关性越强
解析:选AD.对于A,|r|越大,线性相关性越强,A正确;对于B,|r|越小,线性相关性越弱,B错误;对于C,|r|趋近于0时,说明线性相关性弱,但不一定不相关,C错误;对于D,|r|越接近1时,线性相关性越强,D正确.
(对接教材例2)为调查某沙漠地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得i=60,i=1 200,(xi-)2=80,(yi-)2=9 000,(xi-)(yi-)=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数r=, ≈1.414.
【解】 (1)由已知得样本平均数=i=60,
从而该地区这种野生动物数量的估计值为60×200=12 000.
(2)样本(xi,yi)(i=1,2,…,20)的相关系数
r===≈0.94.
(3)分层抽样:先根据植物覆盖面积的大小对200个地块进行分层,接着在各层中按每层在200个地块中所占比例进行分层抽样.
理由如下:由(2)知各样区的这种野生动物的数量与植物覆盖面积有很强的正相关关系.由于各地块间植物覆盖面积的差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.(理由说明合理即可)
eq \a\vs4\al( INCLUDEPICTURE "解题技法LLL.TIF" )
相关关系强弱的定量分析与定性分析
(1)定量分析:相关系数r的范围为-1≤r≤1,r为正时,成对数据正相关;r为负时,成对数据负相关;|r|越接近1,成对数据的线性相关性越强;|r|越接近于0,成对数据的线性相关性越弱;当|r|=1时,所有数据点都在一条直线上.
(2)定性分析:相关关系的强弱体现在散点图中就是样本点在某条直线附近越集中,两变量的线性相关关系越强;样本点在某条直线附近越分散,两变量的线性相关关系越弱.
[跟踪训练2] 为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:
抽取次序 1 2 3 4 5 6 7 8
零件尺寸 9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04
抽取次序 9 10 11 12 13 14 15 16
零件尺寸 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95
经计算得=i =9.97,= eq \r(\f(1,16)(\i\su(i=1,16,x)-16\x\to(x) 2)) ≈0.212, ≈18.439,(xi-)(i-8.5)=-2.78,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小)(精确到0.01).
附:样本(xi,yi)(i=1,2,…,n)的相关系数r=.
解:由题中样本数据得(xi,i)(i=1,2,…,16)的相关系数r=
≈≈-0.18.
由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.
1.非线性回归分析的思想
研究两个变量的关系时,依据样本点画出散点图,从整体上看,如果样本点没有分布在某个带状区域内,就称这两个变量之间不具有线性相关关系,此时不能直接利用回归直线方程来建立两个变量之间的关系.
2.非线性回归方程
当回归方程不是形如y=bx+a(a,b∈R)时,称回归方程为________________________.
当两个变量不是线性相关关系时,依据样本点的分布选择合适的曲线方程来拟合数据,可通过变量代换,利用线性回归模型建立两个变量间的非线性回归方程.
[答案自填] 非线性回归方程
INCLUDEPICTURE "例3LLL.TIF" INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\例3LLL.TIF" \* MERGEFORMATINET 在某个物理实验中,测得变量x和变量y的几组数据,如表:
x 0.50 0.99 2.01 3.98
y -0.99 0.01 0.98 2.00
则下列选项中对x,y最适合的拟合函数是( )
A.y=2x B.y=x2-1
C.y=2x-2 D.y=log2x
【解析】 根据x=0.50,y=-0.99,代入计算,可以排除A选项;根据x=2.01,y=0.98,代入计算,可以排除B,C选项;将各数据代入检验,函数y=log2x最接近,可知满足题意.故选D.
【答案】 D
eq \a\vs4\al( INCLUDEPICTURE "解题技法LLL.TIF" )
常见非线性回归方程的转换方式
曲线方程 图象 变换公式 变换后的线性
函数幂函数曲线y=axb INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\CE18.TIF" \* MERGEFORMATINET c=ln a v=ln x u=ln y u=c+bv
指数曲线y=aebx INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\CE19.TIF" \* MERGEFORMATINET c=ln a u=ln y u=c+bx
倒指数曲线y=ae INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\CE20.TIF" \* MERGEFORMATINET c=ln a v= u=ln y u=c+bv
对数曲线y=a+b ln x INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\CE21.TIF" \* MERGEFORMATINET v=ln x u=y u=a+bv
[跟踪训练3] 用y关于x的方程y=menx(m>0)来拟合一组数据(xi,yi)(i=1,2,…,10)时,为了求出回归方程,设z=ln y,得到z关于x的回归直线方程为=0.3x-ln 2,则( )
A.m=2,n=0.3 B.m=0.3,n=2
C.m=0.3,n=0.5 D.m=0.5,n=0.3
解析:选D.由y=menx得z=ln y=ln (menx)=ln m+nx=0.3x-ln 2,所以m=0.5,n=0.3.故选D.
INCLUDEPICTURE "例4LLL.TIF" INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\例4LLL.TIF" \* MERGEFORMATINET 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)的数据作了初步处理,得到下面的散点图及一些统计量的值.
INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\CE23.TIF" \* MERGEFORMATINET
(xi-)2 (wi-)2 (xi-)(yi-) (wi-)·(yi-)
46.6 563 6.8 289.8 1.6 1 469 108.8
表中wi=,=i.
(1)根据散点图判断,=+x与=+哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)当年宣传费x=49时,年销售量的预测值是多少?
附:回归直线=+x的斜率和截距的最小二乘估计分别为=,=-.
【解】 (1)由题中散点图可以判断,=+适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)因为w=,先建立y关于w的回归直线方程.由于===68,
=-=563-68×6.8=100.6,所以y关于w的回归直线方程为=100.6+68w,因此y关于x的回归方程为=100.6+68.
(3)由(2)知,当x=49时,年销售量的预测值=100.6+68×=576.6.
eq \a\vs4\al( INCLUDEPICTURE "解题技法LLL.TIF" )
非线性回归问题一般不给出经验公式,这时,应先画出已知数据的散点图,把它与所学过的各种函数图象作比较,挑选一种跟这些散点图拟合得最好的函数,采用变量代换法,把问题化为线性回归问题,使问题得以解决.
[跟踪训练4] 某企业为确定下一年投入某种产品的研发费用,需了解年研发费用x(单位:千万元)对年销售量y(单位:千万件)的影响,统计了近10年投入的年研发费用xi与年销售量yi(i=1,2,…,10)的数据,得到散点图如图所示.
INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\CE24.TIF" \* MERGEFORMATINET
(1)利用散点图判断y=a+bx和y=c·xd(其中c,d均为大于0的常数)哪一个更适合作为年销售量y和年研发费用x的回归方程类型(只要给出判断即可,不必说明理由);
(2)对数据作出如下处理,令ui=ln xi,vi=ln yi,得到相关统计量的值如表:
i i (ui-)(vi-) (ui-)2
15 15 28.25 56.5
根据(1)的判断结果及表中数据,求y关于x的回归方程.
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线=+u的斜率和截距的最小二乘估计分别为=,=-.
解:(1)由题中散点图可知,选择回归方程类型y=c·xd(其中c,d均为大于0的常数)更合适.
(2)对y=c·xd两边取对数,得ln y=ln c+d ln x,即v=ln c+du.由题表中数据求得===,===,===.令ln c=m,则=-=-×=,即c=e.所以年销售量y关于年研发费用x的回归方程为=e.
INCLUDEPICTURE "课堂巩固自测LLL.TIF" INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\课堂巩固自测LLL.TIF" \* MERGEFORMATINET
1.(多选)下列关于相关系数r的说法中正确的是( )
A.相关系数r越大两个变量间线性相关性越强
B.相关系数r的取值范围为[-1,1]
C.相关系数r>0时两个变量正相关,r<0时两个变量负相关
D.相关系数r=1时,样本点在同一直线上
解析:选BCD.对于相关系数r,有以下结论:①当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.②r的绝对值越接近于1,表明两个变量之间的线性相关性越强;r的绝对值越接近于0,表明两个变量之间的线性相关性越弱.对于A,当r<0时此结论不成立,所以A不正确;对于B,C,D,由相关系数的性质可得均正确,故选BCD.
2.(教材P115练习AT5改编)下面各图中,散点图与相关系数r不符合的是( )
INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\25HB-47.tif" \* MERGEFORMATINET
解析:选B.对于A,散点图上所有点都在一条斜率小于0的直线上,所以相关系数r=-1,A正确;对于B,散点图上所有点都在一条斜率大于0的直线上,所以相关系数r=1,B错误;对于C,散点图上所有点从左到右是向下的带状分布,所以相关系数-1<r<0,C正确;对于D,散点图中,x,y之间的相关关系非常不明显,所以相关系数r=0,D正确.故选B.
3.下表显示出样本中变量y随变量x变化的一组数据,由此判断它最可能是( )
x 4 5 6 7 8 9 10
y 14 18 19 20 23 25 28
A.线性函数模型 B.二次函数模型
C.指数函数模型 D.对数函数模型
解析:选A.画出散点图(图略)可以得到这些样本点在某一条直线上或在该直线附近,故最可能是线性函数模型.故选A.
4.(教材P114T4改编)在成对数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-x+1上,则这组样本数据的相关系数为( )
A.-1 B.1
C.- D.
解析:选A.因为这组成对数据的所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-x+1上,所以这组成对数据完全线性相关,其相关系数是-1.故选A.
5.由两个变量x与y的多组数据绘出的散点图可看出,样本点分布在一条曲线y=x2的附近.若要将其线性化,则只需要设________即可.
解析:设t=x2,则y=t为回归直线方程.
答案:t=x2(字母t不唯一)
eq \a\vs4\al( INCLUDEPICTURE "课堂小结.TIF" )
1.已学习:(1)相关系数及其性质.(2)牢记三个模型:①幂函数回归模型;②指数函数回归模型;③对数函数回归模型.
2.须贯通:掌握1个方法:对非线性回归问题的处理方法.要先对变量作适当变换,再利用线性回归模型来建模.
3.应注意:利用线性回归模型来建模后要注意回代得到非线性回归方程.