(共15张PPT)
1. 相关系数
一般地,设随机变量X,Y的n组观测值分别为(x1,y1),(x2,y2),…,(xn,yn),记r=
= ,称r为随机变量X和Y的样本(线性)相关系数.
2.相关系数r的特征
(1)样本(线性)相关系数r的取值范围为[-1,1].
(2)|r|值越接近1,随机变量之间的线性相关程度越强;|r|值越接近0,随机变量之间的线性相关
程度越弱.
§2 成对数据的线性相关性
知识 清单破
知识点 相关系数
(3)当r>0时,两个随机变量的值总体上变化趋势相同,此时称两个随机变量正相关;
当r<0时,两个随机变量的值总体上变化趋势相反,此时称两个随机变量负相关;
当r=0时,此时称两个随机变量线性不相关.
知识辨析
判断正误,正确的画“√”,错误的画“ ”.
1.相关关系是一种非确定性关系. ( )
2.当r=0时,两个随机变量没有任何关系. ( )
3.若r1=-0.95,r2=0.85,则体现两个随机变量线性相关程度较强的是r2. ( )
4.当变量x的取值为3,4,5,6,7时,变量y对应的值依次为4.0,2.5,-0.5,-1,-2,则可知变量x和y负相
关. ( )
√
√
提示
提示
当r=0时,只表明两个随机变量没有线性关系,但不排除它们之间有其他关系.
|r|值越接近1,随机变量之间的线性相关程度越强,所以体现两个随机变量线性相关程度
较强的是r1.
1.利用散点图判断两个随机变量的相关性
(1)一般地,如果变量x和y正相关,那么关于均值平移后的大多数散点将分布在第一、第三象
限内,对应的成对数据同号的居多;如果变量x和y负相关,那么关于均值平移后的大多数散点
将分布在第二、第四象限内,对应的成对数据异号的居多.
(2)如果散点落在一条直线附近,则认为这两个变量线性相关.
2.利用相关系数判断两个随机变量的相关程度
相关系数r是从数值上来判断变量间的线性相关程度的,是定量分析.|r|刻画了样本点集
中于某条直线的程度.
|r|值越接近1,散点图中的样本点分布越接近一条直线,两个变量的线性相关程度越强.
讲解分析
疑难 情境破
疑难 1 两个随机变量相关性的判断
典例 某农科所对冬季昼夜温差(最高温度与最低温度的差)大小与某反季节大豆新品种一天
内发芽数之间的关系进行了分析研究,他们分别记录了12月1日至12月6日每天昼夜的最高、
最低温度(如图甲),以及实验室每天每100颗种子中的发芽数情况(如图乙).
图甲
图乙
(1)请画出发芽数y与温差x的散点图;
(2)判断两个变量是否线性相关,计算相关系数,并刻画它们的相关程度.
参考数据:
参考公式:相关系数r= (当|r|>0.75时,认为两个变量的线性相关程度较强).
解析 (1)散点图如图所示.
(2)r=
≈ ≈0.952.
由相关系数r≈0.952>0.75,可以推断发芽数与温差这两个变量正相关,且线性相关程度较强.
规律总结 判断两个变量之间的线性相关程度一般用散点图,但在作图中,由于存在误差,有
时很难判断这些点是否分布在一条直线附近,此时可以利用相关系数r来判断.相关系数是从
数值上来判断变量间的相关程度的,是定量分析,比用散点图(定性分析)要精细得多.
有时根据所测量的数据作出两个随机变量的散点图后,发现这些散点并非分布在某一条直线
附近,而是在某一条曲线附近,此时,我们需要根据曲线的形状,选择适当的函数模型来拟合,再
通过变量代换,利用线性回归模型得到两个变量间的非线性回归方程.常见的非线性回归模
型如下:
讲解分析
疑难 2 非线性相关问题
函数模型 函数图象 变换公式 变换后的线性函数
Y=aXb (幂函数曲线) c=ln a, v=ln X, u=ln Y u=c+bv
Y=aebX (指数曲线) c=ln a, u=ln Y u=c+bX
Y=a (倒指数曲线) c=ln a, v= , u=ln Y u=c+bv
Y=a+bln X (对数曲线) v=ln X Y=a+bv
典例 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费X(单位:万元)对年销售
量Y(单位:t)和年利润z(单位:万元)的影响,对近8年的年宣传费Xi和年销售量Yi(i=1,2,…,8)数据
作了初步处理,得到下面的散点图及一些统计量的值.
46.6 563 6.8 289.8 1.6
1.469 108.8 表中wi= , = wi.
(1)根据散点图判断,Y=a+bX与Y=c+d 哪一个适宜作为年销售量Y关于年宣传费X的回归
方程类型;(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立Y关于X的回归方程;
(3)已知这种产品的年利润z与X,Y的关系为z=0.2Y-X,根据(2)的结果回答下列问题:
①年宣传费X=49时,年销售量及年利润的预测值是多少
②年宣传费X为何值时,年利润的预测值最大
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分
别为 = , = - .
解析 (1)由散点图可以判断,Y=c+d 适宜作为年销售量Y关于年宣传费X的回归方程类型.
(2)令w= ,由(1)可设Y关于w的线性回归方程为Y= + w.
由于 = = =68,
= - =563-68×6.8=100.6,
因此Y关于w的线性回归方程为Y=100.6+68w,故Y关于X的回归方程为Y=100.6+68 .
(3)①由(2)知,当X=49时,年销售量Y的预测值为100.6+68× =576.6,
年利润z的预测值为576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预测值 =0.2×(100.6+68 )-X=-X+13.6 +20.12.
所以当 = =6.8,即X=46.24时, 取得最大值.
故年宣传费为46.24万元时,年利润的预测值最大.§2 成对数据的线性相关性
2.1 相关系数 2.2 成对数据的线性相关性分析
基础过关练
题组一 变量的相关关系
1.观察下列散点图,则①正相关,②负相关,③不相关与图中的甲、乙、丙三个散点图相对应的是( )
A.①②③ B.②①③
C.①③② D.③①②
2.已知两组数据a1,a2,…,a10和b1,b2,…,b10,当1≤i≤10且i∈Z时,ai=i;当1≤i≤9且i∈Z时,bi=ai,b10=a,我们研究这两组数据的相关性,在集合{8,11,12,13}中取一个元素作为a的值,使得相关性最强,则a=( )
A.8 B.11
C.12 D.13
题组二 相关系数的简单应用
3.对四组变量的数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是( )
A.r2C.r44.设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的斜率是b,在y轴上的截距是a,那么必有( )
A.b与r的符号相同 B.a与r的符号相同
C.b与r的符号相反 D.a与r的符号相反
5.(多选题)某同学将收集到的六组数据制成散点图如图所示,并得到其回归直线l1的方程为,其相关系数为r1.经过分析确定点F为“离群点”,把它去掉后,再利用剩下的5组数据计算得到回归直线l2的方程为x+0.68,其相关系数为r2,以下结论中,正确的是( )
A.r1>0,r2>0 B.r1>r2
C.=0.12 D.0<<0.68
6.为了比较甲、乙、丙、丁四组数据的线性相关性强弱,某同学分别计算了甲、乙、丙、丁四组数据的线性相关系数,求得的数值依次为-0.98,-0.27,0.36,0.93,则这四组数据中线性相关性最强的是 组数据.
7.人口结构的变化,能明显影响住房需求.当一个地区青壮年人口占比高时,住房需求就会增加,而当一个地区老龄化严重时,住房需求就会下降.某机构随机选取了某个地区的10个城市,统计了每个城市的老龄化率x和空置率y,如下表所示:
城市 1 2 3 4 5 6 7 8 9 10
老龄 化率x 0.17 0.2 0.18 0.05 0.21 0.09 0.19 0.3 0.17 0.24 1.8
空置 率y 0.06 0.13 0.09 0.05 0.09 0.08 0.11 0.15 0.16 0.28 1.2
(1)若老龄化率不低于20%,则该城市为超级老龄化城市,根据表中数据,估计该地区城市为超级老龄化城市的概率;
(2)估计该地区城市的老龄化率x和空置率y的样本相关系数.(结果精确到0.01)
参考公式:样本相关系数r=.
参考数据:≈0.04,≈0.04,xiyi=0.241 3.
题组三 非线性回归分析
8.用模型y=cekx拟合一组数据时,为了求出回归方程,设z=ln y,将其变换后得到线性回归方程z=0.5x+2,则c= ( )
A.0.5 B.e0.5 C.2 D.e2
9.某工厂每日生产某种产品x(x≥1)吨,每日生产的该产品当日销售完毕,日销售额为y万元,产品价格随着产量的变化而有所变化,经过一段时间的产销,得到了x,y的一组统计数据,如下表:
日产量x/吨 1 2 3 4 5
日销售额y/万元 5 12 16 19 21
(1)请判断y=bx+a与y=dln x+c(d为大于零的常数)中哪个模型更适合刻画x,y之间的关系,并从函数增长趋势方面给出简单的理由;
(2)根据你的判断及下面的公式和数据,求出y关于x的回归方程,并估计当日产量为6吨时,日销售额是多少.(结果保留整数)
参考公式:线性回归方程中,.
参考数据:≈0.96,5ln 1+12ln 2+16ln 3+19ln 4+
21ln 5≈86,ln 6≈1.8,(ln 1)2+(ln 2)2+(ln 3)2+(ln 4)2+(ln 5)2≈6.2.
能力提升练
题组一 相关系数的综合应用
1.移动物联网广泛应用于生产制造、公共服务、个人消费等领域.截至2022年底,我国移动物联网连接数达18.45亿户,成为全球主要经济体中首个实现“物超人”的国家.2018~2022年移动物联网连接数w与年份代码t的散点图如图所示,其中2018~2022年对应的t分别为1~5.
(1)根据参考数据计算样本相关系数r(精确到0.01);
(2)令变量x=t-,利用(1)中结论求y关于x的线性回归方程,并预测2024年移动物联网连接数.
参考公式:回归直线y=a+bt中,斜率和截距的最小二乘估计公式分别为,
样本相关系数r=;
参考数据:≈27.7.
2.焦虑症是一种常见的神经症,多发于中青年群体,某机构为调查焦虑症与年龄之间的关联,随机抽取10人进行焦虑值(满分100分)的测试,根据调查得到如下数据表:
人员 A B C D E F G H I J
年龄x(岁) 26 34 25 24 20 20 19 19 18 17
焦虑值y(分) 80 89 89 78 75 71 65 62 55 50
(1)我们约定:焦虑值y关于年龄x的线性相关系数的绝对值在0.75以上(含0.75)为线性相关性较强,否则视为线性相关性较弱,如果没有较强的线性相关性,那么不考虑用直线拟合.试根据调查数据判断能否用直线拟合焦虑值y与年龄x的相关关系.若能,请求出焦虑值y关于年龄x的线性回归方程;若不能,请说明理由;
(2)现从所调查的焦虑值小于或等于75的6人中随机抽取2人,求这2人中至少有1人是20岁的概率.
参考数据及公式:≈22,≈71,≈15,≈40,≈525.对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其线性回归方程中,.
样本相关系数r=.
二 非线性回归分析
3.某种新产品投放市场一段时间后,公司经过调研获得了时间x(天)与销售单价y(元)的一组数据,且进行了一定的数据处理(如表),并作出了散点图(如图).
)2 )2 )· (yi-) )· (yi-)
1.63 37.8 0.89 5.15 0.92 -20.6 18.40
表中wi=wi.
(1)根据散点图判断,y=a+bx与y=c+哪一个更适宜作为销售单价y关于时间x的回归方程类型;(不必说明理由)
(2)根据判断结果和表中数据,建立y关于x的回归方程;
(3)若该产品的日销售量g(x)(件)与时间x的函数关系为g(x)=+120(x∈N*),则该产品投放市场第几天的销售额最高 最高为多少元
附:对于一组数据(u1,v1),(u2,v2),(u3,v3),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为.
4.放行准点率是衡量机场运行效率和服务质量的重要指标之一.某机场自2012年起采取相关策略优化各个服务环节,运行效率不断提升.以下是根据2013~2022年年份数xi(i=1,2,…,10)与该机场飞往A地航班放行准点率yi(单位:百分比)的统计数据所作的散点图及经初步处理后得到的一些统计量的值.
xiyi tiyi
2 017.5 80.4 1.5 40 703 145.0 1 621 254.2 27.7 1 226.8
其中ti=ln(xi-2 012),ti.
(1)根据散点图判断y=bx+a与y=cln(x-2 012)+d中哪一个适宜作为该机场飞往A地航班放行准点率y关于年份数x的回归方程类型(给出判断即可,不必说明理由),并根据表中数据建立回归方程,预测2023年该机场飞往A地的航班放行准点率;
(2)已知2023年该机场飞往A地、B地和其他地区的航班比例分别为0.2,0.2和0.6,若以(1)中的预测值作为2023年该机场飞往A地航班放行准点率的估计值,且2023年该机场飞往B地及其他地区航班放行准点率的估计值分别为80%和75%,现从2023年在该机场起飞的航班中随机抽取一个,求该航班准点放行的概率.
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其线性回归方程u中,.
参考数据:ln 11≈2.40.
答案与分层梯度式解析
§2 成对数据的线性相关性
2.1 相关系数
2.2 成对数据的线性相关性分析
基础过关练
1.C
2.B 设点的坐标为(ai,bi),1≤i≤10且i∈Z,
由题意得前9个点位于直线y=x上,a10=10,则要使相关性最强,b10应更接近10,四个选项中11更接近10.故选B.
3.A 由题中的散点图可以看出,图1和图3中两变量正相关,相关系数大于0,即r1>0,r3>0,图2和图4中两变量负相关,相关系数小于0,即r2<0,r4<0,
图1和图2的点相对于图3和图4的点更加集中,所以相关性较强,所以r1更接近1,r2更接近-1,由此可得r24.A 当b>0时,两变量正相关,r>0;当b<0时,两变量负相关,r<0.故选A.
5.ACD 由题图可知两变量呈现正相关,故r1>0,r2>0,且r16.答案 甲
解析 因为|r|值越接近1,随机变量之间的线性相关程度越强,且
|-0.98|>0.93>0.36>|-0.27|,
所以甲组数据的线性相关性最强.
7.解析 (1)由题表中的数据可知,调查的10个城市中,老龄化率不低于20%的有4个,
所以估计该地区城市为超级老龄化城市的概率为=0.4.
(2)由题表中的数据得,=0.12,
则r=
≈
=≈0.63.
故该地区城市的老龄化率x和空置率y的样本相关系数约为0.63.
8.D 由y=cekx两边取对数,可得ln y=ln(cekx)=ln c+ln ekx=ln c+kx,故z=ln c+kx,
∵z=0.5x+2,∴ln c=2,解得c=e2.故选D.
9.解析 (1)y=dln x+c更适合刻画x,y之间的关系.
理由:由题表中的数据可知,x的值每增加1,函数值y的增加量分别为7,4,3,2,增加得越来越缓慢,符合对数函数模型的增长规律,与线性回归模型的均匀增长存在较大差异,故y=dln x+c更适合刻画x,y之间的关系.
(2)令z=ln x,由题意得=14.6,所以≈14.6-10×0.96=5,
所以y关于x的回归方程为=10ln x+5.
当x=6时,=10×ln 6+5≈23.
所以当日产量为6吨时,估计日销售额为23万元.
能力提升练
1.解析 (1)由已知得,×(1+2+3+4+5)=3,
则)2=(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2=10,
所以r=≈0.98.
(2)由(1)知=2.72,所以y关于x的线性回归方程为=2.72x,
又=12.16,所以当t=7时,x=7-3=4,
w==2.72×4+12.16=23.04,所以预测2024年移动物联网连接数为23.04亿户.
2.解析 (1)由题意可得焦虑值y关于年龄x的线性相关系数的绝对值|r|==0.875>0.75,故线性相关性较强,可以用直线拟合焦虑值y与年龄x的相关关系.
设焦虑值y关于年龄x的线性回归方程为,则≈71- ,
所以焦虑值y关于年龄x的线性回归方程为.
(2)由题表可得焦虑值小于或等于75的6人中,有2个人是20岁,所以从所调查的焦虑值小于或等于75的6人中随机抽取2人,至少有1人是20岁的概率P=1-P(抽取的两个人全不是20岁)=1- .
3.解析 (1)由题中散点图可以判断y=c+更适宜作为销售单价y关于时间x的回归方程类型.
(2)令w=,由(1)可设y关于w的线性回归方程为 =37.8-20×0.89=20,
∴y关于w的线性回归方程为=20+20w.
∴y关于x的回归方程为.
(3)设日销售额为h(x)元,
则h(x)=g(x)=-2 000,
当x=10时,h(x)有最大值,为2 420,
即该产品投放市场第10天的销售额最高,最高为2 420元.
4.解析 (1)由题图可以看出,y=cln(x-2 012)+d适宜作为该机场飞往A地航班放行准点率y关于年份数x的回归方程类型.
令t=ln(x-2 012),则y=ct+d,
易得=4,
=80.4-4×1.5=74.4,
所以=4t+74.4,
因此该机场飞往A地航班放行准点率y关于年份数x的回归方程为=4ln(x-2 012)+74.4.
当x=2 023时,=4×ln(2 023-2 012)+74.4=4×ln 11+74.4≈4×2.40+74.4=84.
所以预测2023年该机场飞往A地的航班放行准点率为84%.
(2)设A1=“该航班飞往A地”,A2=“该航班飞往B地”,A3=“该航班飞往其他地区”,C=“该航班准点放行”,则P(A1)=0.2,P(A2)=0.2,P(A3)=0.6,
P(C|A1)=0.84,P(C|A2)=0.8,P(C|A3)=0.75.
所以P(C)=P(A1)P(C|A1)+P(A2)P(C|A2)+P(A3)·P(C|A3)=0.2×0.84+0.2×0.8+
0.6×0.75=0.778.
1