4.3 统计模型
4.3.1 一元线性回归模型
第1课时 相关关系、回归直线方程
1.会利用散点图判断两个变量的相关性,并会利用相关关系解决问题. 2.了解回归直线方程中公式的推导,掌握建立线性回归模型的步骤. 3.会利用回归直线方程的性质解决实际问题.
INCLUDEPICTURE "新知学习探究LLL.TIF" INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\新知学习探究LLL.TIF" \* MERGEFORMATINET
INCLUDEPICTURE "新课导学1LLL.TIF" INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\新课导学1LLL.TIF" \* MERGEFORMATINET
同学们,我们的生活中经常有这样的关系,比如:
(1)当正常站立时上肢向两侧平伸,2个指尖之间的距离一般称之为臂展,臂展和身高是1∶1的关系;
(2)一个学生的数学成绩好,物理成绩大多也会好;
(3)经常吸烟的人患肺癌的概率会增大.
思考 这些变量之间存在什么样的关系呢?
提示:相关关系
1.散点图
一般地,如果收集了变量x和变量y的n对数据(简称为成对数据),如下表所示.
序号i 1 2 3 … n
变量x x1 x2 x3 … xn
变量y y1 y2 y3 … yn
则在平面直角坐标系xOy中描出点(xi,yi),i=1,2,3,…,n,就可以得到这n对数据的____________.
2.相关关系
如果由变量的成对数据、散点图或直观经验可知,变量x与变量y之间的关系可以近似地用一次函数来刻画,则称x与y线性相关.此时,如果一个变量增大,另一个变量大体上也增大,则称这两个变量____________;如果一个变量增大,另一个变量大体上减少,则称这两个变量____________.
[答案自填] 散点图 正相关 负相关
INCLUDEPICTURE "例1LLL.TIF" INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\例1LLL.TIF" \* MERGEFORMATINET (对接教材例1)某市104路公交车上午7:05-8:55时段在起点站每9分钟发一班次.公交公司为了了解早高峰时段各班次上客情况,某日上午7:14-8:35记录了在起点站各班次车辆上客的人数:
发车时刻 7:14 7:23 7:32 7:41 7:50 7:59 8:08 8:17 8:26 8:35
上车乘客数/人 10 13 13 18 17 15 12 9 3 3
请绘制这组成对数据的散点图,并通过观察散点图大致判断公交车发车时刻x与上车乘客人数y之间的相关性.
【解】 绘制散点图如图所示,
INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\25HB-27.tif" \* MERGEFORMATINET
观察散点图可知,7:41之前公交车发车时刻与上车乘客人数之间正相关,7:41之后公交车发车时刻与上车乘客人数之间负相关.
eq \a\vs4\al( INCLUDEPICTURE "解题技法LLL.TIF" )
(1)两个变量x和y具有相关关系的判断方法
①散点图法:通过散点图,观察它们的分布是否存在一定的规律,直观地判断.
②表格、关系式法:结合表格或关系式进行判断.
③经验法:借助积累的经验进行分析判断.
(2)判断两个变量x和y之间是否具有线性相关关系,常用的简便方法就是绘制散点图,如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.
[跟踪训练1] (1)下列每组的两个变量之间具有相关关系的是( )
A.乌鸦叫,灾难到
B.圆心角的大小与半径
C.物体的质量一定,其密度与体积之间的关系
D.儿童的年龄与身高
解析:选D.因为A,B中的两个变量之间没有关系,C中的两个变量之间是函数关系,D中的两个变量之间是相关关系.故选D.
(2)某种木材体积与树木的树龄之间有如下的对应关系:
树龄 2 3 4 5 6 7 8
体积 30 34 40 60 55 62 70
(1)请作出这些数据的散点图;
(2)你能由散点图发现木材体积与树木的树龄近似成什么关系吗?
解:(1)以x轴表示树木的树龄,y轴表示树木的体积,可得相应的散点图如图所示.
INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\25HB-28.tif" \* MERGEFORMATINET
(2)由散点图发现木材体积随着树龄的增加而呈增加的趋势,且散点落在一条直线附近,所以木材的体积与树龄近似成线性相关关系且呈正相关.
一般地,已知变量x与y的n对成对数据(xi,yi),i=1,2,3,…,n.任意给定一个一次函数y=bx+a,对每一个已知的xi,由直线方程可以得到一个估计值i=bxi+a,如果一次函数=x+能使残差平方和即(y1-1)2+(y2-2)2+…+(yn-n)2=(yi-i)2取得最小值,则=x+称为y关于x的____________________(对应的直线称为回归直线).因为是使得平方和最小,所以其中涉及的方法称为最小二乘法.其中== eq \f(\i\su(i=1,n,x)iyi-n\o(x,\s\up6(-))\a\vs4\al(\o(y,\s\up6(-))),\i\su(i=1,n,x)-n\o(x,\s\up6(-))2) ,=________,称为回归系数,它实际上也就是回归直线方程的斜率.
[答案自填] 回归直线方程 -
INCLUDEPICTURE "例2LLL.TIF" INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\例2LLL.TIF" \* MERGEFORMATINET (对接教材例1)
INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\25HB-29.TIF" \* MERGEFORMATINET
某生物学家对白鲸游泳速度与其摆尾频率之间的关系进行了研究.研究的样本为19头白鲸,测量其游泳速度和摆尾频率.白鲸游泳速度的测量单位为每秒向前移动的身长数(1.0代表每秒向前移动一个身长),而摆尾频率的测量单位是赫兹(1.0代表每秒摆尾1个来回).测量数据如表所示.
白鲸编号 游泳速度/(L/s) 摆尾频率/Hz 白鲸编号 游泳速度/(L/s) 摆尾频率/ Hz
1 0.37 0.62 11 0.68 1.20
2 0.50 0.68 12 0.86 1.38
3 0.35 0.68 13 0.68 1.41
4 0.34 0.71 14 0.73 1.44
5 0.46 0.80 15 0.95 1.49
6 0.44 0.88 16 0.79 1.50
7 0.51 0.88 17 0.84 1.50
8 0.68 0.92 18 1.06 1.56
9 0.51 1.08 19 1.04 1.67
10 0.67 1.14 / / /
生物学家聚焦的研究问题是“白鲸的摆尾频率依赖于其游泳速度吗”,这里的因变量y是摆尾频率,自变量x是游泳速度.
(1)绘制数据散点图;
(2)建立x与y的回归直线方程.
参考数据:≈0.655 8,≈1.133 7,=9.096 4,iyi≈15.456 7.
【解】 (1)
INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\25HB-30.tif" \* MERGEFORMATINET
(2)设回归直线方程为=x+,根据公式结合表格数据,
= eq \f(\i\su(i=1,19,x)iyi-19\o(x,\s\up6(-)) \o(y,\s\up6(-)),\i\su(i=1,19,x)-19\o(x,\s\up6(-))2)
≈
≈1.438 5,=-≈1.133 7-1.438 5×0.655 8≈0.190 3,故回归直线方程是=1.438 5x+0.190 3.
INCLUDEPICTURE "解题技法LLL.TIF" INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\解题技法LLL.TIF" \* MERGEFORMATINET
[跟踪训练2] (2024·山东济南一中月考)某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:
x 6 8 10 12
y 2 3 5 6
(1)根据表中的数据画出散点图;
(2)如果近似量存在线性关系,请画出一条直线来近似地表示这种线性关系;
(3)求判断力y关于记忆力x的回归直线方程.
解:(1)如图:
INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\25HB-31.tif" \* MERGEFORMATINET
(2)观察发现这四个点在点(6,2)和点(10,5)连线的附近,故过两点的直线可以近似地表示记忆力与判断力的关系.如图:
INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\25HB-32.tif" \* MERGEFORMATINET
(3)设判断力y关于记忆力x的回归直线方程为=x+.由题表数据可得,==9,==4,4 =4×9×4=144,
iyi=6×2+8×3+10×5+12×6=158,=62+82+102+122=344,
则= eq \f(\i\su(i=1,4,x)iyi-4\o(x,\s\up6(-)) \o(y,\s\up6(-)),\i\su(i=1,4,x)-4\o(x,\s\up6(-))2) ==0.7,=-=4-0.7×9=-2.3,
故所求回归直线方程为=0.7x-2.3.
1.回归直线=x+一定过点________.
2.回归直线方程=x+中,y与x正相关的充要条件是 ________;y与x负相关的充要条件是 ________.
3.回归系数的实际意义:当x增大一个单位时,增大个单位.
[答案自填] (,) >0 <0
(1)根据如下样本数据得到的回归直线方程为=x+,则( )
x 3 4 5 6 7 8
y 4.0 2.5 -0.5 0.5 -2.0 -3.0
A.>0,<0 B.>0,>0
C.<0,<0 D.<0,>0
(2)(2024·北京市西城区月考)5G网络通信技术是一种先进的网络通信技术,我国的5G网络通信技术发展迅速,已位居世界前列.某公司于2024年1月推出了一款5G手机,现调查得到该款5G手机上市时间x和市场占有率y(单位:%)的一些数据并绘制图形,如图所示,在此折线图中,横轴1代表2024年1月,2代表2024年2月,……,5代表2024年5月,根据数据得出y关于x的回归直线方程为=0.042x-.若用此方程分析并预测该款手机市场占有率的变化趋势,则该款5G手机市场占有率超过0.5%的最早时间为( )
INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\23-33.TIF" \* MERGEFORMATINET
A.2024年11月 B.2024年12月
C.2025年1月 D.2025年2月
【解析】 (1)作出散点图,如图所示,由图可知<0,>0.
INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\23-34.TIF" \* MERGEFORMATINET
(2)根据题图,得==3,
=×(0.02+0.05+0.1+0.15+0.18)=0.1.则回归直线必过点(3,0.1),
所以0.1=0.042×3-,解得=0.026,
所以回归直线方程为=0.042x-0.026,
由0.042x-0.026>0.5且x∈N+,得x≥13,预计最早在2025年1月该款5G手机市场占有率能超过0.5%.
【答案】 (1)A (2)C
eq \a\vs4\al( INCLUDEPICTURE "解题技法LLL.TIF" )
回归直线方程的性质的运用
(1)利用回归直线过点(,),可以求解回归直线方程或样本数据中的参数.
(2)利用回归系数的意义分析实际问题.
[跟踪训练3] (1)已知变量x与y正相关,且由观测数据算得样本平均数=3,=3.5,则由该观测数据算得的回归直线方程可能是( )
A.=0.4x+2.3 B.=2x-2.4
C.=-2x+9.5 D.=-0.3x+4.4
解析:选A.因为x与y正相关,所以排除C,D.又回归直线过样本中心点(,),代入可知A正确.
(2)已知x与y之间的几组数据如表所示:
x 1 2 3 4 5 6
y 0 2 1 3 3 4
假设根据上表数据所得回归直线方程为=x+,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b′x+a′,则以下结论正确的是( )
A.>b′,>a′ B.>b′,<a′
C.<b′,>a′ D.<b′,<a′
解析:选C.由题意得b′==2,a′=0-2×1=-2.iyi=0+4+3+12+15+24=58,=3.5,=,=1+4+9+16+25+36=91,所以==,=-×3.5=-,所以<b′,>a′.故选C.
INCLUDEPICTURE "例4LLL.TIF" INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\例4LLL.TIF" \* MERGEFORMATINET 如表是某单位在2024年1~5月份用水量(单位:百吨)的一组数据:
月份x 1 2 3 4 5
用水量y 2.5 3 4 4.5 5.2
(1)从这5个月中任取2个月的用水量,求所取2个月的用水量之和不超过7百吨的概率;
(2)若由回归直线方程得到的预测数据与实际数据的误差不超过0.05,视为“预测可靠”,那么由该单位前4个月的数据所得到的回归直线方程预测5月份的用水量是否可靠?说明理由.
【解】 (1)从这5个月中任取2个月,包含的基本事件有C=10(个),其中所取2个月的用水量之和不超过7百吨的基本事件有(2.5,3),(2.5,4),(2.5,4.5),(3,4),故所求概率P==.
(2)由数据得==2.5,==3.5,由公式计算得= eq \f(\i\su(i=1,4,x)iyi-4\o(x,\s\up6(-)) \o(y,\s\up6(-)),\i\su(i=1,4,x)-4\o(x,\s\up6(-))2) ==0.7,=-=1.75,所以y关于x的回归直线方程为=0.7x+1.75,当x=5时,得预测值=0.7×5+1.75=5.25,而|5.2-5.25|=0.05≤0.05,所以得到的回归直线方程是“预测可靠”的.
eq \a\vs4\al( INCLUDEPICTURE "解题技法LLL.TIF" )
利用回归直线方程解决实际问题的注意点
(1)解决问题时应首先利用散点图等对x,y进行相关性检验,如果两个变量之间本身不具有线性关系或者它们之间的线性关系不显著,即使求出回归直线方程,进行估计和预测的量也是不可信的.
(2)回归直线方程=+x中的实际意义:表示x每增加一个单位时,的变化量,即x每增加一个单位时,相应地变化个单位.
[跟踪训练4] 配速是马拉松运动中常使用的一个概念,是指每千米所需要的时间.相比配速,把心率控制在一个合理水平是安全理性跑马拉松的一个重要策略.已知图1是某次马拉松比赛中一位跑者的心率y(单位:次/分钟)和配速x(单位:分钟/千米)的散点图,图2是本次马拉松比赛(全程约42千米)前5 000名跑者成绩(单位:分钟)的频率分布直方图.
INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\25HB-36.tif" \* MERGEFORMATINET
(1)由散点图看出,可用线性回归模型拟合y与x的关系,求y与x的回归直线方程;
(2)在本次比赛中,该跑者如果将心率控制在160(单位:次/分钟)左右跑完全程,估计他跑完全程花费的时间及他能获得的名次.
参考公式:=x+中,=,=-,其中,为样本平均数.
解:(1)由题中散点图数据和参考公式得==6,==135,所以=
=-25,=135-(-25)×6=285,所以y与x的回归直线方程为=-25x+285.
(2)将y=160代入回归直线方程得x=5,
所以该跑者跑完马拉松全程所花的时间为42×5=210(分钟),从马拉松比赛前5 000名跑者成绩的频率分布直方图可知,成绩好于210分钟的累计频率为0.000 8×50+0.002 4×(210-200)=0.064,即有6.4%的跑者成绩超过该跑者,则该跑者在本次比赛获得的名次大约是0.064×5 000=320名.
INCLUDEPICTURE "课堂巩固自测LLL.TIF" INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\课堂巩固自测LLL.TIF" \* MERGEFORMATINET
1.(教材P114T2改编)观察下列散点图,其中对两个变量之间的相关关系判断正确的是( )
INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\23-36.TIF" \* MERGEFORMATINET
A.a中为正相关,b中为负相关,c中为不相关
B.a中为负相关,b中为不相关,c中为正相关
C.a中为负相关,b中为正相关,c中为不相关
D.a中为正相关,b中为不相关,c中为负相关
解析:选D.根据变量的相关性,可知题图a中,两个变量成正相关;题图b中,两个变量不相关;题图c中,两个变量成负相关.故选D.
2.(多选)下列有关线性回归的说法,正确的是( )
A.相关关系的两个变量不是因果关系
B.散点图能直接反映数据的相关程度
C.回归直线最能代表线性相关的两个变量之间的关系
D.任意一组数据都有回归方程
解析:选ABC.并不是每一组数据都有回归方程,故D不正确,其余均正确.
3.已知某班学生每周用于物理学习的时间x(单位:h)与物理成绩y(单位:分)的几组数据如下:
x 24 15 23 19 16 11 20 16 17 13
y 92 79 97 89 64 47 83 68 71 59
根据上表可得回归直线的斜率为3.53,则回归直线在y轴上的截距为________.(结果保留到0.1)
解析:由已知可得
==17.4,
==74.9.
设回归直线方程为=3.53x+,则74.9=3.53×17.4+,解得≈13.5,所以回归直线在y轴上的截距为13.5.
答案:13.5
4.通过随机抽样,我们获得某种商品每千克价格x(单位:百元)与该商品消费者年需求量y(单位:千克)的一组调查数据,如表所示.
消费者年需求量与商品每千克价格
每千克价格/百元 4.0 4.0 4.6 5.0 5.2 5.6 6.0 6.6 7.0 10.0
年需求量/千克 3.5 3.0 2.7 2.4 2.5 2.0 1.5 1.2 1.2 1.0
请绘制上述数据的散点图,并依据散点图观察两组数据的相关性.
解: 绘制的散点图如图:
INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\25HB-37.tif" \* MERGEFORMATINET
由图可以看出,消费者对该商品的年需求量大体上随着价格的上升而减少,但也有一些例外的情况.例如,价格都是4百元,但不同年份的需求量分别是3.5千克和3千克,说明在价格不变的情况下,需求量仍可能发生变化.类似地,价格改变,需求也可能基本不变.从散点图整体上看,所有点都在一条直线的附近波动,在这种情况下,我们说两个变量之间具有一种线性相关关系,此时可以用一条直线来拟合这两组数据.
eq \a\vs4\al( INCLUDEPICTURE "课堂小结.TIF" )
1.已学习:(1)线性相关;(2)回归直线方程.
2.须贯通:掌握3种方法:(1)判断变量相关关系的方法;
(2)利用散点图判断变量正负相关的方法;
(3)求回归直线方程的方法.
3.应注意:只有当散点图大致呈线性分布时,求出的回归直线方程才有实际意义,否则求出的回归直线方程毫无意义.