(共53张PPT)
4.3 统计模型
4.3.1 一元线性回归模型
第1课时 相关关系、回归直线方程
学习目标
1.会利用散点图判断两个变量的相关性,并会利用相关关系解决问题.
2.了解回归直线方程中公式的推导,掌握建立线性回归模型的步骤.
3.会利用回归直线方程的性质解决实际问题.
新知学习 探究
PART
01
第一部分
同学们,我们的生活中经常有这样的关系,比如:
(1)当正常站立时上肢向两侧平伸,2个指尖之间的距离一般称之为臂展,臂展和身高是1∶1的关系;
(2)一个学生的数学成绩好,物理成绩大多也会好;
(3)经常吸烟的人患肺癌的概率会增大.
思考 这些变量之间存在什么样的关系呢?
提示:相关关系
散点图
正相关
负相关
(对接教材例1)某市104路公交车上午7:05-8:55时段在起点站每9分钟发一班次.公交公司为了了解早高峰时段各班次上客情况,某日上午7:14-8:35记录了在起点站各班次车辆上客的人数:
发车时刻 7:14 7:23 7:32 7:41 7:50 7:59 8:08 8:17 8:26 8:35
上车乘客数/人 10 13 13 18 17 15 12 9 3 3
请绘制这组成对数据的散点图,并通过观察散点图大致判断公交车发车时刻x与上车乘客人数y之间的相关性.
【解】 绘制散点图如图所示,
观察散点图可知,7:41之前公交车发车时刻与上车乘客人数之间正相关,7:41之后公交车发车时刻与上车乘客人数之间负相关.
(1)两个变量x和y具有相关关系的判断方法
①散点图法:通过散点图,观察它们的分布是否存在一定的规律,直观地判断.
②表格、关系式法:结合表格或关系式进行判断.
③经验法:借助积累的经验进行分析判断.
(2)判断两个变量x和y之间是否具有线性相关关系,常用的简便方法就是绘制散点图,如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.
[跟踪训练1] (1)下列每组的两个变量之间具有相关关系的是( )
A.乌鸦叫,灾难到
B.圆心角的大小与半径
C.物体的质量一定,其密度与体积之间的关系
D.儿童的年龄与身高
解析:因为A,B中的两个变量之间没有关系,C中的两个变量之间是函数关系,D中的两个变量之间是相关关系.故选D.
√
(2)某种木材体积与树木的树龄之间有如下的对应关系:
树龄 2 3 4 5 6 7 8
体积 30 34 40 60 55 62 70
(1)请作出这些数据的散点图;
解:以x轴表示树木的树龄,y轴表示树木的体积,可得相应的散点图如图所示.
(2)你能由散点图发现木材体积与树木的树龄近似成什么关系吗?
解:由散点图发现木材体积随着树龄的增加而呈增加的趋势,且散点落在一条直线附近,所以木材的体积与树龄近似成线性相关关系且呈正相关.
回归直线方程
(对接教材例1)某生物学家对白鲸游泳速度与其摆尾频率之间的关系进行了研究.研究的样本为19头白鲸,测量其游泳速度和摆尾频率.白鲸游泳速度的测量单位为每秒向前移动的身长数(1.0代表每秒向前移动一个身长),而摆尾频率的测量单位是赫兹(1.0代表每秒摆尾1个来回).测量数据如表所示.
白鲸编号 游泳速度/(L/s) 摆尾频率/Hz 白鲸 编号 游泳速 度/(L/s) 摆尾频
率/ Hz
1 0.37 0.62 11 0.68 1.20
2 0.50 0.68 12 0.86 1.38
3 0.35 0.68 13 0.68 1.41
4 0.34 0.71 14 0.73 1.44
5 0.46 0.80 15 0.95 1.49
6 0.44 0.88 16 0.79 1.50
7 0.51 0.88 17 0.84 1.50
8 0.68 0.92 18 1.06 1.56
9 0.51 1.08 19 1.04 1.67
10 0.67 1.14 / / /
生物学家聚焦的研究问题是“白鲸的摆尾频率依赖于其游泳速度吗”,这里的因变量y是摆尾频率,自变量x是游泳速度.
(1)绘制数据散点图;
【解】
[跟踪训练2] (2024·山东济南一中月考)某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:
x 6 8 10 12
y 2 3 5 6
(1)根据表中的数据画出散点图;
解:如图:
(2)如果近似量存在线性关系,请画出一条直线来近似地表示这种线性关系;
解:观察发现这四个点在点(6,2)和点(10,5)连线的附近,故过两点的直线可以近似地表示记忆力与判断力的关系.如图:
(3)求判断力y关于记忆力x的回归直线方程.
√
√
√
√
(2)若由回归直线方程得到的预测数据与实际数据的误差不超过0.05,视为“预测可靠”,那么由该单位前4个月的数据所得到的回归直线方程预测5月份的用水量是否可靠?说明理由.
[跟踪训练4] 配速是马拉松运动中常使用的一个概念,
是指每千米所需要的时间.相比配速,把心率控制在
一个合理水平是安全理性跑马拉松的一个重要策略.
已知图1是某次马拉松比赛中一位跑者的心率y(单位:
次/分钟)和配速x(单位:分钟/千米)的散点图,图2是
本次马拉松比赛(全程约42千米)前5 000名跑者成绩
(单位:分钟)的频率分布直方图.
(1)由散点图看出,可用线性回归模型拟合y与x的关系,求y与x的回归直线方程;
解:将y=160代入回归直线方程得x=5,
所以该跑者跑完马拉松全程所花的时间为42×5=210(分钟),从马拉松比赛前5 000名跑者成绩的频率分布直方图可知,成绩好于210分钟的累计频率为0.000 8×50+0.002 4×(210-200)=0.064,即有6.4%的跑者成绩超过该跑者,则该跑者在本次比赛获得的名次大约是0.064×5 000=320名.
课堂巩固 自测
PART
02
第二部分
1.(教材P114T2改编)观察下列散点图,其中对两个变量之间的相关关系判断正确的是( )
A.a中为正相关,b中为负相关,c中为不相关
B.a中为负相关,b中为不相关,c中为正相关
C.a中为负相关,b中为正相关,c中为不相关
D.a中为正相关,b中为不相关,c中为负相关
解析:根据变量的相关性,可知题图a中,两个变量成正相关;题图b中,两个变量不相关;题图c中,两个变量成负相关.故选D.
√
2.(多选)下列有关线性回归的说法,正确的是( )
A.相关关系的两个变量不是因果关系
B.散点图能直接反映数据的相关程度
C.回归直线最能代表线性相关的两个变量之间的关系
D.任意一组数据都有回归方程
解析:并不是每一组数据都有回归方程,故D不正确,其余均正确.
√
√
√
13.5
4.通过随机抽样,我们获得某种商品每千克价格x(单位:百元)与该商品消费者年需求量y(单位:千克)的一组调查数据,如表所示.
消费者年需求量与商品每千克价格
每千克价格/百元 4.0 4.0 4.6 5.0 5.2 5.6 6.0 6.6 7.0 10.0
年需求量/千克 3.5 3.0 2.7 2.4 2.5 2.0 1.5 1.2 1.2 1.0
解: 绘制的散点图如图:
由图可以看出,消费者对该商品的年需求量大体上随着价格的上升而减少,但也有一些例外的情况.例如,价格都是4百元,但不同年份的需求量分别是3.5千克和3千克,说明在价格不变的情况下,需求量仍可能发生变化.类似地,价格改变,需求也可能基本不变.从散点图整体上看,所有点都在一条直线的附近波动,在这种情况下,我们说两个变量之间具有一种线性相关关系,此时可以用一条直线来拟合这两组数据.
请绘制上述数据的散点图,并依据散点图观察两组数据的相关性.
1.已学习:(1)线性相关;(2)回归直线方程.
2.须贯通:掌握3种方法:(1)判断变量相关关系的方法;
(2)利用散点图判断变量正负相关的方法;
(3)求回归直线方程的方法.
3.应注意:只有当散点图大致呈线性分布时,求出的回归直线方程才有实际意义,否则求出的回归直线方程毫无意义.