4.3.1 一元线性回归模型
课标阐释
思维脉络
1.能通过收集现实问题中两个有关联的变量的数据作出散点图,并利用散点图直观认识变量间的相关关系.
2.能根据给出的线性回归方程系数公式建立线性回归方程.
3.能通过相关性检验,了解回归分析的基本思想与方法.
4.了解非线性回归问题,并能找出解决问题的一般思路.
激趣诱思
知识点拨
“瑞雪兆丰年”是一句流传比较广的农谚,它的意思是适时的冬雪预示着来年是丰收之年,是来年庄稼获得丰收的预兆.由于冬季天气冷,雪往往不易融化,盖在土壤上的雪是比较松软的,里面藏了许多不流动的空气,空气是不传热的,这样就像给庄稼盖了一条棉被,外面天气再冷,下面的温度也不会降得很低.等到寒潮过去以后,天气渐渐回暖,雪慢慢融化,这样,不但让庄稼不受冻害,而且雪融化成的水留在土壤里,给庄稼积蓄了很多水,对春耕播种以及庄稼的生长都很有利.但是冬天下几场大雪,来年一定会获得丰收吗?
激趣诱思
知识点拨
一、相关关系
1.变量之间的常见关系
分类
概念
函数关系
两个变量之间的关系可以用函数表示.如圆的面积与半径之间的关系,就可以用函数S=πr2表示
相关关系
如果两个变量中一个变量的取值一定时,另一个变量的取值带有一定的随机性,那么这两个变量之间的关系,叫做相关关系
不相关
两个变量间没有任何关系
激趣诱思
知识点拨
2.散点图
(1)在讨论两个变量x和y之间的关系时,常把它们写成点(x,y)的形式,以便利用平面直角坐标系来考虑它们之间的关系,此时x和y可以看成是描述同一个体的两个不同的特征量.
(2)将各数据在平面直角坐标系中的对应点画出来,得到表示两个变量的一组数据的图形,这样的图形叫散点图.
激趣诱思
知识点拨
3.线性相关关系
(1)线性相关:如果由变量的成对数据、散点图或直观经验可知,变量x与变量y之间的关系可以近似地用一次函数来刻画,则称x与y线性相关.
(2)正相关:在线性相关中,如果一个变量增大,另一个变量大体上也增大,则称这两个变量正相关.
(3)负相关:在线性相关中,如果一个变量增大,另一个变量大体上减少,则称这两个变量负相关.
名师点析 两个随机变量x和y相关关系的判定方法
(1)散点图法:通过散点图,观察它们的分布是否存在一定规律,直观地判断.
(2)表格、关系式法:结合表格或关系式进行判断.
(3)经验法:借助积累的经验进行分析判断.
激趣诱思
知识点拨
微拓展
(1)散点图具有直观、简洁的特点,它形象地体现了各对数据的密切程度,我们可以根据散点图判断两个变量有没有相关关系.
(2)通过散点图不但可以从点的位置判断测量值的大小、高低、变动范围与趋势,还可以通过观察剔除异常数值,提高估计相关程度的准确性.
(3)当所画的散点图的横坐标与纵坐标所对应的数据差距很大时,可在实际作图时,将横坐标与纵坐标取不同的单位长度,使画出的图像更形象、美观.
激趣诱思
知识点拨
微练习
5个学生的数学成绩和物理成绩如下表:
则数学成绩与物理成绩之间( )
A.是函数关系
B.是相关关系,但相关性很弱
C.具有较好的相关关系,且是正相关
D.具有较好的相关关系,且是负相关
解析:作出散点图(图略),从图上可以看出数学成绩和物理成绩具有较好的相关关系,且是正相关.
答案:C
?
A
B
C
D
E
数学
80
75
70
65
60
物理
70
66
68
64
62
激趣诱思
知识点拨
二、回归直线方程
激趣诱思
知识点拨
激趣诱思
知识点拨
名师点析 求回归直线方程的步骤
第一步:列表;
第四步:写出回归直线方程.
激趣诱思
知识点拨
微练习1
已知x,y的取值如下表所示:
x
2
3
4
y
6
4
5
答案:A
激趣诱思
知识点拨
微练习2
设有一个线性回归方程为y=2-1.5x,则变量x每增加一个单位时( )
A.y平均增加1.5个单位
B.y平均增加2个单位
C.y平均减少1.5个单位
D.y平均减少2个单位
解析:由线性回归方程知,x每增加1个单位,y平均减少1.5个单位.
答案:C
激趣诱思
知识点拨
三、相关系数
1.相关系数r的计算公式
假设两个随机变量的数据分别为(x1,y1),(x2,y2),…,(xn,yn),则变量间相关系数r的计算公式如下:
激趣诱思
知识点拨
2.相关系数r的性质
(1)|r|≤1,且y与x正相关的充要条件是r>0,y与x负相关的充要条件是r<0.
(2)|r|越小,说明两个变量之间的线性相关性越弱,也就是得出的回归直线方程越没有价值,即方程越不能反映真实的情况;|r|越大,说明两个变量之间的线性相关性越强,也就是得出的回归直线方程越有价值.
(3)|r|=1的充要条件是成对数据构成的点都在回归直线上.
激趣诱思
知识点拨
名师点析 (1)相关系数r只能描述两个变量之间的变化方向的密切程度,不能揭示二者之间的本质联系.
(2)判断变量之间的线性相关关系,一般用散点图,但在作图时,由于存在误差,有时很难判断这些点是否分布在一条直线的附近,从而很难判断两个变量之间是否具有线性相关关系,此时一般利用线性相关系数来判断.
(3)相关系数r可以定量地反映出变量间的相关程度,明确有无必要建立两变量间的线性回归方程.
激趣诱思
知识点拨
微练习
对于线性相关系数r,下面叙述正确的是( )
A.|r|∈(0,+∞),|r|越大,相关程度越高,反之,相关程度越低
B.r∈(-∞,+∞),r越大,相关程度越高,反之,相关程度越低
C.|r|≤1,|r|越接近于1,相关程度越高;|r|越接近于0,相关程度越低
D.以上说法都不对
解析:由相关系数性质知,r∈[-1,1],排除A,B;又|r|越接近于1,相关程度越高,|r|越接近于0,相关程度越低,故选C.
答案:C
激趣诱思
知识点拨
四、非线性回归
常见的非线性回归模型转化为线性回归模型
激趣诱思
知识点拨
激趣诱思
知识点拨
微拓展
解决非线性回归问题的方法及步骤
(1)确定变量:确定变量x,变量y.
(2)画散点图:通过观察散点图并与学过的函数(幂函数、指数函数、对数函数、二次函数)作比较,选取拟合效果好的函数模型.
(3)变量置换:通过变量置换把非线性问题转化为线性回归问题.
(4)分析拟合效果:通过计算相关系数等来判断拟合效果.
(5)写出非线性回归方程.
探究一
探究二
探究三
探究四
素养形成
当堂检测
相关关系的判断
例1(1)下列两个变量之间的关系,哪个不是函数关系( )
A.正方体的棱长和体积
B.圆半径和圆的面积
C.正n边形的边数和内角度数之和
D.人的年龄和身高
探究一
探究二
探究三
探究四
素养形成
当堂检测
(2)对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图①;对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图②.由这两个散点图可以判断( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
探究一
探究二
探究三
探究四
素养形成
当堂检测
解析:(1)A,B,C都是函数关系,对于A,V=a3;对于B,S=πr2;对于C,g(n)=(n-2)π.而对于年龄确定的不同的人可以有不同的身高,故选D.
(2)由图像知,变量x与y呈负相关关系;u与v呈正相关关系.
答案:(1)D (2)C
反思感悟 相关关系的判断方法
判断两个变量x和y间是否具有线性相关关系,常用的简便方法就是绘制散点图,如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.
探究一
探究二
探究三
探究四
素养形成
当堂检测
变式训练1某公司2014—2019年的年利润x(单位:百万元)与年广告支出y(单位:百万元)的统计资料如下表所示:
根据统计资料,则( )
A.利润中位数是16,x与y有正线性相关关系
B.利润中位数是18,x与y有负线性相关关系
C.利润中位数是17,x与y有正线性相关关系
D.利润中位数是17,x与y有负线性相关关系
解析:由表知,利润中位数是 ×(16+18)=17,且y随x的增大而增大,故选C.
答案:C
年份
2014
2015
2016
2017
2018
2019
利润x
12.2
14.6
16
18
20.4
22.3
支出y
0.62
0.74
0.81
0.89
1
1.11
探究一
探究二
探究三
探究四
素养形成
当堂检测
求回归直线方程
例2一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,收集数据如下:
(1)y与x是否具有线性相关关系?
(2)如果y与x具有线性相关关系,求y关于x的回归直线方程.
分析画散点图→确定相关关系→求回归直线系数→写回归直线方程
零件数x/个
10
20
30
40
50
60
70
80
90
100
加工时间y/分
62
68
75
81
89
95
102
108
115
122
探究一
探究二
探究三
探究四
素养形成
当堂检测
解:(1)画散点图如下:
由上图可知y与x具有线性相关关系.
探究一
探究二
探究三
探究四
素养形成
当堂检测
(2)列表、计算
探究一
探究二
探究三
探究四
素养形成
当堂检测
反思感悟 1.求回归直线方程的一般步骤
(1)收集样本数据,设为(xi,yi)(i=1,2,…,n)(数据一般由题目给出).
(2)作出散点图,确定x,y具有线性相关关系.
探究一
探究二
探究三
探究四
素养形成
当堂检测
探究一
探究二
探究三
探究四
素养形成
当堂检测
利用回归方程对总体进行估计
例3下表提供了某厂节能降耗技术改进后生产甲产品过程中记录的产量x(单位:吨)与相应的生产能耗y(单位:吨标准煤)的几组对照数据:
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出回归直线方程
(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤,试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?
x
3
4
5
6
y
2.5
3
4
4.5
探究一
探究二
探究三
探究四
素养形成
当堂检测
探究一
探究二
探究三
探究四
素养形成
当堂检测
探究一
探究二
探究三
探究四
素养形成
当堂检测
反思感悟 回归分析的三个步骤
(1)判断两个变量是否线性相关:可以利用经验,也可以画散点图;
(2)求线性回归直线方程,注意运算的正确性;
(3)根据回归直线进行预测估计:估计值不是实际值,两者会有一定的误差.
探究一
探究二
探究三
探究四
素养形成
当堂检测
变式训练2某种产品的广告费支出y(单位:百万元)与销售额x(单位:百万元)之间的关系如下表所示.
(1)假定y与x之间存在线性相关关系,求其回归直线方程;
(2)若广告费支出不少于60百万元,则实际销售额应不少于多少?(结果用整数作答)
x
8
12
14
16
y
5
8
9
11
探究一
探究二
探究三
探究四
素养形成
当堂检测
探究一
探究二
探究三
探究四
素养形成
当堂检测
非线性回归分析
例4下表为收集到的一组数据:
(1)作出x与y的散点图,并猜测x与y之间的关系;
(2)求y关于x的回归方程;
(3)利用所得模型,预测x=40时y的值.
分析画出散点图→确定是否线性相关→确定函数模型→转化为线性模型→求回归方程→进行拟合→进行预测
x
21
23
25
27
29
32
35
y
7
11
21
24
66
115
325
探究一
探究二
探究三
探究四
素养形成
当堂检测
解:(1)作出散点图如图,从散点图可以看出x与y不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数型函数曲线y=c1e????2????的周围,其中c1,c2为待定的参数.
?
探究一
探究二
探究三
探究四
素养形成
当堂检测
(2)对两边取对数把指数关系变为线性关系,令z=ln y,则变换后的样本点应分布在直线z=bx+a(a=ln c1,b=c2)的周围,这样就可以利用线性回归模型来建立y与x之间的非线性回归方程了,数据可以转化为:
x
21
23
25
27
29
32
35
z
1.946
2.398
3.045
3.178
4.190
4.745
5.784
探究一
探究二
探究三
探究四
素养形成
当堂检测
反思感悟 非线性回归问题的处理方法
1.指数函数型y=ebx+a
(1)函数y=ebx+a的图像:
(2)处理方法:两边取对数得ln y=ln ebx+a,即ln y=bx+a.令z=ln y,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b.
探究一
探究二
探究三
探究四
素养形成
当堂检测
2.对数函数型y=bln x+a
(1)函数y=bln x+a的图像:
(2)处理方法:设x'=ln x,原方程可化为y=bx'+a,再根据线性回归模型的方法求出a,b.
3.y=bx2+a型
处理方法:设x'=x2,原方程可化为y=bx'+a,再根据线性回归模型的方法求出a,b.
探究一
探究二
探究三
探究四
素养形成
当堂检测
变式训练3某地区六年来轻工业产品利润总额y与年次x的试验数据如下表所示:
由经验知,年次x与利润总额y(单位:亿元)近似有如下关系:y=abxe0.其中a,b均为正数,求y关于x的回归方程.
x
1
2
3
4
5
6
y
11.35
11.85
12.44
13.07
13.59
14.41
探究一
探究二
探究三
探究四
素养形成
当堂检测
解:对y=abxe0两边取自然对数,得ln y=ln ae0+xln b,令z=ln y,
则z与x的数据如下表:
由z=ln ae0+xln b及最小二乘法公式,得ln b≈0.047 7,ln ae0=2.378,
x
1
2
3
4
5
6
z
2.43
2.47
2.52
2.57
2.61
2.67
探究一
探究二
探究三
探究四
素养形成
当堂检测
规范答题
典例 已知某地平均每单位面积菜地年使用氮肥量x(单位:kg)与平均每单位面积蔬菜年产量y(单位:t)之间的关系如下表:
(1)求y与x之间的相关系数,并判断它们是否线性相关;
(2)若线性相关,求平均每单位面积蔬菜年产量y(t)与平均每单位面积菜地年使用氮肥量x(kg)之间的线性回归方程,并估计平均每单位面积菜地年施氮肥150 kg时,平均每单位面积蔬菜的年产量.
年份
2002
2003
2004
2005
2006
2007
2008
2009
x/kg
70
74
80
78
85
92
90
95
y/t
5.1
6.0
6.8
7.8
9.0
10.2
10.0
12.0
年份
2010
2011
2012
2013
2014
2015
2016
?
x/kg
92
108
115
123
130
138
145
?
y/t
11.5
11.0
11.8
12.2
12.5
12.8
13.0
?
探究一
探究二
探究三
探究四
素养形成
当堂检测
解:(1)根据题中数据,并用科学计算器进行有关计算,列表如下:
探究一
探究二
探究三
探究四
素养形成
当堂检测
探究一
探究二
探究三
探究四
素养形成
当堂检测
方法点睛 回归分析问题的答题模板
第一步:由已知数据求出相关系数r.
第二步:通过与r的临界值比较大小,判断y与x是否线性相关.
第四步:利用回归方程进行预测.
探究一
探究二
探究三
探究四
素养形成
当堂检测
1.以下四个散点图中,两个变量的关系适合用线性回归模型刻画的是( )
A.①② B.①③ C.②③ D.③④
解析:①③中的点分布在一条直线附近,适合线性回归模型.
答案:B
探究一
探究二
探究三
探究四
素养形成
当堂检测
2.(多选)有关线性回归的说法,正确的是( )
A.相关关系的两个变量不是因果关系
B.散点图能直接反映数据的相关程度
C.回归直线最能代表线性相关的两个变量之间的关系
D.任意一组数据都有回归方程
解析:并不是每一组数据都有回归方程.故D不正确,其余均正确.
答案:ABC
探究一
探究二
探究三
探究四
素养形成
当堂检测
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg
解析:D选项中,若该大学某女生身高为170 cm,则可断定其体重约为0.85×170-85.71=58.79(kg).故D选项不正确.
答案:D
探究一
探究二
探究三
探究四
素养形成
当堂检测
4.对具有线性相关关系的变量x和Y,测得一组数据如下表:
若已求得它们的回归直线方程的斜率为6.5,则这条回归直线方程为 .?
x
2
4
5
6
8
Y
30
40
60
50
70
探究一
探究二
探究三
探究四
素养形成
当堂检测
5.如图有5组数据,去掉点 后,剩下的4组数据的线性相关性更强.?
答案:D