人教A版(2019)高中数学 选择性必修第三册 8.2 一元线性回归模型及其应用课件+学案含练习

文档属性

名称 人教A版(2019)高中数学 选择性必修第三册 8.2 一元线性回归模型及其应用课件+学案含练习
格式 zip
文件大小 6.7MB
资源类型 教案
版本资源 人教A版(2019)
科目 数学
更新时间 2020-12-18 10:30:43

文档简介

第二课时 非线性回归模型及其应用
课标要求
素养要求
1.进一步掌握一元线性回归模型参数的统计意义,会用相关统计软件.2.了解非线性回归模型.3.会通过分析残差和利用R2判断回归模型的拟合效果.
通过学习回归模型的应用,提升数学运算及数据分析素养.
新知探究
在实际问题中,有时两个变量之间的关系并不是线性关系,这就需要运用散点图选择适当的函数模型来拟合观测数据,然后通过适当的变量代换,把非线性问题转化为线性问题,从而确定未知参数,建立相应的线性回归方程.
问题 具有相关关系的两个变量的线性回归方程为=x+.预测值与真实值y一样吗?预测值与真实值y之间误差大了好还是小了好?
提示 不一定;越小越好.
1.残差的概念
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
2.刻画回归效果的方式
(1)残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.
(2)残差平方和法
残差平方和
(yi-i)2,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.
(3)利用R2刻画回归效果
决定系数R2是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.
R2=1-,R2越大,即拟合效果越好,R2越小,模型拟合效果越差.
拓展深化
[微判断]
1.残差平方和越接近0,
线性回归模型的拟合效果越好.(√)
2.在画两个变量的散点图时,
响应变量在x轴上,解释变量在y轴上.(×)
提示 在画两个变量的散点图时,
响应变量在y轴上,解释变量在x轴上.
3.R2越小,
线性回归模型的拟合效果越好.(×)
提示 R2越大,
线性回归模型的拟合效果越好.
[微训练]
1.在残差分析中,
残差图的纵坐标为__________.
答案 残差
2.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的决定系数R2分别如下表:




R2
0.98
0.78
0.50
0.85
哪位同学建立的回归模型拟合效果最好?
解 R2越大,表示回归模型的拟合效果越好,故甲同学建立的回归模型拟合效果最好.
[微思考]
在使用经验回归方程进行预测时,需要注意哪些问题?
提示 (1)经验回归方程只适用于所研究的样本的总体;(2)所建立的经验回归方程一般都有时效性;(3)解释变量的取值不能离样本数据的范围太远.一般解释变量的取值在样本数据范围内,经验回归方程的预报效果好,超出这个范围越远,预报的效果越差;(4)不能期望经验回归方程得到的预报值就是响应变量的精确值.
题型一 线性回归分析
【例1】 已知某种商品的价格x(单位:元/件)与需求量y(单位:件)之间的关系有如下一组数据:
x
14
16
18
20
22
y
12
10
7
5
3
求y对x的回归直线方程,并说明回归模型拟合效果的好坏.
解 =(14+16+18+20+22)=18,
=(12+10+7+5+3)=7.4,
x=142+162+182+202+222=1
660,
xi
yi=14×12+16×10+18×7+20×5+22×3=620,
所以=eq
\f(\o(∑,\s\up10(5),\s\do10(i=1))xiyi-5\a\vs4\al(\o(x,\s\up6(-))
)\a\vs4\al(\o(y,\s\up6(-))
),\o(∑,\s\up10(5),\s\do10(i=1))x-5\o(x,\s\up6(-))2)==-1.15,
=7.4+1.15×18=28.1,
所以所求回归直线方程是=-1.15x+28.1.
列出残差表:
yi-i
0
0.3
-0.4
-0.1
0.2
yi-
4.6
2.6
-0.4
-2.4
-4.4
所以
(yi-i)2=0.3,
(yi-)2=53.2,
R2=1-≈0.994,
所以回归模型的拟合效果较好.
规律方法 (1)解答线性回归问题,应通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.
(2)刻画回归效果的三种方法
①残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.
②残差平方和法:残差平方和
(yi-i)2越小,模型的拟合效果越好.
③决定系数法:R2=1-越接近1,表明回归的效果越好.
【训练1】 某地区2011年到2017年农村居民家庭人均纯收入y(单位:千元)的数据如下表:
年份
2011
2012
2013
2014
2015
2016
2017
年份代号t
1
2
3
4
5
6
7
人均纯收入y
2.9
3.3
3.6
4.4
4.8
5.2
5.9
(1)求y关于t的线性回归方程;
(2)利用(1)中的回归方程,分析2011年到2017年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2020年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘估计公式分别为

(1)由所给数据计算得
=×
(1+2+3+4+5+6+7)=4,
=×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,
(ti-)2
=9+4+1+0+1+4+9=28,
(ti-)
(yi-)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,
=eq
\f((ti-)
(yi-),(ti-)2)
==0.5,
=-
=4.3-0.5×4=2.3,
所以所求回归方程为=0.5t+2.3.
(2)由(1)知=0.5>0,故2011年到2017年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2020年的年份代号t=10代入(1)中的回归方程,得=0.5×10+2.3=7.3.故预测该地区2020年农村居民家庭人均纯收入为7.3千元.
题型二 残差分析与相关指数的应用
【例2】 假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得5组数据如下:
x
15.0
25.8
30.0
36.6
44.4
y
39.4
42.9
42.9
43.1
49.2
(1)以x为解释变量,y为预报变量,作出散点图;
(2)求y与x之间的回归方程,对于基本苗数56.7预报有效穗;
(3)计算各组残差,并计算残差平方和;
(4)求R2,并说明(2)中求出的回归模型的拟合程度.
解 (1)散点图如下.
(2)由(1)中散点图看出,样本点大致分布在一条直线的附近,有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.
设回归方程为=x+,又=30.36,=43.5,
x=5
101.56,
=1
320.66,2=921.729
6,
xiyi=6
746.76.
则=eq
\f(\o(∑,\s\up10(5),\s\do10(i=1))xiyi-5\a\vs4\al(\o(x,\s\up6(-))
)\a\vs4\al(\o(y,\s\up6(-))
),\o(∑,\s\up10(5),\s\do10(i=1))x-5\o(x,\s\up6(-))2)≈0.29,=-
≈34.70.
故所求的回归直线方程为=0.29x+34.70.
当x=56.7时,=0.29×56.7+34.70=51.143.
故估计成熟期有效穗为51.143.
(3)由i=xi+,可以算得i=yi-i分别为1=0.35,2=0.718,3=-0.5,4=-2.214,5=1.624,残差平方和:
≈8.43.
(4)
(yi-)2=50.18,故R2≈1-≈0.832.所以(2)中求出的回归模型的效果较好.
规律方法 (1)利用残差分析研究两个变量间的关系时,首先要根据散点图来判断它们是否线性相关,是否可以用线性回归模型来拟合数据,然后通过残差1,2,…,n来判断模型拟合的效果.
(2)若残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合度越高,回归方程预报精确度越高.
【训练2】 为研究质量x(单位:g)对弹簧长度y(单位:cm)的影响,对不同质量的6个物体进行测量,数据如下表:
x
5
10
15
20
25
30
y
7.25
8.12
8.95
9.90
10.9
11.8
(1)作出散点图并求回归直线方程;
(2)求出R2并说明回归模型拟合的程度;
(3)进行残差分析.
解 (1)散点图如图所示.
样本点分布在一条直线附近,y与x具有线性相关关系.
由表中数据,得=×(5+10+15+20+25+30)
=17.5,
=×(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,
x=
2
275,xiyi=1
076.2.
计算得≈0.183,≈6.285.
故所求回归直线方程为=6.285+0.183x.
(2)列表如下:
yi-i
0.05
0.005
-0.08
-0.045
0.04
0.025
yi-
-2.237
-1.367
-0.537
0.413
1.413
2.313
可得
(yi-i)2≈0.013
18,
(yi-)2≈14.678
3.
所以R2=1-≈0.999
1,回归模型的拟合效果较好.
(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正错误,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在宽度不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与所挂物体的质量成线性关系.
题型三 非线性回归分析
【例3】 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(xi-)2
(wi-)2
(xi-)·(yi-)
(wi-)·(yi-)
46.6
563
6.8
289.8
1.6
1
469
108.8
表中wi=,=wi.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.
根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线=+u的斜率和截距的最小二乘估计分别为
=,=-.
解 (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程.
由于===68,
=-=563-68×6.8=100.6,
所以y关于w的线性回归方程为=100.6+68w,
因此y关于x的回归方程为=100.6+68.
(3)①由(2)知,当x=49时,
年销售量y的预报值=100.6+68=576.6(t),
年利润z的预报值=576.6×0.2-49=66.32(千元).
②根据(2)的结果知,年利润z的预报值
=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,
即x=46.24时,取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
规律方法 求非线性回归方程的步骤
(1)确定变量,作出散点图.
(2)根据散点图,选择恰当的拟合函数.
(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.
(4)分析拟合效果:通过计算决定系数或画残差图来判断拟合效果.
(5)根据相应的变换,写出非线性回归方程.
【训练3】 下表为收集到的一组数据:
x
21
23
25
27
29
32
35
y
7
11
21
24
66
115
325
(1)作出x与y的散点图,并猜测x与y之间的关系;
(2)建立x与y的关系,预报回归模型并计算残差;
(3)利用所得模型,预报x=40时y的值.
解 (1)作出散点图如下图,从散点图可以看出x与y不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数函数曲线y=c1ec2x的周围,其中c1,c2为待定的参数.
(2)对y=c1ec2x两边取对数,得ln
y=ln
c1+c2x,令z=ln
y,则有变换后的样本点应分布在直线z=bx+a(a=ln
c1,b=c2)的周围,这样就可以利用线性回归模型来建立y与x之间的非线性回归方程了,数据可以转化为
x
21
23
25
27
29
32
35
z
1.946
2.398
3.045
3.178
4.190
4.745
5.784
求得回归直线方程为=0.272x-3.849,
∴=e0.272x-3.849.
残差
yi
7
11
21
24
66
115
325
i
6.443
11.101
19.125
32.950
56.770
128.381
290.325
i
0.557
-0.101
1.875
-8.950
9.23
-13.381
34.675
(3)当x=40时,=e0.272×40-3.849≈1
131.
一、素养落地
1.通过本节课的学习,进一步提升数学运算及数据分析素养.
2.当根据给定的样本数据得到的散点图并不是分布在一条直线附近时,就不能直接求其回归直线方程了,这时可根据得到的散点图,选择一种拟合得最好的函数,常见的函数有幂函数、指数函数、对数函数等,然后进行变量置换,将问题转化为线性回归分析问题.
二、素养训练
1.下列两个变量之间的关系不是函数关系的是(  )
A.角度和它的余弦值
B.正方形的边长和面积
C.正n边形的边数和内角度数和
D.人的年龄和身高
解析 函数关系就是变量之间的一种确定性关系.A,B,C三项中的两个变量之间都是函数关系,可以写出相应的函数表达式,分别为f(θ)=cos
θ,g(a)=a2,h(n)=(n-2)π.D选项中的两个变量之间不是函数关系,对于年龄确定的人群,仍可以有不同的身高,故选D.
答案 D
2.(多选题)关于残差图的描述正确的是(  )
A.残差图的横坐标可以是样本编号
B.残差图的横坐标也可以是解释变量或预报变量
C.残差点分布的带状区域的宽度越窄相关指数越小
D.残差点分布的带状区域的宽度越窄残差平方和越小
解析 残差点分布的带状区域的宽度越窄,说明模型拟合精度越高,则残差平方和越小,此时,R2的值越大,故描述错误的是C.
答案 ABD
3.某产品在某零售摊位的零售价x(单位:元)与每天的销售量y(单位:个)的统计资料如下表所示:
x
16
17
18
19
y
50
34
41
31
由上表可得回归直线方程=x+中的=-5,据此模型预测当零售价为14.5元时,每天的销售量为(  )
A.51个
B.50个
C.54个
D.48个
解析 由题意知=17.5,=39,代入回归直线方程得=126.5,126.5-14.5×5=54,故选C.
答案 C
4.在研究硝酸钠的溶解度时,观察它在不同温度(x)的水中溶解度(y)的结果如下表:
温度x
0
10
20
50
70
溶解度y
66.7
76.0
85.0
112.3
128.0
由此得到回归直线的斜率是__________.
解析 =(0+10+20+50+70)=30,
=(66.7+76.0+85.0+112.3+128.0)=93.6,
由公式=可得≈0.880
9.
答案 0.880
9
5.在一次抽样调查中测得样本的5个样本点,数值如下表:
x
0.25
0.5
1
2
4
y
16
12
5
2
1
试建立y与x之间的回归方程.
解 由数值表可作散点图如图,
根据散点图可知y与x近似地呈反比例函数关系,
设=,令t=,则=kt,原数据变为:
t
4
2
1
0.5
0.25
y
16
12
5
2
1
由置换后的数值表作散点图如下:
由散点图可以看出y与t呈近似的线性相关关系,列表如下:
I
ti
yi
tiyi
t
1
4
16
64
16
2
2
12
24
4
3
1
5
5
1
4
0.5
2
1
0.25
5
0.25
1
0.25
0.062
5

7.75
36
94.25
21.312
5
所以=1.55,=7.2.
所以=eq
\f(\o(∑,\s\up10(5),\s\do10(i=1))tiyi-5\a\vs4\al(\o(t,\s\up6(-))
)\a\vs4\al(\o(y,\s\up6(-))
),\o(∑,\s\up10(5),\s\do10(i=1))t-5\o(t,\s\up6(-))2)≈4.134
4,
=-≈0.8.
所以=4.134
4t+0.8.
所以y与x之间的回归方程是
=+0.8.
基础达标
一、选择题
1.已知某地财政收入x与支出y满足回归方程=x++ei(单位:亿元)(i=1,2,…),其中=0.8,=2,|ei|<0.5,如果今年该地区财政收入10亿元,年支出预计不会超过(  )
A.10亿元
B.9亿元
C.10.5亿元
D.9.5亿元
解析 =0.8×10+2+ei=10+ei,
∵|ei|<0.5,∴9.5<<10.5.
答案 C
2.对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是(  )
解析 用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.
答案 A
3.在回归分析中,R2的值越大,说明残差平方和(  )
A.越大
B.越小
C.可能大也可能小
D.以上均错
解析 因为R2=1-,所以当R2越大时,
(yi-i)2越小,即残差平方和越小.
答案 B
4.若一函数模型为y=sin2α+2sin
α+1,为将y转化为t的回归直线方程,则需作变换t等于(  )
A.sin2
α
B.(sin
α+1)2
C.
D.以上都不对
解析 因为y是关于t的回归直线方程,实际上即y是关于t的一次函数,又因为y=(sin
α+1)2,若令t=(sin
α+1)2,则可得y与t的函数关系式为y=t,此时变量y与变量t是线性相关关系.
答案 B
5.甲、乙、丙、丁4位同学各自对A,B两变量进行回归分析,分别得到散点图与残差平方和
(yi-i)2如下表:




散点图
残差平方和
115
106
124
103
哪位同学的试验结果体现拟合A,B两变量关系的模型拟合精度高(  )
A.甲
B.乙
C.丙
D.丁
解析 根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小(对于已经获取的样本数据,R2的表达式中
(yi-)2为确定的数,则残差平方和越小,R2越大),由回归分析建立的线性回归模型的拟合效果越好,由试验结果知丁要好些.
答案 D
二、填空题
6.某种产品的广告支出费用x(单位:万元)与销售额y(单位:万元)的数据如下表:
x
2
4
5
6
8
y
30
40
60
50
70
已知y关于x的线性回归方程为=6.5x+17.5,则当广告支出费用为5万元时,残差为__________万元.
解析 当x=5时,=6.5×5+17.5=50,表格中对应y=60,于是残差为60-50=10(万元).
答案 10
7.某商场为了了解某品牌羽绒服的月销售量(单位:件)与月平均气温x(单位:℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,数据如下表:
月平均气温x/℃
17
13
8
2
月销售量y/件
24
33
40
55
由表中数据算出线性回归方程=x+中的≈-2.气象部门预测下个月的平均气温约为6
℃,据此估计,该商场下个月该品牌羽绒服的销售量的件数约为________.
解析 由表格中数据可得==10,
==38.
又∵≈-2,∴=-
≈38+2×10=58,
∴=-2x+58.当x=6时,=-2×6+58=46.
答案 46
8.在研究气温和热茶销售杯数的关系时,若求得决定系数R2≈0.85,则表明气温解释了__________的热茶销售杯数变化,而随机误差贡献了剩余的__________,所以气温对热茶销售杯数的效应比随机误差的效应大得多.
解析 由决定系数R2的意义可知,R2≈0.85表明气温解释了85%,而随机误差贡献了剩余的15%.
答案 85% 15%
三、解答题
9.从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得xi=80,yi=20,xiyi=184,x=720.
(1)求家庭的月储蓄y关于月收入x的线性回归方程=x+;
(2)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.
解 (1)由题意知n=10,=xi=×80=8,
=yi=×20=2,
所以=eq
\f(\o(∑,\s\up10(10),\s\do10(i=1))xiyi-n\a\vs4\al(\o(x,\s\up6(-))
)\a\vs4\al(\o(y,\s\up6(-))
),\o(∑,\s\up10(10),\s\do10(i=1))x-n\o(x,\s\up6(-))2)===0.3,
=-=2-0.3×8=-0.4,
故所求线性回归方程为=0.3x-0.4.
(2)将x=7代入回归方程,可以预测家庭的月储蓄约为=0.3×7-0.4=1.7(千元).
10.为了研究甲型H1N1中的某种细菌随时间x变化的繁殖个数y,收集数据如下:
天数x
1
2
3
4
5
6
繁殖个数y
6
12
25
49
95
190
求y对x的回归方程.
解 作出散点图如图(1)所示.
由散点图看出样本点分布在一条指数型曲线y=cebx的周围,则ln
y=bx+ln
c.
令z=ln
y,a=ln
c,则z=bx+a.
x
1
2
3
4
5
6
z
1.79
2.48
3.22
3.89
4.55
5.25
相应的散点图如图(2)所示.从图(2)可以看出,变换后的样本点分布在一条直线附近,因此可以用线性回归方程来拟合.由表中数据得到线性回归方程为=0.69x+1.112.因此细菌的繁殖个数对温度的非线性回归方程为=e0.69x+1.112.
能力提升
11.若对于变量x,y的10组统计数据的回归模型中,计算R2=0.95,又知残差平方和为120.55,那么
(yi-)2的值为(  )
A.241.1
B.245.1
C.2
411
D.2
451
解析 由题意知残差平方和
(yi-i)2=120.55,又R2=1-=0.95,所以
(yi-)2=2
411.
答案 C
12.某电容器充电后,电压达到100
V,然后开始放电,由经验知道,此后电压U随时间t变化的规律用公式U=Aebt(b<0)表示,现测得时间t(s)时的电压U(V)如下表:
t/s
0
1
2
3
4
5
6
7
8
9
10
U/V
100
75
55
40
30
20
15
10
10
5
5
试求:电压U对时间t的回归方程(提示 对公式两边取自然对数,把问题转化为线性回归分析问题).
解 对U=Aebt两边取对数得ln
U=ln
A+bt,令y=ln
U,a=ln
A,x=t,则y=a+bx,y与x的对应数据如下表:
x
0
1
2
3
4
5
6
7
8
9
10
y
4.6
4.3
4.0
3.7
3.4
3.0
2.7
2.3
2.3
1.6
1.6
根据表中数据画出散点图,如图所示,从图中可以看出,y与x具有较好的线性相关关系,由表中数据求得=5,≈3.045,由公式计算得≈-0.313,=-=4.61,所以y对x的线性回归方程为=-0.313x+4.61.
所以ln
=-0.313t+4.61,即=e-0.313t+4.61=e-0.313t·e4.61,因此电压U对时间t的回归方程为=e-0.313t·e4.61.
创新猜想
13.(多选题)如图四个散点图中,适合用线性回归模型拟合其中两个变量关系的是(  )
A.①
B.②
C.③
D.④
解析 由图易知①③两个图中样本点在一条直线附近,因此适合用线性回归模型.
答案 AC
14.(多选题)下列说法正确的是(  )
A.残差的绝对值越小,回归方程的拟合效果越好
B.残差平方和越小,决定系数R2越大
C.决定系数R2可以大于1
D.通过经验回归方程得到的预报值是响应变量的可能取值的平均值,不一定是响应变量的精确值
解析 R2的计算公式,知B正确,C错误;A,D均正确.
答案 ABD8.2 一元线性回归模型及其应用
8.2.1 一元线性回归模型
8.2.2 一元线性回归模型参数的最小二乘估计
第一课时 一元线性回归模型及其参数的最小二乘估计
课标要求
素养要求
1.结合具体实例,了解一元线性回归模型的含义.2.了解模型参数的统计意义,了解最小二乘原理.
通过学习一元线性回归模型的含义,体会数学抽象及数据分析素养.
新知探究
 恩格尔系数(Engel’s
Coefficient)是根据恩格尔定律得出的比例数,指居民家庭中食物支出占消费总支出的比重,是表示生活水平高低的一个指标.其计算公式:恩格尔系数=食物支出金额÷总支出金额.
一个家庭收入越少,家庭收入中或者家庭总支出中用来购买食物的支出所占的比例就越大,随着家庭收入的增加,家庭收入中或者家庭支出中用来购买食物的支出所占比例将会下降.
问题 恩格尔系数是预测生活水平高低的一个模型,那么当两个变量线性相关时,我们如何对成对样本数据建立一个模型进行预测?
提示 为了对两个变量线性相关关系进行预测,我们通常建立一元线性回归模型进行预测.
1.一元线性回归模型
我们称
为Y关于x的一元线性回归模型,其中Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
2.线性回归方程与最小二乘法
回归直线方程过样本点的中心(,),是回归直线方程最常用的一个特征
我们将=x+称为Y关于x的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计(least
squares
estimate
),
其中
拓展深化
[微判断]
1.两个变量之间产生随机误差的原因仅仅是因为测量工具产生的误差.(×)
提示 产生随机误差的原因有多种,测量工具和测量精度仅仅是其中的一个方面.
2.线性回归方程最能代表观测值x,y之间的线性关系,且回归直线过样本点的中心(,).(√)
[微训练]
1.(多选题)下列有关回归直线方程=x+叙述正确的是(  )
A.反映与x之间的函数关系
B.反映y与x之间的函数关系
C.表示与x之间不确定关系
D.表示最接近y与x之间真实关系的一条直线
解析 =x+表示与x之间的函数关系,而不是y与x之间的函数关系,但它反映的关系最接近y与x之间的真实关系,∴选AD.
答案 AD
2.某地区近十年居民的年收入x与支出y之间的关系大致符合=0.8x+0.1(单位:亿元),预计今年该地区居民收入为15亿元,则年支出估计是__________亿元.
解析 ∵=0.8x+0.1,
∴=0.8×15+0.1=12.1(亿元).
答案 12.1
[微思考]
1.任何一组数据都可以由最小二乘法得出回归直线方程吗?
提示 用最小二乘法求回归直线方程的前提是先判断所给数据具有线性相关关系(可利用散点图来判断),否则求出的回归直线方程无意义.
2.根据=-及回归直线方程=x+,判断点(,)与回归直线的关系是什么?
提示 由=-得=+,因此点(,)在回归直线上.
题型一 求回归直线方程
【例1】 某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:
x
6
8
10
12
y
2
3
5
6
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+;
(3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.
解 (1)如图:
样本点分布在一条直线附近,y与x具有线性相关关系.
(2)xiyi=6×2+8×3+10×5+12×6=158,
==9,
==4,
(2)xiyi=6×2+8×3+10×5+12×6=158,
x=62+82+102+122=344,
===0.7,
=-=4-0.7×9=-2.3,
故线性回归方程为=0.7x-2.3.
(3)由(2)中线性回归方程可知,当x=9时,=0.7×9-2.3=4,故预测记忆力为9的同学的判断力约为4.
规律方法 求线性回归方程的一般步骤
(1)收集样本数据,设为(xi,yi)(i=1,2,…,n)(数据一般由题目给出).
(2)作出散点图,确定x,y具有线性相关关系.
(3)把数据制成表格xi,yi,x,xiyi.
(4)计算,,x,xiyi.
(5)代入公式计算,,公式为eq
\b\lc\{(\a\vs4\al\co1(\o(b,\s\up6(^))=\f(\o(∑,\s\up10(n),\s\do10(i=1))xiyi-n\a\vs4\al(\o(x,\s\up6(-))
)\a\vs4\al(\o(y,\s\up6(-))
),\o(∑,\s\up10(n),\s\do10(i=1))x-n\o(x,\s\up6(-))2),,\o(a,\s\up6(^))=\o(y,\s\up6(-))-\o(b,\s\up6(^))\o(x,\s\up6(-)).))
(6)写出线性回归方程=x+.
【训练1】 某种产品的广告费支出x(单位:百万元)与销售额y(单位:百万元)之间有如下对应数据:
x
2
4
5
6
8
y
30
40
60
50
70
(1)画出散点图;
(2)求回归直线方程.
解 (1)散点图如图所示.
样本点分布在一条直线附近,y与x具有线性相关关系.
(2)列出下表,并用科学计算器进行有关计算.
i
1
2
3
4
5
xi
2
4
5
6
8
yi
30
40
60
50
70
xiyi
60
160
300
300
560
x
4
16
25
36
64
=5,=50,x=145,xiyi=1
380
于是可得,=eq
\f(\o(∑,\s\up10(5),\s\do10(i=1))xiyi-5\a\vs4\al(\o(x,\s\up6(-))
)\a\vs4\al(\o(y,\s\up6(-))
),\o(∑,\s\up10(5),\s\do10(i=1))x-5\o(x,\s\up6(-))2)==6.5,=-=50-6.5×5=17.5.
于是所求的回归直线方程是=6.5x+17.5.
题型二 利用回归直线方程对总体进行估计
【例2】 一台机器按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点的零件的多少随机器运转速度的变化而变化,下表为抽样试验的结果:
转速x(转/秒)
16
14
12
8
每小时生产有缺点的零件数y(件)
11
9
8
5
(1)画出散点图;
(2)如果y与x有线性相关关系,请画出一条直线近似地表示这种线性关系;
(3)在实际生产中,若它们的近似方程为y=x-,允许每小时生产的产品中有缺点的零件最多为10件,那么机器的运转速度应控制在什么范围内?
解 (1)散点图如图所示:
(2)近似直线如图所示:
(3)由y≤10得x-≤10,解得x≤14.9,所以机器的运转速度应控制在14转/秒内.
【迁移1】 (变条件,变设问)本例中近似方程不变,若每增加一个单位的转速,生产有缺点的零件数近似增加多少?
解 因为y=x-,所以当x增加一个单位时,y大约增加,即每增加一个单位的转速,生产有缺点的零件数近似增加1个.
【迁移2】 (变条件,变设问)本例中近似方程不变,每小时生产有缺点的零件件数是7,估计机器的转速.
解 因为y=x-,所以当y=7时,7=x-,解得x≈11,即估计机器的转速约为11转/秒.
规律方法 本题已知y与x是线性相关关系,所以可求出回归方程进行估计和预测.否则,若两个变量不具备相关关系或它们之间的相关关系不显著,即使求出回归方程也毫无意义.
【训练2】 某车间为了规定工时定额,需要确定加工零件所花费的时间,为此做了四次实验,得到的数据如下:
零件的个数x(个)
2
3
4
5
加工的时间y(h)
2.5
3
4
4.5
(1)已知零件个数与加工时间线性相关,求出y关于x的线性回归方程;
(2)试预测加工10个零件需要多少时间?
解 (1)由表中数据,得xiyi=2×2.5+3×3+4×4+5×4.5=52.5,
x=22+32+42+52=54,
==3.5,
==3.5.
∴==0.7.
∴=-=3.5-0.7×3.5=1.05.
∴y关于x的线性回归方程为=0.7x+1.05.
(2)加工10个零件时,大约需要0.7×10+1.05=8.05(小时).
一、素养落地
1.通过本节课的学习,提升数学抽象素养及数据分析素养.
2.求线性回归方程时应注意的问题
(1)知道x与y成线性相关关系,无需进行相关性检验,否则应首先进行相关性检验.如果两个变量之间本身不具有相关关系,或者说它们之间的相关关系不显著,即使求出线性回归方程也是毫无意义的,而且用其估计和预测的量也是不可信的.
(2)用公式计算,的值时,要先计算,然后才能算出.
3.利用回归方程,我们可以进行估计和预测.若回归方程为=x+,则在x=x0处的估计值为0=x0+
.
二、素养训练
1.工人工资y(元)与劳动生产率x(千元)的线性回归方程为=50+80x,下列判断正确的是(  )
A.劳动生产率为1
000元时,工人工资为130元
B.劳动生产率提高1
000元时,工人工资平均提高80元
C.劳动生产率提高1
000元时,工人工资平均提高130元
D.当月工资为250元时,劳动生产率为2
000元
解析 因为回归直线的斜率为80,所以x每增加1,y平均增加80,即劳动生产率提高1
000元时,工人工资平均提高80元.
答案 B
2.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是(  )
A.y与x具有正的线性相关关系
B.回归直线过样本点中心(,)
C.若该大学某女生身高增加1
cm,则其体重约增加0.85
kg
D.若该大学某女生身高为170
cm,则可断定其体重必为58.79
kg
解析 当x=170时,=0.85×170-85.71=58.79,体重的估计值为58.79
kg.
答案 D
3.设有一个回归方程为=-1.5x+2,则变量x增加一个单位时(  )
A.y平均增加1.5个单位
B.y平均增加2个单位
C.y平均减少1.5个单位
D.y平均减少2个单位
解析 ∵两个变量线性负相关,∴变量x增加一个单位,y平均减少1.5个单位.
答案 C
4.已知回归直线的斜率的估计值是1.23,且过定点(4,5),则线性回归方程是__________.
解析 回归直线的斜率的估计值为1.23,即=1.23,
又回归直线过定点(4,5),∴=5-1.23×4=0.08,
∴=1.23x+0.08.
答案 =1.23x+0.08
5.某产品的广告费用x(单位:万元)与销售额y(单位:万元)的统计数据如下表:
广告费用x/万元
3
4
5
6
销售额y/万元
25
30
40
45
根据上表可得回归直线方程=x+中的为7,据此模型,若广告费用为10万元,则预计销售额为________万元.
解析 由题意得==4.5,
==35.
∵回归直线方程=x+中=7,∴35=7×4.5+,解得=3.5,
∴=7x+3.5.
∴当x=10时,=7×10+3.5=73.5(万元).
答案 73.5
基础达标
一、选择题
1.某商品销售量y(件)与销售价格x(元/件)负相关,则其线性回归方程可能是(  )
A.=-10x+200
B.=10x+200
C.=-10x-200
D.=10x-200
解析 x的系数为负数,表示负相关,排除B,D;由实际意义可知x>0,y>0,显然C不满足,故选A.
答案 A
2.根据如下样本数据得到的回归方程为=x+,则(  )
x
3
4
5
6
7
8
y
4.0
2.5
-0.5
0.5
-2.0
-3.0
A.>0,>0
B.>0,<0
C.<0,>0
D.<0,<0
解析 画出散点图,知>0,<0.
答案 B
3.已知x与y之间的一组数据:
x
0
1
2
3
y
1
3
5
7
若y与x线性相关,则y与x的回归直线=x+必过(  )
A.点(2,2)
B.点(1.5,0)
C.点(1,2)
D.点(1.5,4)
解析 ∵==1.5,==4,
∴回归直线必过点(1.5,4).故选D.
答案 D
4.已知x与y之间的一组数据:
x
0
1
2
3
y
m
3
5.5
7
已求得关于y与x的线性回归方程为=2.2x+0.7,则m的值为(  )
A.1
B.0.85
C.0.7
D.0.5
解析 ==1.5,==,将其代入=2.2x+0.7,可得m=0.5,故选D.
答案 D
5.已知表中y与x之间的线性回归方程是=x+5.25,则等于(  )
x
1
2
3
4
y
4.5
4
3
2.5
A.-0.5
B.-0.6
C.-0.7
D.-0.8
解析 由表中数据,得==2.5,==3.5,故回归直线=x+5.25经过样本点的中心(2.5,3.5),得3.5=2.5+5.25,解得=-0.7,故选C.
答案 C
二、填空题
6.在一次试验中测得(x,y)的四组数据如下:
x
16
17
18
19
y
50
34
41
31
根据上表可得线性回归方程=-5x+,据此模型预报当x=20时,的值为__________.
解析 ==17.5,
==39,
∴回归直线过点(17.5,39),
∴39=-5×17.5+,
∴=126.5,
∴当x=20时,=-5×20+126.5=26.5.
答案 26.5
7.某工厂对某产品的产量与成本的资料分析后有如下数据:
产量x(千件)
2
3
5
6
成本y(万元)
7
8
9
12
由表中数据得到的线性回归方程=x+中=1.1,则预测当产量为9千件时,成本约为__________万元.
解析 由表中数据得=4,=9,代入线性回归方程解得=4.6,∴当x=9时,=1.1×9+4.6=14.5.
答案 14.5
8.期中考试后,某校高三(9)班对全班65名学生的成绩进行分析,得到数学成绩y对总成绩x的回归方程为=6+0.4x.由此可以估计:若两个同学的总成绩相差50分,则他们的数学成绩大约相差__________分.
解析 令两人的总成绩分别为x1,x2,
则对应的数学成绩估计为
1=6+0.4x1,2=6+0.4x2,
所以|1-2|=|0.4(x1-x2)|=0.4×50=20.
答案 20
三、解答题
9.某单位为了了解用电量y度与气温x
℃之间的关系随机统计了某4天的用电量与当天气温如下表:
气温(℃)
14
12
8
6
用电量
22
26
34
38
(1)求用电量y与气温x的线性回归方程;
(2)由(1)的方程预测气温为5
℃时,用电量的度数.
解 (1)由题意知样本值n=4,=10,=30,则

==
=-2,
=-=30-(-2)×10=50,
所以线性回归方程为=-2x+50.
(2)令(1)中的回归方程中x=5,代入方程得=40,所以预测当气温是5
℃时,用电量是40度.
10.有人统计了同一个省的6个城市某一年的人均国民生产总值(即人均GDP)x(单位:万元)和这一年这6个城市患白血病的儿童数量y(单位:人),如下表:
人均GDP
x/万元
10
8
6
4
3
1
患白血病的儿童数y/人
351
312
207
175
132
180
(1)画出散点图,并判定这两个变量是否具有线性相关关系;
(2)通过计算可知这两个变量的回归直线方程为=23.25x+102.15,假如一个城市的人均GDP为12万元,那么可以断言,这个城市患白血病的儿童一定超过380人,请问这个断言是否正确?
解 (1)根据表中数据画散点图,如图所示.
从图中可以看出,在6个点中,虽然第一个点离这条直线较远,但其余5个点大致分布在这条直线的附近,所以这两个变量具有线性相关关系.
(2)上述断言是错误的.将x=12代入=23.25x+102.15得=23.25×12+102.15=381.15>380,但381.15
是对该城市人均GDP为12万元的情况下所作的一个估计,该城市患白血病的儿童可能超过380人,也可能低于380人.
能力提升
11.在2020年5月1日,某市物价部门对本市的5家商场某商品的一天销售量及其价格进行了调查,5家商场的售价x元和销售量y件之间的一组数据如下表所示:
价格x(元)
9
9.5
10
10.5
11
销售量y(件)
11
10
8
6
5
由散点图可知,销售量y与价格x之间有较好的线性相关关系,其线性回归直线方程是:=-3.2x+,则=(  )
A.-24
B.35.6
C.40.5
D.40
解析 价格的平均数是==10,销售量的平均数是==8,将(10,8)代入回归方程=-3.2x+,得8=-3.2×10+,∴=8+3.2×10=40,故选D.
答案 D
12.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元)
8
8.2
8.4
8.6
8.8
9
销量y(件)
90
84
83
80
75
68
(1)求回归直线方程=x+,其中=-20;
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,若该产品的成本是4元/件,则为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)
解 (1)由于=(8+8.2+8.4+8.6+8.8+9)=8.5,
=(90+84+83+80+75+68)=80,
所以=-=80+20×8.5=250,
从而回归直线方程为=-20x+250.
(2)设工厂获得的利润为L元,依题意得
L=x(-20x+250)-4(-20x+250)
=-20x2+330x-1
000
=-20(x-8.25)2+361.25.
当且仅当x=8.25时,L取得最大值,
故当单价定为8.25元时,工厂可获得最大利润.
创新猜想
13.(多选题)某公司过去五个月的广告费支出x(单元:万元)与销售额y(单位:万元)之间有下列对应数据:
x
2
4
5
6
8
y

40
60
50
70
工作人员不慎将表格中y的第一个数据丢失.已知y对x呈线性相关关系,且回归方程为=6.5x+17.5,则下列说法正确的是(  )
A.销售额y与广告费支出x正相关;
B.丢失的数据(表中▲处)为30;
C.该公司广告费支出每增加1万元,销售额一定增加6.5万元;
D.若该公司下月广告费支出为8万元,则销售额约为75万元.
解析 由回归直线方程为=6.5x+17.5,可知=6.5,则销售额y与广告费支出x正相关,所以A正确;设丢失的数据为m,由表中的数据可得=5,=,把点代入回归方程,可得=6.5×5+17.5,解得m=30,所以B正确;该公司广告费支出每增加1万元,销售额不一定增加6.5万元,所以C不正确;若该公司下月广告费支出为8万元,则销售额约为=6.5×8+17.5=69.5(万元),所以D不正确.故选AB.
答案 AB
14.(多空题)为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x(单位:h)与当天投篮命中率y之间的关系:
时间x
1
2
3
4
5
命中率y
0.4
0.5
0.6
0.6
0.4
小李这5天的平均投篮命中率为__________;用线性回归分析的方法,预测小李该月6号打6
h篮球的投篮命中率为__________.
解析 ===0.5,
==3.由公式,得=0.01,
从而=-=0.5-0.01×3=0.47.
所以回归方程为=0.47+0.01x.
所以当x=6时,=0.47+0.01×6=0.53.
答案 0.5 0.53(共51张PPT)
第二课时 非线性回归模型及其应用
课标要求
素养要求
1.进一步掌握一元线性回归模型参数的统计意义,会用相关统计软件.
2.了解非线性回归模型.
3.会通过分析残差和利用R2判断回归模型的拟合效果.
通过学习回归模型的应用,提升数学运算及数据分析素养.
新知探究
在实际问题中,有时两个变量之间的关系并不是线性关系,这就需要运用散点图选择适当的函数模型来拟合观测数据,然后通过适当的变量代换,把非线性问题转化为线性问题,从而确定未知参数,建立相应的线性回归方程.
提示 不一定;越小越好.
1.残差的概念
2.刻画回归效果的方式
(1)残差图法
作图时________为残差,________可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.
(2)残差平方和法
纵坐标
横坐标
(3)
利用R2刻画回归效果
决定系数R2是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.
×

拓展深化
[微判断]
1.残差平方和越接近0,
线性回归模型的拟合效果越好.
(
)
2.在画两个变量的散点图时,
响应变量在x轴上,解释变量在y轴上.
(
)
提示 在画两个变量的散点图时,
响应变量在y轴上,解释变量在x轴上.
3.R2越小,
线性回归模型的拟合效果越好.
(
)
提示 R2越大,
线性回归模型的拟合效果越好.
×
[微训练]
1.在残差分析中,
残差图的纵坐标为__________.
答案 残差
2.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的决定系数R2分别如下表:
?




R2
0.98
0.78
0.50
0.85
哪位同学建立的回归模型拟合效果最好?
解 R2越大,表示回归模型的拟合效果越好,故甲同学建立的回归模型拟合效果最好.
[微思考]
在使用经验回归方程进行预测时,需要注意哪些问题?
提示 (1)经验回归方程只适用于所研究的样本的总体;(2)所建立的经验回归方程一般都有时效性;(3)解释变量的取值不能离样本数据的范围太远.一般解释变量的取值在样本数据范围内,经验回归方程的预报效果好,超出这个范围越远,预报的效果越差;(4)不能期望经验回归方程得到的预报值就是响应变量的精确值.
题型一 线性回归分析
【例1】 已知某种商品的价格x(单位:元/件)与需求量y(单位:件)之间的关系有如下一组数据:
x
14
16
18
20
22
y
12
10
7
5
3
列出残差表:
0
0.3
-0.4
-0.1
0.2
4.6
2.6
-0.4
-2.4
-4.4
规律方法 (1)解答线性回归问题,应通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.
(2)刻画回归效果的三种方法
①残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.
【训练1】 某地区2011年到2017年农村居民家庭人均纯收入y(单位:千元)的数据如下表:
年份
2011
2012
2013
2014
2015
2016
2017
年份代号t
1
2
3
4
5
6
7
人均纯收入y
2.9
3.3
3.6
4.4
4.8
5.2
5.9
(2)利用(1)中的回归方程,分析2011年到2017年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2020年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘估计公式分别为

(1)由所给数据计算得
题型二 残差分析与相关指数的应用
?【例2】 假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得5组数据如下:
x
15.0
25.8
30.0
36.6
44.4
y
39.4
42.9
42.9
43.1
49.2
(1)以x为解释变量,y为预报变量,作出散点图;
(2)求y与x之间的回归方程,对于基本苗数56.7预报有效穗;
(3)计算各组残差,并计算残差平方和;
(4)求R2,并说明(2)中求出的回归模型的拟合程度.
解 (1)散点图如下.
【训练2】 为研究质量x(单位:g)对弹簧长度y(单位:cm)的影响,对不同质量的6个物体进行测量,数据如下表:
x
5
10
15
20
25
30
y
7.25
8.12
8.95
9.90
10.9
11.8
(1)作出散点图并求回归直线方程;
(2)求出R2并说明回归模型拟合的程度;
(3)进行残差分析.
解 (1)散点图如图所示.
样本点分布在一条直线附近,y与x具有线性相关关系.
0.05
0.005
-0.08
-0.045
0.04
0.025
-2.237
-1.367
-0.537
0.413
1.413
2.313
(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正错误,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在宽度不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与所挂物体的质量成线性关系.
题型三 非线性回归分析
【例3】 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.
根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
规律方法 求非线性回归方程的步骤
(1)确定变量,作出散点图.
(2)根据散点图,选择恰当的拟合函数.
(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.
(4)分析拟合效果:通过计算决定系数或画残差图来判断拟合效果.
(5)根据相应的变换,写出非线性回归方程.
【训练3】 下表为收集到的一组数据:
x
21
23
25
27
29
32
35
y
7
11
21
24
66
115
325
解 (1)作出散点图如下图,从散点图可以看出x与y不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数函数曲线y=c1ec2x的周围,其中c1,c2为待定的参数.
(2)对y=c1ec2x两边取对数,得ln
y=ln
c1+c2x,令z=ln
y,则有变换后的样本点应分布在直线z=bx+a(a=ln
c1,b=c2)的周围,这样就可以利用线性回归模型来建立y与x之间的非线性回归方程了,数据可以转化为
x
21
23
25
27
29
32
35
z
1.946
2.398
3.045
3.178
4.190
4.745
5.784
残差
yi
7
11
21
24
66
115
325
6.443
11.101
19.125
32.950
56.770
128.381
290.325
0.557
-0.101
1.875
-8.950
9.23
-13.381
34.675
一、素养落地
1.通过本节课的学习,进一步提升数学运算及数据分析素养.
2.当根据给定的样本数据得到的散点图并不是分布在一条直线附近时,就不能直接求其回归直线方程了,这时可根据得到的散点图,选择一种拟合得最好的函数,常见的函数有幂函数、指数函数、对数函数等,然后进行变量置换,将问题转化为线性回归分析问题.
二、素养训练
1.下列两个变量之间的关系不是函数关系的是(  )
A.角度和它的余弦值
B.正方形的边长和面积
C.正n边形的边数和内角度数和
D.人的年龄和身高
解析 函数关系就是变量之间的一种确定性关系.A,B,C三项中的两个变量之间都是函数关系,可以写出相应的函数表达式,分别为f(θ)=cos
θ,g(a)=a2,h(n)=(n-2)π.D选项中的两个变量之间不是函数关系,对于年龄确定的人群,仍可以有不同的身高,故选D.
答案 D
2.(多选题)关于残差图的描述正确的是(  )
A.残差图的横坐标可以是样本编号
B.残差图的横坐标也可以是解释变量或预报变量
C.残差点分布的带状区域的宽度越窄相关指数越小
D.残差点分布的带状区域的宽度越窄残差平方和越小
解析 残差点分布的带状区域的宽度越窄,说明模型拟合精度越高,则残差平方和越小,此时,R2的值越大,故描述错误的是C.
答案 ABD
3.某产品在某零售摊位的零售价x(单位:元)与每天的销售量y(单位:个)的统计资料如下表所示:
x
16
17
18
19
y
50
34
41
31
答案 C
4.在研究硝酸钠的溶解度时,观察它在不同温度(x)的水中溶解度(y)的结果如下表:
温度x
0
10
20
50
70
溶解度y
66.7
76.0
85.0
112.3
128.0
由此得到回归直线的斜率是__________.
答案 0.880
9
5.在一次抽样调查中测得样本的5个样本点,数值如下表:
x
0.25
0.5
1
2
4
y
16
12
5
2
1
根据散点图可知y与x近似地呈反比例函数关系,
t
4
2
1
0.5
0.25
y
16
12
5
2
1
由散点图可以看出y与t呈近似的线性相关关系,列表如下:
i
ti
yi
tiyi
t
1
4
16
64
16
2
2
12
24
4
3
1
5
5
1
4
0.5
2
1
0.25
5
0.25
1
0.25
0.062
5

7.75
36
94.25
21.312
5(共36张PPT)
8.2 一元线性回归模型及其应用
?
8.2.1 一元线性回归模型
?
8.2.2 一元线性回归模型参数的最小二乘估计
?
第一课时 一元线性回归模型及其参数的最小二乘估计
课标要求
素养要求
1.结合具体实例,了解一元线性回归模型的含义.
2.了解模型参数的统计意义,了解最小二乘原理.
通过学习一元线性回归模型的含义,体会数学抽象及数据分析素养.
新知探究
恩格尔系数(Engel’s
Coefficient)是根据恩格尔定律得出的比例数,指居民家庭中食物支出占消费总支出的比重,是表示生活水平高低的一个指标.其计算公式:恩格尔系数=食物支出金额÷总支出金额.
一个家庭收入越少,家庭收入中或者家庭总支出中用来购买食物的支出所占的比例就越大,随着家庭收入的增加,家庭收入中或者家庭支出中用来购买食物的支出所占比例将会下降.
问题 恩格尔系数是预测生活水平高低的一个模型,那么当两个变量线性相关时,我们如何对成对样本数据建立一个模型进行预测?
提示 为了对两个变量线性相关关系进行预测,我们通常建立一元线性回归模型进行预测.
1.一元线性回归模型
我们称
为Y关于x的______________模型,其中Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为______参数,b称为______参数;e是Y与bx+a之间的随机______.
一元线性回归
截距
斜率
误差
2.
线性回归方程与最小二乘法
拓展深化
[微判断]
1.两个变量之间产生随机误差的原因仅仅是因为测量工具产生的误差.
(
)
提示 产生随机误差的原因有多种,测量工具和测量精度仅仅是其中的一个方面.
×

[微训练]
答案 AD
[微思考]
1.任何一组数据都可以由最小二乘法得出回归直线方程吗?
提示 用最小二乘法求回归直线方程的前提是先判断所给数据具有线性相关关系(可利用散点图来判断),否则求出的回归直线方程无意义.
题型一 求回归直线方程
【例1】 某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:
x
6
8
10
12
y
2
3
5
6
(3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.
解 (1)如图:
样本点分布在一条直线附近,y与x具有线性相关关系.
规律方法 求线性回归方程的一般步骤
(1)收集样本数据,设为(xi,yi)(i=1,2,…,n)(数据一般由题目给出).
(2)作出散点图,确定x,y具有线性相关关系.
【训练1】 某种产品的广告费支出x(单位:百万元)与销售额y(单位:百万元)之间有如下对应数据:
x
2
4
5
6
8
y
30
40
60
50
70
(1)画出散点图;
(2)求回归直线方程.
解 (1)散点图如图所示.
样本点分布在一条直线附近,y与x具有线性相关关系.
(2)列出下表,并用科学计算器进行有关计算.
i
1
2
3
4
5
xi
2
4
5
6
8
yi
30
40
60
50
70
xiyi
60
160
300
300
560
4
16
25
36
64
题型二 利用回归直线方程对总体进行估计
【例2】 一台机器按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点的零件的多少随机器运转速度的变化而变化,下表为抽样试验的结果:
转速x(转/秒)
16
14
12
8
每小时生产有缺点的零件数y(件)
11
9
8
5
解 (1)散点图如图所示:
(2)近似直线如图所示:
【迁移1】 (变条件,变设问)本例中近似方程不变,若每增加一个单位的转速,生产有缺点的零件数近似增加多少?
【迁移2】 (变条件,变设问)本例中近似方程不变,每小时生产有缺点的零件件数是7,估计机器的转速.
规律方法 本题已知y与x是线性相关关系,所以可求出回归方程进行估计和预测.否则,若两个变量不具备相关关系或它们之间的相关关系不显著,即使求出回归方程也毫无意义.
【训练2】 某车间为了规定工时定额,需要确定加工零件所花费的时间,为此做了四次实验,得到的数据如下:
零件的个数x(个)
2
3
4
5
加工的时间y(h)
2.5
3
4
4.5
(1)已知零件个数与加工时间线性相关,求出y关于x的线性回归方程;
(2)试预测加工10个零件需要多少时间?
(2)加工10个零件时,大约需要0.7×10+1.05=8.05(小时).
解析 因为回归直线的斜率为80,所以x每增加1,y平均增加80,即劳动生产率提高1
000元时,工人工资平均提高80元.
答案 B
答案 D
解析 ∵两个变量线性负相关,∴变量x增加一个单位,y平均减少1.5个单位.
答案 C
4.已知回归直线的斜率的估计值是1.23,且过定点(4,5),则线性回归方程是__________.
5.某产品的广告费用x(单位:万元)与销售额y(单位:万元)的统计数据如下表:
广告费用x/万元
3
4
5
6
销售额y/万元
25
30
40
45
答案 73.5