(共50张PPT)
·选择性必修第三册·
第八章 成对数据的统计分析
8.2.2
一元线性回归模型参数的
最小二乘估计(第二课时)
学习目标
1.进一步掌握一元线性回归模型参数的统计意义,会用相关统计软件.(重点)
2.了解非线性回归模型. (难点)
3.会通过分析残差和利用R2判断回归模型的拟合效果.(重点)
情景导入
8.2.2 一元线性回归模型参数的最小二乘估计(第二课时)
01
复习回顾,引入新知
1. 经验回归方程:
我们将 称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线. 这种求经验回归方程的方法叫做最小二乘法.
2. 最小二乘估计:
经验回归方程中的参数 计算公式为:
一元线性回归模型应用
8.2.2 一元线性回归模型参数的最小二乘估计(第一课时)
02
应用新知
经验表明,一般树的胸径(树的主干在地面以上1.3m处的直径)越大,树就越高由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高,在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据(表8.2-3),试根据这些数据建立树高关于胸径的经验回归方程.
例
分析
应用新知
解析
以胸径为横坐标、树高为纵坐标作散点图,得到下图
在图8.2-9中,散点大致分布在一条从左下角到右上角的直线附近,表明两个变量线性相关,并且是正相关,因此可以用一元线性回归模型刻画树高与胸径之间的关系.
应用新知
解析
应用新知
解析
根据经验回归方程,由胸径的数据可以计算出树高的预测值(精确到0.1)以及相应的残差,如下表所示
应用新知
以胸径为横坐标,残差为纵坐标,作残差图,得到下图
观察残差表和残差图,可以看到,残差的绝对值最大是0.8,所有残差分布在以横轴为对称轴、宽度小于2的带状区域内.可见经验回归方程较好地刻画了树高与胸径的关系,我们可以根据经验回归方程由胸径预测树高.
应用新知
跟踪练习:某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如表数据:
(1)求经验回归方程????=????????+????,其中????=?20,
????=?????????????,;
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入?成本)
?
解:(1)据题意,得:????=8+8.2+8.4+8.6+8.8+96=8.5,????=90+84+83+80+75+686=80,
????=?????????????=80+20×8.5=250,所以经验回归方程为y=?20x+250.
?
(2)工厂获得的利润????=(?????4)????=?20????2+330?????1000,由二次函数知识可知当????=334时,????????????????=361.25(元).故该产品的单价应定为8.25元.
?
{5C22544A-7EE6-4342-B048-85BDC9FD1C3A}单价????(元)
8
8.2
8.4
8.6
8.8
9
销量????(件)
90
84
83
80
75
68
{5C22544A-7EE6-4342-B048-85BDC9FD1C3A}
非线性回归模型应用
8.2.2 一元线性回归模型参数的最小二乘估计(第一课时)
03
探究新知
研究两个变量的关系时,依据样本点画出散点图,从整体上看,如果样本点没有分布在某个带状区域内,就称这两个变量之间不具有线性相关关系,此时不能直接利用经验回归方程来建立两个变量之间的关系.
当两个变量不呈线性相关关系时,依据样本点的分布选择合适的曲线方程来拟合数据,可通过变量代换,利用线性回归模型建立两个变量间的非线性经验回归方程.
问题提出
探究新知
问题
画散点图:
在图中,散点看上去大致分布在一条直线附近,似乎可用一元线性回归模型建立经验回归方程.
人们常将男子短跑100m的高水平运动员称为“百米飞人”.
下表给出了1968年之前男子短跑100m世界纪录产生的年份和世界纪录的数据. 试依据这些成对数据,建立男子短跑100m世界纪录关于纪录产生年份的经验回归方程.
{7D77DD0E-2E15-4147-AB9D-1E77110C49CC}编号
1
2
3
4
5
6
7
8
年份
1896
1912
1921
1930
1936
1956
1960
1968
记录/s
11.80
10.60
10.40
10.30
10.20
10.10
10.00
9.95
探究新知
用????表示男子短跑100?????的世界纪录,????表示纪录产生的年份,利用一元线性回归方程模型????=????????+????+????,????(????)=0,????(????)=????2
来刻画世界纪录和世界纪录产生年份之间的关系.根据最小二乘法,由表中的数据得到经验回归方程为????1=?0.020337????+49.76913031. ①
?
将经验回归直线叠加到散点图,得到下图.
探究新知
观察
由图形可知,第一点远离经验回归直线,并且前后两时间段中的散点都在经验回归直线的上方,中间时间段的散点都在经验回归直线的下方. 这说明散点并不是随机分布在经验回归直线的周围,而是围绕着经验回归直线有一定的变化规律,即成对样本数据呈现出明显的非线性相关的特征.
从上图中可以看到,经验回归方程????1=?0.020337????+49.76913031.
①能否较好地刻画了散点的变化趋势?请仔细观察图形,你能看出其中存在的问题吗?
?
探究新知
思考
如何修改模型,以使其更好地反映散点的分布特征吗?
仔细观察上图,可以发现散点更趋向于落在中间下凸且递减的某条曲线附近.回顾已有的函数知识,可以发现函数????=??????????????的图象具有类似的形状特征.注意到短跑的第一个世界纪录产生于1896年,因此可以认为散点是集中在曲线????=????(????)=????1+????2????????(?????1895)的周围,其中????1和????2为未知的参数,且????2<0.
?
用上述函数刻画数据变化的趋势,这是一个非线性经验回归函数,其中????1,????2是待定系数.现在问题转化为如何利用成对数据估计参数????1和????2.
?
探究新知
令x=ln(t-1895),通过x=ln(t-1895) ,将年份变量数据进行变换,得到新的成对数据,如下表.
{031CD1AF-3F07-495B-96E5-ECF9FB1D700F}编号
1
2
3
4
5
6
7
8
年份/t
1896
1912
1921
1930
1936
1956
1960
1968
x
0.00
2.83
3.26
3.56
3.71
4.11
4.17
4.29
记录/s
11.80
10.60
10.40
10.30
10.20
10.10
10.00
9.95
令x=ln(t-1895) , 则Y=c2 x+c1 .
因此,用一元线性回归模型????=????????????+????????+????,????(????)=????,????(????)=????????
拟合上表中的成对数据,得到经验回归方程????????=?????.?????????????????????????????????+????????.???????????????????????????? (*),
?
探究新知
将????=????????(?????1895)代入(*)式,得到由创纪录年份预报世界纪录的经验回归方程????2=?0.4264398?????????(?????1895)+11.8012653.②
?
在同一坐标系中画出成对数据散点图、非线性经验回归方程②的图象(蓝色)以及经验回归方程①的图象(红色),如图所示.我们发现,散点图中各散点都非常靠近②的图象,表明非线性经验回归方程②对于原始数据的拟合效果远远好于经验回归方程①.
决定系数
8.2.2 一元线性回归模型参数的最小二乘估计(第一课时)
04
探究新知
残差的平方和
在下表中,用????????表示编号为????的年份数据,用????????表示编号为????的纪录数据,则经验回归方程①和②的残差计算公式分别为
????????=????????+????.?????????????????????????????????????????????????.????????????????????????????????,????=????,????,?,????;
????????=????????+????.????????????????????????????????????(???????????????
探究新知
决定系数R2
决定系数????2也可以用来比较两个模型的拟合效果,????2的计算公式为
????2=1?????=1????(?????????????????)2????=1????(?????????????)2.
?
在????2表达式中,????=1????(?????????????)2与经验回归方程无关,残差平方和????=1????(?????????????????)2与经验回归方程有关.
?
因此????2越大,表示残差平方和越小,即模型拟合效果越好;????2越小,表示残差平方和越大,即模型的拟合效果越差.
?
探究新知
在使用经验回归方程进行预测时,需注意以下问题
回归方程只适用于我们所研究的样本的总体;
我们所建立的回归方程一般都有时间性;
样本采集的范围会影响回归方程的适用范围;
不能期望回归方程得到的预报值就是预报变量的精确值. 事实上, 它是预报变量的可能取值的平均值.
能力提升
8.2.2 一元线性回归模型参数的最小二乘估计(第一课时)
05
能力提升
题型一
利用决定系数R2刻画回归效果
例题1
解析
能力提升
“R2、残差图”在回归分析中的作用
总结
(2)残差图也是用来刻画回归模型拟合效果的,判断依据是残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合精度越高,回归方程预报精度越高.
能力提升
题型二
非线性回归分析
例题2
能力提升
题型二
非线性回归分析
例题2
解析
能力提升
题型二
非线性回归分析
总结
解决非线性经验回归问题的方法及步骤
课堂小结+限时小练
8.2.2 一元线性回归模型参数的最小二乘估计(第一课时)
06
课堂小结
随堂限时小结
解
D
随堂限时小结
D
随堂限时小结
解
随堂限时小结
解
随堂限时小结
解
随堂限时小结
解
随堂限时小结
随堂限时小结
解
作业布置与课后练习答案
8.2.2 一元线性回归模型参数的最小二乘估计(第一课时)
07
巩固作业
作业布置
作业1:完成教材: 第121页 习题8.2第4题.
作业2:配套辅导资料对应的《一元线性回归模型参数的最小二乘估计》.?
课后作业答案
1.在回归分析中,分析残差能够帮助我们解决哪些问题?
分析残差可以帮助我们解决以下几个问题:
(1)寻找残差明显比其他残差大很多的异常点,如果有,检查相应的样本数据是否有错.
(2)分析残差图可以诊断选择的模型是否合适,如果不合适,可以参考残差图提出修改模型的思路.
课后作业答案
2.1997-2006年我国的国内生产总值(GDP)的数据如下:
{56D3B91B-2B0A-4B79-BB0C-DE0E8FAAD820}年份
GDP/亿元
年份
GDP/亿元
1997
79 715. 0
2002
121 717.4
1998
85 195.5
2003.
137 422. 0
1999
90 564.4
2004
161 840. 2
2000
100 280.1
2005
187 318. 9
2001
110 863.1
2006
219 438.5
(1)作GDP和年份的散点图,根据该图猜想它们之间的关系可以用什么模型描述;
课后作业答案
画GDP与年份的散点图,如图所示,可以观察到随着年份的增加GDP也随之增加,GDP值与年份呈现近似线性关系,可以用一元线性回归模型刻画.
年份
GDP/亿元
课后作业答案
(2)建立年份为解释变量,GDP为响应变量的一元线性回归模型,并计算残差;
课后作业答案
残差的计算结果见下表.
{7BB546C3-DA31-45D5-A682-696C6642010B}年份
1997
1998
1999
2000
2001
残差
17126
7752
-1734
-6873
-11145
年份
2002
2003
2004
2005
2006
残差
-15145
-14296
-4732
5892
23157
课后作业答案
(3)根据你得到的一元线性回归模型,预测2017年的GDP,看看你的预测值与实际的GDP的误差是多少;
2017年的GDP预报值为359684亿元,2017年的实际的GDP为820754亿元,预测值比实际值少461070亿元.
课后作业答案
(4)你认为这个模型能较好地刻画GDP和年份的关系吗?请说明理由
上面建立的回归方程的R2=0.9213,说明在1997-2006年内,该模型年份能够解释92.13%的GDP值变化,因此所建立的模型较好地刻画了GDP和年份的关系.但因为残差呈现一定的规律性,中间是负数,两边是正数,所以可以考虑用非线性回归模型拟合数据.
t
y
(5)随着时间的发展,又收集到2007—2016年的GDP数据如下:
建立年份(1997-2016)为解释变量,GDP为响应变量的经验回归方程,并预测2017年的GDP,与实际的GDP误差是多少?你能发现什么?
{DF570F20-0461-45D6-9EC0-7E4071BAE0E8}年份
1997
1998
1999
2000
2001
残差
17126
7752
-1734
-6873
-11145
年份
2002
2003
2004
2005
2006
残差
-15145
-14296
-4732
5 892
23157
利用上述模型,预测2017年的GDP值为704025亿元,而2017年GDP的实际值820754亿元,预测值比实际值少116729亿元.
通过两个模型预测2017年的GDP值,发现第2个模型预测的更准确,说明建立的模型自变量的取值范围决定了模型的适用范围,通常不能超出太多,否则会出现较大的误差.
课后作业答案
3.如果散点图中所有的散点都落在一条斜率为非0的直线上,请回答下列问题:
(1)解释变量和响应变量的关系是什么?
(2)R2是多少?
(1)解释变量和响应变量是线性函数关系.
课后作业答案
4.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,收集数据如表所示
{62D48C9C-8ADF-46DA-8C51-64DA23BDD0F3}零件数/个
10
20
30
40
50
60
70
80
90
100
加工时间/min
62
68
75
81
89
95
102
108
115
122
(1)画出散点图;
(2)建立加工时间关于零件数的一元线性回归模型;
(3)关于加工零件的个数与加工时间,你能得出什么结论?
课后作业答案
课后作业答案
5.根据8.1.2节例2中某城市居民年收入与A商品销售额的数据:
(1)建立A商品销售额关于居民年收入的一元线性回归模型;
(2)如果这座城市居民的年收入达到40亿元,估计A商品的销售额是多少.
{E3251BF0-08E6-429B-90F7-E6F413A0CC39}第n年
1
2
3
4
5
6
7
8
9
10
居民年收入/亿元
32.2
31.1
32.9
35.8
37.1
38.0
39.0
43.0
44.6
46.0
A商品销售额/万元
25.0
30.0
34.0
37.0
39.0
41.0
42.0
44.0
48.0
51.0
课后作业答案
A商品销售额/万元
6.人口问题是关乎国计民生的大问题.下表是1949—2016年我国的人口总数(摘自中国统计年鉴—2017)
{25C7E2FC-AADE-4000-8C16-8AA76206D13C}年份
总人口 /万人
年份
总人口 /万人
年份
总人口 /万人
年份
总人口 /万人
年份
总人口 /万人
1949
54167
1976
93717
1988
111026
2000
126743
2012
135404
1950
55196
1977
94974
1989
112704
2001
127627
2013
136072
1951
56300
1978
96259
1990
114333
2002
128453
2014
136782
1955
61465
1979
97542
1991
115823
2003
129227
2015
137462
1960
66207
1980
98705
1992
117171
2004
129988
2016
138271
1965
72538
1981
100072
1993
118517
2005
130756
1970
82992
1982
101654
1994
119850
2006
131448
1971
85229
1983
103008
1995
121121
2007
132129
1972
87177
1984
104357
1996
122389
2008
132802
1973
89211
1985
105851
1997
123626
2009
133450
1974
90859
1986
107507
1998
124761
2010
134091
1975
92420
1987
109300
1999
125786
2011
134735
(1)画出散点图;
(2)建立总人口数关于年份的一元线性回归模型;
(3)直接用上面建立的回归模型预测2020年的我国人口总数,得到的结果合理吗?为什么?
课后作业答案
(1) 画人口总数与年份的散点图,如图所示.
课后作业答案
(3)利用经验回归方程得到2020年我国人口总数的预测值为149850万人.得到的这个预测结果不合理.将拟合直线画在散点图上,可以看到,2000年以后,我国人口总数的增长速度逐渐平稳且呈下降趋势,因此运用上述经验回归模型预测2020年我国的人口总数会出现高估.也可以通过观察残差图,看到残差具有中间为正,两边为负的特点.可以考虑用其他统计模型拟合数据.
课后作业答案
7. 在某地区的一段时间内观测到的不小于某震级x的地震数N的数据如下表:
{10F0511D-3C34-475D-9399-359F90C60F1F}震级x
3.0
3.2
3.4
3.6
3.8
4.0
4.2
地震数N
28381
20380
14795
10695
7641
5502
3842
震级x
4.4
4.6
4.8
5.0
5.2
5.4
5.6
地震数N
2698
1919
1356
973
746
604
435
震级x
5.8
6.0
6.2
6.4
6.6
6.8
7.0
地震数N
274
206
148
98
57
41
25
试建立经验回归方程表示二者之间的关系,该模型对预测地震有帮助吗?
课后作业答案
先画地震数与震级的散点图,如图(1)所示.
课后作业答案
{EB3B6EB0-86BD-415B-914B-84497C137FB7}震级x
3
3.2
3.4
3.6
3.8
4.0 4.2
4.2
y
4.453
4.309
4.17
4.029
3.883
3.741
3.585
震级x
4.4
4.6
4.8
5
5.2
5.4
5.6
y
3.431
3.283
3.132
2.988
2.873
2.781
2.638
震级x
5.8
6
6.2
6.4
6.6
6.8
7
y
2.438
2.314
2.17
1.991
1.756
1.613
1.398
课后作业答案
x和y的散点图如图(2)所示.从这个散点图中可以看出x和y之间有很强的线性相关性,因此可以用一元线性回归模型拟合它们之间的关系.
该模型不能直接用于预报地震,因为它不能预报何时发生地震,震级是多少
课后作业答案
8.生活中有许多变量之间的关系是值得我们去研究的.例如,数学成绩、物理成绩和化学成绩两两之间是相关的吗?哪两个学科成绩之间相关性更大,你能解释其中的原因吗?语文成绩对数学成绩有影响吗?等等,请用你们班的某次考试成绩,研究它们之间的关系如果它们之间有关系,请建立统计模型进行分析.
课后作业答案
回归与相关
回归分析法和相关分析法是统计学中的两种重要方法,前者用于由一个变量的变化去推测另一个变量的变化,后者研究随机变量间的相关关系,它们是由英国科学家高尔顿创立的.
高尔顿的科研兴趣十分广泛,在地理学、气象学、统计学、心理学、人类学等众多领域都有建树他在遗传学的研究中发现了一个令人困惑的问题,通常,高个子的人会和高个子的人结婚,矮个子的人会和矮个子的人结婚,而人类的遗传是把上一代的优势性状传递给下一代这样,在人群中,高个子、矮个子的比例都应逐渐增多,而中等个子的比例应逐渐下降.但事实并非如此,为什么呢?
这个问题一直萦绕在他的心头1875年,为了确定豌豆尺寸的遗传规律,他将自己精心挑选的490粒甜豌豆按照尺寸大小分成7组,在7个不同地区各种植70粒(每组10粒).豌豆成熟后,他仔细测量了新豌豆(子代)的尺寸,并与豌豆种子(母代)的尺寸进行比较数据分析发现,母代尺寸大的子代尺寸较大,母代尺寸小的子代尺寸也较小但无论尺寸大小,都有子代向母代的平均值(7种尺寸豌豆的平均值)收缩的趋势.
这一结论在遗传学上是否具有普遍性呢?能否用它来解释人的个子高矮的遗传现象呢?为此,在1885年,高尔顿随机选取了205对夫妇及其928个成年子女的身高数据进行研究由于男女身高存在差异,他采用女子身高乘1.08的方法将女子身高换算成男子身高.他将父母的平均身高称为“中亲身高”,用
进行计算,其中a为母亲身高,b为父亲身高.记中亲身高为X(母代变量),子女身高为Y(子代变量),分析X和Y的数据,他惊奇地发现,X和Y的平均值均为173.4cm.在此基础上,他还发现当中亲身高大于平均值时,他们的子女相对较高,但与父母相比还是矮一些,例如,当中亲身高为181.6cm时,他们子女的平均身高仅为177.5cm;当中亲身高小于平均值时,他们的子女相对较矮,但比父母又要高一些,例如,当中亲身高为166.4cm时,他们子女的平均身高为169.4cm.这表明,子女身高有向平均值“回归”的倾向.1886年,高尔顿将这一研究成果写成了论文《遗传身高向平均身高的回归》,文中正式引入了“回归”这个概念,1888年,高尔顿发表了统计史上第一篇有关相关系数值的论文,文中用到了一种用图形估计相关系数值的方法.
高尔顿提出的回归和相关思想是开创性的,但他的工作做得还不够彻底.后来,埃奇沃思(F.Y.Edgeworth,1845—126)和皮尔逊(K.Pearson,1857—1936)等一批学者加入到研究中来,使回归和相关理论得到了完善与发展.埃奇沃思不仅给出了常见的样本相关系数的公式,还赋予“回归”以纯数学的意义,为这一方法的广泛应用奠定了基础.皮尔逊则系统整理和完善了当时的已有成果,用极大似然法对相关系数的估计问题做了改进,并把相关回归方法运用到生物测量数据,推动了这一方法在生物领域的应用.
回归与相关的发现,为统计方法增添了重要的工具,推动了统计学的应用和发展,标志着统计学描述时代的结束和推断时代的开始,随着时代的发展,“回归”一词的内涵得到了极大扩展,它可以泛指在任何情况下自变量与因变量之间的统计关系;回归分析、相关分析也在科学研究的各个方面得到广泛应用,成为探索变量之间关系的重要方法.
请你进一步查阅资料,了解回归与相关的发展和应用.
THANKS
感谢您的聆听