高中数学(人教版A版选修1-2)配套课件(2份)、教案、学案、同步练习题,补习复习资料:1.1 回归分析的基本思想及其初步应用

文档属性

名称 高中数学(人教版A版选修1-2)配套课件(2份)、教案、学案、同步练习题,补习复习资料:1.1 回归分析的基本思想及其初步应用
格式 zip
文件大小 1.4MB
资源类型 教案
版本资源 人教新课标A版
科目 数学
更新时间 2019-08-01 15:49:20

文档简介

统计案例
回归分析的基本思想及初步应用
1.1.1线性回归的思想方法及应用
课前预习学案
一、课前预习
预习目标:回顾回归直线的求法,并利用回归直线进行总体估计。
二、预习内容
1.回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。
求回归直线方程的一般步骤:① ;② ;③
2.典型例题:
研究某灌溉渠道水的流速 与水深 之间的关系,测得一组数据如下:
水深
1.40
1.50
1.60
1.70
1.80
1.90
2.00
2.10
流速
1.70
1.79
1.88
1.95
2.03
2.10
2.16
2.21
(1)求 对 的回归直线方程;
(2)预测水深为1.95 时水的流速是多少?
课内探究学案
一、学习目标:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用.
学习重点:了解线性回归模型与函数模型的差异,了解判断刻画模型拟合效果的方法-相关指数和残差分析.
学习难点:解释残差变量的含义,了解偏差平方和分解的思想.
二、学习过程
1. 提问:“名师出高徒”这句彦语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?
2. 复习:函数关系是一种确定性关系,而相关关系是一种非确定性关系. 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,其步骤:收集数据作散点图求回归直线方程利用方程进行预报.
3. 典型例题:
例1 从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:
编 号
 1
 2
 3
 4
 5
 6
 7
 8
身高/cm
165
165
157
170
175
165
155
170
体重/kg
48
57
50
54
64
61
43
59
求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重. (分析思路教师演示学生整理)
评注:事实上,观察上述散点图,我们可以发现女大学生的体重和身高之间的关系并不能用一次函数来严格刻画(因为所有的样本点不共线,所以线性模型只能近似地刻画身高和体重的关系). 在数据表中身高为165cm的3名女大学生的体重分别为48kg、57kg和61kg,如果能用一次函数来描述体重与身高的关系,那么身高为165cm的3名女在学生的体重应相同. 这就说明体重不仅受身高的影响还受其他因素的影响,把这种影响的结果(即残差变量或随机变量)引入到线性函数模型中,得到线性回归模型,其中残差变量中包含体重不能由身高的线性函数解释的所有部分. 当残差变量恒等于0时,线性回归模型就变成一次函数模型. 因此,一次函数模型是线性回归模型的特殊形式,线性回归模型是一次函数模型的一般形式.
4.相关系数:相关系数的绝对值越接近于1,两个变量的线性相关关系越强,它们的散点图越接近一条直线,这时用线性回归模型拟合这组数据就越好,此时建立的线性回归模型是有意义.
5. 小结:求线性回归方程的步骤、线性回归模型与一次函数的不同.
课后练习与提高
1.对具有相关关系的两个变量统计分析的一种常用的方法是(   )
A.回归分析   B.相关系数分析   C.残差分析   D.相关指数分析
2.在画两个变量的散点图时,下面叙述正确的是(   )
A.预报变量在 轴上,解释变量在 轴上  
B.解释变量在 轴上,预报变量在 轴上
C.可以选择两个变量中任意一个变量在 轴上
D.可以选择两个变量中任意一个变量在 轴上
3.两个变量相关性越强,相关系数 (   )
A.越接近于0     B.越接近于1   C.越接近于-1   D.绝对值越接近1
4.若散点图中所有样本点都在一条直线上,解释变量与预报变量的相关系数为(   ) 
 A.0   B.1     C.-1     D.-1或1
5.一位母亲记录了她儿子3到9岁的身高,数据如下表:
年龄(岁)
3
4
5
6
7
8
9
身高(
94.8
104.2
108.7
117.8
124.3
130.8
139.0
由此她建立了身高与年龄的回归模型 ,她用这个模型预测儿子10岁时的身高,则下面的叙述正确的是(   )
A.她儿子10岁时的身高一定是145.83   
B.她儿子10岁时的身高在145.83 以上
C.她儿子10岁时的身高在145.83 左右
D.她儿子10岁时的身高在145.83 以下
统计案例
1.1回归分析的基本思想及初步应用
1.1.1线性回归的思想方法及应用
教学要求:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用.
教学重点:了解线性回归模型与函数模型的差异,了解判断刻画模型拟合效果的方法-相关指数和残差分析.
教学难点:解释残差变量的含义,了解偏差平方和分解的思想.
教学过程:
一、复习准备:
1. 提问:“名师出高徒”这句彦语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?
2. 复习:函数关系是一种确定性关系,而相关关系是一种非确定性关系. 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,其步骤:收集数据作散点图求回归直线方程利用方程进行预报.
二、讲授新课:
1. 教学例题:
① 例1 从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:
编 号
 1
 2
 3
 4
 5
 6
 7
 8
身高/cm
165
165
157
170
175
165
155
170
体重/kg
48
57
50
54
64
61
43
59
求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重. (分析思路教师演示学生整理)
 第一步:作散点图 第二步:求回归方程 第三步:代值计算
② 提问:身高为172cm的女大学生的体重一定是60.316kg吗?
不一定,但一般可以认为她的体重在60.316kg左右.
③ 解释线性回归模型与一次函数的不同
事实上,观察上述散点图,我们可以发现女大学生的体重和身高之间的关系并不能用一次函数来严格刻画(因为所有的样本点不共线,所以线性模型只能近似地刻画身高和体重的关系). 在数据表中身高为165cm的3名女大学生的体重分别为48kg、57kg和61kg,如果能用一次函数来描述体重与身高的关系,那么身高为165cm的3名女在学生的体重应相同. 这就说明体重不仅受身高的影响还受其他因素的影响,把这种影响的结果(即残差变量或随机变量)引入到线性函数模型中,得到线性回归模型,其中残差变量中包含体重不能由身高的线性函数解释的所有部分. 当残差变量恒等于0时,线性回归模型就变成一次函数模型. 因此,一次函数模型是线性回归模型的特殊形式,线性回归模型是一次函数模型的一般形式.
2. 相关系数:相关系数的绝对值越接近于1,两个变量的线性相关关系越强,它们的散点图越接近一条直线,这时用线性回归模型拟合这组数据就越好,此时建立的线性回归模型是有意义.
3. 小结:求线性回归方程的步骤、线性回归模型与一次函数的不同.

1. 1.2 回归分析的基本思想及其初步应用
课前预习学案
预习目标:回归分析的基本思想、方法及初步应用.
二、预习内容:
1.两个变量有线性相关关系且正相关,则回归直线方程中, 的系数 (   )  A.    B.    C.      D.
2.两个变量有线性相关关系且残差的平方和等于0,则(   )
A.样本点都在回归直线上   B.样本点都集中在回归直线附近
C.样本点比较分散      D.不存在规律
课内探究学案
一、学习要求:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用.
学习重点:了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和.
学习难点:了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和.
二、学习过程
1.由例1知,预报变量(体重)的值受解释变量(身高)或随机误差的影响.
2.为了刻画预报变量(体重)的变化在多大程度上与解释变量(身高)有关?在多大程度上与随机误差有关?我们引入了评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和.
3.教学总偏差平方和、残差平方和、回归平方和:
(1)总偏差平方和:所有单个样本值与样本均值差的平方和,即.
残差平方和:回归值与样本值差的平方和,即.
回归平方和:相应回归值与样本均值差的平方和,即.
(2)学习要领:①注意、、的区别;②预报变量的变化程度可以分解为由解释变量引起的变化程度与残差变量的变化程度之和,即;③当总偏差平方和相对固定时,残差平方和越小,则回归平方和越大,此时模型的拟合效果越好;④对于多个不同的模型,我们还可以引入相关指数来刻画回归的效果,它表示解释变量对预报变量变化的贡献率. 的值越大,说明残差平方和越小,也就是说模型拟合的效果越好.
4. 典型例题
例2 关于与有如下数据:
  
  2
  4
  5
  6
  8
  
  30
  40
  60
  50
  70
为了对、两个变量进行统计分析,现有以下两种线性模型:,,试比较哪一个模型拟合的效果更好.
分析:既可分别求出两种模型下的总偏差平方和、残差平方和、回归平方和,也可分别求出两种模型下的相关指数,然后再进行比较,从而得出结论.
5.小结:分清总偏差平方和、残差平方和、回归平方和,初步了解如何评价两个不同模型拟合效果的好坏.
课后练习与提高
假设美国10家最大的工业公司提供了以下数据:
公司
销售总额经x1/百万美元
利润x2/百万美元
通用汽车
126974
4224
福特
96933
3835
埃克森
86656
3510
IBM
63438
3758
通用电气
55264
3939
美孚
50976
1809
菲利普·莫利斯
39069
2946
克莱斯勒
36156
359
杜邦
35209
2480
德士古
32416
2413
(1)作销售总额和利润的散点图,根据该图猜想它们之间的关系应是什么形式;
(2) 建立销售总额为解释变量,利润为预报变量的回归模型,并计算残差;
(3) 你认为这个模型能较好地刻画销售总额和利润之间的关系吗?请说明理由。
1.1.2 回归分析的基本思想及其初步应用
教学要求:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用.
教学重点:了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和.
教学难点:了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和.
教学过程:
一、复习准备:
1.由例1知,预报变量(体重)的值受解释变量(身高)或随机误差的影响.
2.为了刻画预报变量(体重)的变化在多大程度上与解释变量(身高)有关?在多大程度上与随机误差有关?我们引入了评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和.
二、讲授新课:
1. 教学总偏差平方和、残差平方和、回归平方和:
(1)总偏差平方和:所有单个样本值与样本均值差的平方和,即.
残差平方和:回归值与样本值差的平方和,即.
回归平方和:相应回归值与样本均值差的平方和,即.
(2)学习要领:①注意、、的区别;②预报变量的变化程度可以分解为由解释变量引起的变化程度与残差变量的变化程度之和,即;③当总偏差平方和相对固定时,残差平方和越小,则回归平方和越大,此时模型的拟合效果越好;④对于多个不同的模型,我们还可以引入相关指数来刻画回归的效果,它表示解释变量对预报变量变化的贡献率. 的值越大,说明残差平方和越小,也就是说模型拟合的效果越好.
2. 教学例题:
例2 关于与有如下数据:
  
  2
  4
  5
  6
  8
  
  30
  40
  60
  50
  70
为了对、两个变量进行统计分析,现有以下两种线性模型:,,试比较哪一个模型拟合的效果更好.
分析:既可分别求出两种模型下的总偏差平方和、残差平方和、回归平方和,也可分别求出两种模型下的相关指数,然后再进行比较,从而得出结论.

§1.1 回归分析的基本思想及其初步(一)
【学情分析】:
教学对象是高二文科学生,学生已经初步学会用最小二乘法建立线性回归模型的知识,并能用所学知识解决一些简单的实际问题。回归分析是数理统计中的重要内容,在教学中,要结合实例进行相关性检验,理解只有两个变量相关性显著时,回归方程才具有实际意义。在起点低的班级中注重让学生参与实践,结合画图表的方法整理数据,鼓励学生通过收集数据,经历数据处理的过程,从而认识统计方法的特点,达到学习的目的。
【教学目标】:
(1)知识与技能:
回忆线性回归模型与函数模型的差异,理解用最小二乘法求回归模型的步骤,了解判断两变量间的线性相关关系的强度——相关系数。
(2)过程与方法:
本节内容先从大学中女大学生的甚高和体重之间的关系入手,求出相应的回归直线方程。
(3)情感态度与价值观:  
从实际问题中发现自己已有知识的不足之处,激发学生的好奇心和求知欲,培养学生不满足于已有知识,勇于求知的良好个性品质,引导学生积极进取。
【教学重点】:
1、了解线性回归模型与函数模型的差异;
2、了解两变量间的线性相关关系的强度——相关系数。
【教学难点】:
1、了解线性回归模型与一次函数模型的差异;
2、了解偏差平方和分解的思想。
【课前准备】:
课件
【教学过程设计】:
教学环节
教学活动
设计意图
一、创设情境
问题一:一般情况下,体重与身高有一定的关系,通常个子较高的人体重比较大,但这是否一定正确?(是否存在普遍性)
提出问题,引导学生判断体重与身高之间的关系(函数关系、相关关系)
(学生思考、讨论。)
问题二:统计方法解决问题的基本过程是什么?
提出问题,引导学生回忆用最小二乘法求回归直线方程的方法。
(由学生回忆、叙述)
回归分析的基本过程:⑴画出两个变量的散点图;
⑵判断是否线性相关
⑶求回归直线方程(利用最小二乘法)
⑷并用回归直线方程进行预报
复习回归分析用于解决什么样的问题。
复习回归分析的解题步骤
二、例题选讲
问题三:思考例1:从某大学中随机选取8名女大学生,其身高和体重数据如表所示。求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重。
编号
1
2
3
4
5
6
7
8
身高/cm
165
165
157
170
175
165
155
170
体重/kg
48
57
50
54
64
61
43
59
题目中表达了哪些信息?
师:读例1的要求,引导学生理解例题含义。
(例题含义:①数据体重与身高之间是一种不确定性的关系
②求出以身高为自变量x,体重为因变量y的回归方程。
③由方程求出当x = 172时,y的值。
生:思考、讨论、叙述自己的理解,归纳出题目中的信息。
根据以前所学的知识,让学生自己动手求出回归方程
求解过程如下:
①画出散点图,判断身高x与体重y之间存在什么关系(线性关系)?
②列表求出相关的量,并求出线性回归方程
代入公式有
所以回归方程为
③利用回归方程预报身高172cm的女大学生的体重约为多少?
当时,
引导学生复习总结求线性回归方程的步骤:
第一步:作散点图—→第二步:求回归方程—→第三步:代值计算
复习统计方法解决问题的基本过程。
学生动手画散点图,老师用EXCEL的作图工作演示,并引导学生找出两个变量之间的关系。
学生经历数据处理的过程,并借助EXCEL的统计功能鼓励学生使用计算器或计算机等现代工具来处理数据。
三、探究新知
问题四:身高为172cm的女大学生的体重一定是60.316kg吗?
(不一定,但一般可以认为她的体重在60.316kg左右.)
师:提出问题,引导学生比较函数模型与线性回归模型的不同,并引出相关系数的作用。
生:思考、讨论、解释
解释线性回归模型与一次函数的不同
从散点图可观察出,女大学生的体重和身高之间的关系并不能用一次函数来严格刻画(因为所有的样本点不共线,所以线性模型只能近似地刻画身高和体重的关系). 在数据表中身高为165cm的3名女大学生的体重分别为48kg、57kg和61kg,如果能用一次函数来描述体重与身高的关系,那么身高为165cm的3名女在学生的体重应相同. 这就说明体重不仅受身高的影响还受其他因素的影响,把这种影响的结果(即残差变量或随机变量)引入到线性函数模型中,得到线性回归模型,其中残差变量中包含体重不能由身高的线性函数解释的所有部分. 当残差变量恒等于0时,线性回归模型就变成一次函数模型. 因此,一次函数模型是线性回归模型的特殊形式,线性回归模型是一次函数模型的一般形式.
问题五:如何衡量两个变量之间线性相关关系的强弱呢?
相关系数:
相关系数的绝对值越接近于1,两个变量的线性相关关系越强,它们的散点图越接近一条直线,这时用线性回归模型拟合这组数据就越好,此时建立的线性回归模型是有意义;相关系数的绝对值越接近于0,两个变量的线性相关关系几乎不存在,它们的散点图越离散,通常当大于时,认为两个变量有很强的线性相关关系。
问题六:例1中由体重与身高建立的线性相关关系有无意义?
生:动手计算本例中两个变量之间的相关系数,,表明体重与身高有很强的线性相关关系,从而表明我们建立的回归模型是有意义的。
引导学生了解线性回归模型与一次函数的不同
引导学生在解决具体问题的过程中,通常先进行相关性的检验,确认两变量间的线性相关关系的强弱再求线性回归方程。
结合实例的分析和研究,正确地进行相关性检验。
四、巩固练习
假设关于某设备的使用年限x和支出的维修费用y(万元),有如下表的统计资料。试求:
使用年限x
2
3
4
5
6
维修费用y
2.2
3.8
5.5
6.5
7.0
⑴画出数据的散点图;
⑵若x与y呈线性相关关系,求线性回归方程
y = bx + a 的回归系数a、b;
⑶估计使用年限为10年时,维修费用是多少?
答案:⑴散点图如图:
⑵由已知条件制成下表:
1
2
3
4
5
2
3
4
5
6
2.2
3.8
5.5
6.5
7.0
4.4
11.4
22.0
32.5
42.0
4
9
16
25
36
; ;

于是有
⑶ 回归直线方程是,
当时,(万元)
即估计使用10年时维修费用是12.38万元。
巩固知识
五、小结
熟练掌握求线性回归方程的步骤;
⑴画出两个变量的散点图;
⑵判断是否线性相关;
⑶求回归直线方程(利用最小二乘法);
⑷并用回归直线方程进行预报。
理解线性回归模型与一次函数的不同;
一次函数模型是线性回归模型的特殊形式,线性回归模型是一次函数模型的一般形式.
了解相关系数的计算与解释。
相关系数:
相关系数的绝对值越接近于1,两个变量的线性相关关系越强,它们的散点图越接近一条直线,这时用线性回归模型拟合这组数据就越好,此时建立的线性回归模型是有意义;相关系数的绝对值越接近于0,两个变量的线性相关关系几乎不存在,它们的散点图越离散,通常当大于时,认为两个变量有很强的线性相关关系。
反思归纳
练习与测试
设有一个回归方程为,则变量增加一个单位时,则( C )
A.平均增加个单位 B.平均增加个单位
C.平均减少个单位 D.平均减少个单位
在画两个变量的散点图时,下面哪个叙述是正确的( B )
A.预报变量在轴上,解释变量在轴上
B.解释变量在轴上,预报变量在轴上
C.可以选择两个变量中任意一个变量在轴上
D.可以选择两个变量中任意一个变量在轴上
已知x与y之间的一组数据:
x
0
1
2
3
y
1
3
5
7
则y与x的线性回归方程为必过( D )
A.(2,2)点 B.(1.5,0)点 C.(1,2)点 D.(1.5,4)点
已知两个相关变量与具有线性相关关系,当取值1,2,3,4时,通过观测得到的值分别为1.2,4.9,8.1,12.8,这组样本点的中心是( D )
A.(2,4.9) B.(3,8.1) C.(2.5,7) D.(2.5,6.75)
一位母亲记录了儿子3—9岁的身高,数据(略),由此建立的身高与年龄的回归模型为y=7.19x+73.93,用这个模型预测这个孩子10岁时的身高,则正确的叙述是( C )
A.身高一定是145.83cm B.身高在145.83cm以上
C.身高在145.83cm左右 D.身高在145.83cm以下
在一次实验中,测得(x,y)的四组值分别是A(1,2)、B(2,3)、C(3,4)D(4,5),则y与x之间的回归直线方程为( A )
A. B. C. D.
有下列关系:⑴人的年龄与其拥有的财富之间的关系;⑵曲线上的点与该点的坐标之间的关系;⑶苹果的产量与气候之间的关系;⑷森林中的同一树木,其横截面直径与高度之间的关系;⑸学生与其学号之间的关系。其中有相关关系的是__________。
答案: ⑴⑶⑷
许多因素都会影响贫穷,教育也许是其中之一,在研究这两个因素的关系时,收集了美国50个州的成年人受过9年或更少教育的百分比()和收入低于官方规定的贫困线的人数占本州人数的百分比()的数据,建立的回归直线方程如下:。斜率的估计等于说明__________________,成年人受过9年或更少教育的百分比()和收入低于官方规定的贫困线的人数占本州人数的百分比()之间的相关系数__________________(填充“大于0“或”小于0“)。
答案: ⑴⑶⑷
若施化肥量x与小麦产量y之间的回归直线方程为,当施化肥量为50kg时,预计小麦产量为__________。
解析:当时,。
答案:。
在某种产品表面进行腐蚀性试验,得到腐蚀深度y与腐蚀时间t之间对应的一组数据:
时间
t(s)
5
10
15
20
30
40
50
60
70
90
120
深度
y(μm)
6
10
10
13
16
17
19
23
25
29
46
(1)画出散点图;
(2)求腐蚀深度y对腐蚀时间t的回归直线方程.
解:(1)散点图为
(2)经计算可得
b=≈0.3,
a=-b=19.45-0.3×46.36≈5.542.
故所求的线性回归方程为=0.3t+5.542.
课件21张PPT。1.1回归分析的基本思想及初步应用必修3(第二章 统计)知识结构 收集数据 (随机抽样)整理、分析数据估计、推断简单随机抽样分层抽样系统抽样用样本估计总体变量间的相关关系 用样本的频率分布估计总体分布 用样本数字特征估计总体数字特征线性回归分析回顾复习1、两个变量的关系不相关相关关系函数关系线性相关非线性相关问题1:现实生活中两个变量间的关系有哪些呢?相关关系:对于两个变量,当自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系。回顾复习思考:相关关系与函数关系有怎样的不同?函数关系中的两个变量间是一种确定性关系
相关关系是一种非确定性关系 函数关系是一种理想的关系模型
相关关系在现实生活中大量存在,是更一般的情况问题2:对于线性相关的两个变量用什么方法来刻画之间的关系呢?2、最小二乘估计最小二乘估计下的线性回归方程:回归直线必过样本点的中心3、回归分析的基本步骤:画散点图求回归方程预报、决策这种方法称为回归分析.回归分析是对具有相关关系的两个变量进行统计
分析的一种常用方法. 比《数学3》中“回归”增加的内容数学3——统计
画散点图
了解最小二乘法的思想
求回归直线方程
y=bx+a
用回归直线方程解决应用问题选修1-2——统计案例
引入线性回归模型
y=bx+a+e
了解模型中随机误差项e产生的原因
了解相关指数 R2 和模型拟合的效果之间的关系
了解残差图的作用
利用线性回归模型解决一类非线性回归问题
正确理解分析方法与结果自学指导1:结合例1得出线性回归模型及随机误差,并且区分函数模型和回归模型。2:在线性回归模型中,e是用bx+a预报真实值y的随机误差,它是一个不可观测的量,那么应如何研究随机误差呢?3:如何发现数据中的错误?如何衡量随机模型的拟合效果?4:结合例1思考:用回归方程预报体重时应注意什么?5:归纳建立回归模型的基本步骤。阅读课本1页—6页思考回答下列问题(注意:时间12分钟)问题一:结合例1得出线性回归模型及随机误差。并且区分函数模型和回归模型。解:1、选取身高为自变量x,体重为因变量y,作散点图:2.回归方程:由于所有的样本点不共线,而只是散布在某一直线的附近,所以身高和体重的关系可以用线性回归模型来表示:其中a和b为模型的未知参数,e称为随机误差.思考:函数模型与“回归模型”的关系的区别函数模型:因变量y完全由自变量x确定
回归模型: 预报变量y完全由解释变量x和随机误差e确定(1)所用非确定性函数不恰当;

(2)忽略了某些因素的影响;

(3)观测误差。思考:产生随机误差项e的原因是什么?问题二:在线性回归模型中,e是用bx+a预报真实值y的随机误差,它是一个不可观测的量,那么应如何研究随机误差呢? 结合例1除了身高影响体重外的其他因素是不可测量的,不能希望有某种方法获取随机误差的值以提高预报变量的估计精度,但却可以估计预报变量观测值中所包含的随机误差,这对我们查找样本数据中的错误和模型的评价极为有用,因此在此我们引入残差概念。e=y-(bx+a)问题三:如何发现数据中的错误?如何衡量随机模型的拟合效果?法一:我们可以通过残差分析发现原始数据中的可疑数据,判断建立模型的拟合效果。残差图的制作和作用:
制作:坐标纵轴为残差变量,
横轴可以有不同的选择.可以为编号;可以为解释变量作用:判断模型的适用性若模型选择的正确,残差图中
的点应该分布在以横轴为中心的水平带状区域.下面表格列出了女大学生身高和体重的原始数据以及相应的残差数据。残差图的制作及作用。
坐标纵轴为残差变量,横轴可以有不同的选择;
若模型选择的正确,残差图中的点应该分布在以横轴为心的带形区域;
对于远离横轴的点,要特别注意。身高与体重残差图 几点说明:
第1个样本点和第6个样本点的残差比较大,需要确认在采集过程中是否有人为的错误。如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因。
另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。 显然,R2的值越大,说明残差平方和越小,也就是说模型拟合效果越好。在线性回归模型中,R2表示解释变量对预报变量变化的贡献率。 R2越接近1,表示回归的效果越好(因为R2越接近1,表示解释变量
和预报变量的线性相关性越强)。 如果某组数据可能采取几种不同回归方程进行回归分析,则可以通
过比较R2的值来做出选择,即选取R2较大的模型作为这组数据的模型。注:相关指数R2是度量模型拟合效果的一种指标。在线性模
型中,它代表自变量刻画预报变量的能力。法二:我们可以用相关指数R2来刻画回归的效果,其计算公式是 从上中可以看出,解释变量对总效应约贡献了64%,即
R2 0.64,可以叙述为“身高解释了64%的体重变化”,而随
机误差贡献了剩余的36%。
所以,身高对体重的效应比随机误差的效应大得多。下面我们用相关指数分析一下例1:; 问题四:结合例1思考:用回归方程预报体重时应注意什么?
1.回归方程只适用于我们所研究的样本的总体。
2.我们建立的回归方程一般都有时间性。
3.样本取值的范围会影响回归方程的适用范围。
4.不能期望回归方程得到的预报值就是预报变量的精确值。(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量。(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系
(如是否存在线性关系等)。(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则 选用线性回归方程y=bx+a).(4)按一定规则(如最小二乘法)估计回归方程中的参数。(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,或残差呈现不随机的规律性等),如存在异常,则检查数据是否有误,或模型是否合适等。问题五:归纳建立回归模型的基本步骤相关指数越大,效果越好残差平方和越小,效果越好 小结1.残差平方和与模型拟合效果关系:2.相关指数与模型拟合效果关系课件74张PPT。第一章 统计案例
1.1 回归分析的基本思想及
其初步应用【自主预习】
1.回归分析
(1)概念:回归分析是对具有相关关系的两个变量进行
统计分析的一种常用方法.
(2)步骤:画_______→求_________→用回归方程进行
_____.散点图回归方程预报2.线性回归模型
(1)在线性回归方程 = + x中, =____________
=___________, =______,其中 =_______,
=_______, ( , )称为变量_____________,回归
直线过样本点的中心.样本点的中心(2)线性回归模型y=bx+a+e,其中e称为_________,
自变量x称为_____变量,因变量y称为_____变量.随机误差解释预报3.刻画回归效果的方式残差样本编号身高数据体重估计值越窄越小解释预报【即时小测】
1.对于两个变量x,y,若当x取一定值时,y的取值
具有一定的随机性,x,y之间的这种非确定性关系
叫做(  )
A.函数关系      B.线性相关
C.相关关系 D.回归分析
【解析】选C.根据相关关系的定义知选C.2.散点图在回归分析过程中的作用是(  )
A.统计个体个数
B.比较个体数据的大小
C.研究个体分类
D.粗略判断变量是否线性相关
【解析】选D.根据散点图的意义及作用知选D.3.在建立两个变量y与x的回归模型中,分别选择了4个不同的模型,它们的相关指数R2如下,其中拟合效果最好的模型是(  )
A.模型1的相关指数R2=0.98
B.模型2的相关指数R2=0.80
C.模型3的相关指数R2=0.50
D.模型4的相关指数R2=0.25【解析】选A.因为回归模型的相关指数R2的值越大,拟合效果越好.4.已知回归方程 =2x+1,而试验得到一组数据是(2,
4.9),(3,7.1),(4,9.1),则残差平方和等于
________.
【解析】(4.9-5)2+(7.1-7)2+(9.1-9)2=0.03.
答案:0.03 【知识探究】
探究点1 线性回归分析
1.相关关系是确定性关系吗?
提示:相关关系是一种不确定性的关系.2.具有线性相关关系的两个变量,其散点图具有什么特征?
提示:散点图中的点大部分分布在一个带形区域内.即分布在某条直线的附近.【归纳总结】
对回归分析的三点说明
(1)回归分析的前提是两个变量之间具有相关关系.
(2)对两个变量之间数量变化进行一般关系的测定,确定一个相应的数学表达式,即线性回归方程,达到由一个已知量推测或控制另一个变量的值的目标,是统计的一个重要方法.(3)线性回归方程是根据样本数据得到的一个确定性的函数关系,是用来对未知变量进行预测的,为了预测的效果更好,减小误差,应在求线性回归方程时尽量多地选取样本,选择代表性较强的样本,使得预测值尽量地接近真实值.特别提醒:在对两个变量进行线性回归分析时,要首先结合观察数据画出散点图,确定它们之间具有线性相关关系后,再进行线性回归分析.探究点2 非线性回归分析
1.如何评价回归模型拟合效果的优劣?
提示:计算相关指数R2的值.R2越接近于1效果就越好.
2.对于非线性回归模型,如何处理?
提示:对于非线性回归模型可转化为线性回归模型来研究.【归纳总结】
1.数据拟合效果的比较
对于给定的样本点(x1,y1),(x2,y2),…,(xn,yn),两个含有未知参数的模型(1) 和
(2) 其中a和b都是未知参数,可以
按如下的步骤来比较它们的拟合效果:①分别建立对应于两个模型的回归方程 =f(x, )
与 =g(x, ),其中 和 分别是参数a和b的估计值.
②分别计算模型(1)和模型(2)的R12,R22.
③若R12>R22,则模型(1)的拟合效果比模型(2)好;若
R12<R22,则模型(1)的拟合效果不如模型(2).2.常见的几种变形形式
(1)幂函数曲线y=axb.
两边取对数变形为lny=lna+blnx,令y′=lny. x′=lnx,a′=lna,从而得到y′=a′+bx′.(2)指数函数曲线y=aeb x.
两边取对数变形为lny=lna+bx,令y′=lny,a′=lna,从而得到y′=a′+bx.(3)负指数函数曲线y=
两边取对数变形为lny=lna+ ,令y′=lny,
x′= ,a′=lna,得y′=a+bx′.
(4)对数函数曲线y=a+blnx.
令x′=lnx,得y=a+bx′.类型一 线性回归模型
【典例】1.(2016·东营高二检测)有下列说法:①线
性回归分析就是由样本点去寻找一条直线方程,刻画
这些样本点之间的关系的数学方法;②利用样本点的
散点图可以直观判断两个变量的关系是否可以用线性相关表示;③通过线性回归方程 及其回归系
数 ,可以估计和预报变量的取值和变化趋势;④因
为由任何一组观测值都可以求得一个线性回归方程,
所以没有必要进行相关性检验.其中正确说法的个数
是(  )
A.1    B.2   C.3  D.42.(2014·湖北高考)根据如下样本数据
得到的回归方程为 ,则(  )3.某种产品的广告费支出x(单位:百万元)与销售额y(单位:百万元)之间有如下对应数据:
(1)画出散点图.
(2)求y关于x的回归方程.【解题探究】1.典例1中,给定两个变量的一组样本点数据,都能进行线性回归分析吗?
提示:不是,只有当它们具有线性相关关系时,才能进行线性回归分析,否则没有意义.2.典例2中,回归直线方程中, , 的几何意义是什
么?
提示: 是回归直线的斜率. 是回归直线在y轴上的
截距.3.典例3中,画散点图的目的是什么?如何求关于x的回归直线方程?
提示:画散点图的目的是分析变量x,y之间是否存在线性相关关系;利用最小二乘法求y关于x的回归直线方程.【解析】1.选C.①反映的是最小二乘法思想,是正确
的;②反映的是散点图的作用,是正确的;③反映的
是求线性回归方程 的目的,也是正确的;
④不正确,在求回归方程之前,必须进行相关性检验,
以体现变量的相关关系.故有3个正确说法.2.选A.由散点图及 , 的意义知A正确.
3.(1)散点图如图所示.(2)列出下表,并用科学计算器进行有关计算.于是可得
=50-6.5×5=17.5.
于是所求的回归方程是 =6.5x+17.5【方法技巧】
1.求线性回归方程的三个步骤
(1)算:根据数据计算
(2)代:代入公式求 , 的具体数值.
(3)求:由上面的计算结果求方程 2.求线性回归方程的关键点
相关性的验证:求线性回归方程前必须判断两个变量是否线性相关,如果两个变量本身不具备相关关系,或者它们之间的相关关系不显著,那么即使求出回归方程也是毫无意义的.特别提醒:回归直线一定过样本点的中心( , ),
这在很多问题的求解中起着很重要的作用.【变式训练】已知一个回归直线方程 =1.5x+45,
xi∈{1,5,7,13,19},则 =(  )
A.53.5   B.55.5   C.58.5   D.60.5【解析】选C.因为回归直线过样本点的中心( ),

所以 =1.5 +45=1.5×9+45=58.5.类型二 线性回归分析
【典例】为研究质量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同质量的6个物体进行测量,数据如表所示:(1)作出散点图,并求线性回归方程.
(2)求出R2.
(3)进行残差分析.
【解题探究】本例中如何进行残差分析?
提示:通过残差表或残差图进行残差分析.【解析】(1)散点图如图所示.因为 ×(5+10+15+20+25+30)=17.5,
×(7.25+8.12+8.95+9.90+10.9+11.8)
≈9.487,
=2275, =1076.2.
计算得 ≈0.183, ≈6.285,
所以所求线性回归方程为 =6.285+0.183x.(2)列表如下:所以
所以
所以回归模型的拟合效果较好.(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与质量成线性关系.【延伸探究】1.在条件不变的情况下,画出残差图.
【解析】如图所示:2.当x=35时,估计y的值.
【解析】当x=35时, =6.285+0.183×35=12.69.【方法技巧】残差分析的思路
(1)要根据散点图来粗略判断它们是否线性相关,是否
可以用线性回归模型来拟合数据.
(2)通过残差 来判断模型拟合的效果,判断
原始数据中是否存在可疑数据,这种分析工作称为残
差分析,可以借助残差图来进行观察.【补偿训练】对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是(  )【解析】选A.用残差图判断模型的拟合效果,残差点比较均匀地落在水平带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,拟合精度越高.故选A.类型三 非线性回归分析
【典例】电容器充电后,电压达到100V,然后开始放电,由经验知道,此后电压U随时间t变化的规律用公式U=Aebt(b<0)表示,现测得时间t(s)时的电压U(V)如下表:试求电压U对时间t的回归方程.(提示:对公式两边取自然对数,把问题转化为线性回归分析问题)【解题探究】本例中如何对等式“U=Aebt”变形,使其符合线性回归分析?
提示:对U=Aebt两边取对数得lnU=lnA+bt,令y=lnU,a=lnA,x=t,则y=a+bx,进而借助线性回归分析求解,最后回代便可.【解析】对U=Aebt两边取对数得lnU=lnA+bt,令y=lnU,a=lnA,x=t,则y=a+bx,得y与x的数据如下表:根据表中数据作出散点图,如图所示,从图中可以看出,y与x具有较强的线性相关关系,由
表中数据求得 =5, ≈3.045,进而可以求得 ≈
-0.313, =4.61,所以y对x的线性回归方程为
y=4.61-0.313x.
由y=lnU,得U=ey,U=e4.61-0.313x,因此电压U对时间t
的回归方程为U=e4.61-0.313t.【方法技巧】求非线性回归方程的步骤
(1)确定变量,作出散点图.
(2)根据散点图,选择恰当的拟合函数.
(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.(4)分析拟合效果:通过计算相关指数或画残差图来判断拟合效果.
(5)根据相应的变换,写出非线性回归方程.【变式训练】若将函数y=axb转化为线性函数u=c+bv,则所作的变换是(  )
A.u=lny,v=lna,c=lnx
B.u=lnx,v=lny,c=lna
C.u=lna,v=lnx,c=lny
D.u=lny,v=lnx,c=lna【解析】选D.对y=axb两边取对数,得lny=lna+blnx.
令u=lny,v=lnx,c=lna,得u=c+bv.【补偿训练】(2016·南京高二检测)A地六年来轻工业产品利润总额y与年次x的试验数据如表所示:由经验知,年次x与利润总额y(单位:亿元)有近似如下的关系:y=abxe0,其中a,b为正数,求y关于x的回归方程.【解析】对y=abxe0两边取自然对数得lny=lnae0+xlnb,令z=lny,则z与x的数据如表:
由z=lnae0+xlnb及最小二乘法公式得:
lnb≈0.0477,lnae0≈2.378,
即 =2.378+0.0477x,故 =10.8×1.05x.自我纠错 求回归方程
【典例】在一化学反应过程中,某化学物质的反应速度y(g/min)与一种催化剂的量x(g)有关,现收集了如表所示的8组数据,试建立y与x的回归方程.【失误案例】分析解题过程,找出错误之处,并写出正确答案.
提示:错误的根本原因是解题前没有审好题,原题求的是回归方程,并不是回归直线方程,因此应首先进行相关性检验,然后再求回归方程,不能盲目地求回归直线方程,正确解答过程如下.【解析】根据收集的数据作散点图,如图所示.根据样本点的分布情况,可选用指数型函数模型y=
(c1,c2为待定的参数),令z=lny,则z=c2x+lnc1,即
变换后样本点应该分布在直线z=bx+a(a=lnc1,b=c2)
的周围,由y与x的数据表得z与x的数据表如下:作出z与x的散点图,如图所示,由图可以看出变换后的样本点分布在一条直线附近,所以可用线性回归方程来拟合.由表中数据可得 ≈0.1812, ≈-0.8485,故
=0.1812x-0.8485,所以 =e0.1812x-0.8485,因此该
化学物质的反应速度与催化剂的量的非线性回归方
程为 =e0.1812x-0.8485.课时提升作业 一
回归分析的基本思想及其初步应用
一、选择题(每小题5分,共25分)
1.下列四个命题中正确的是(  )
①在线性回归模型中,e是x+预报真实值y的随机误差,它是一个观测的量;②残差平方和越小的模型,拟合的效果越好;③用R2来刻画回归方程,R2越小,拟合的效果越好;④在残差图中,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,带状区域宽度越窄,说明拟合精度越高,回归方程的预报精度越高.
A.①③  B.②④  C.①④  D.②③
【解析】选B.e是预报变量y的随机误差,故①不正确;R2越接近1,拟合的效果越好,故③不正确.
2.甲、乙、丙、丁4位同学各自对A,B两个变量进行回归分析,分别得到散点图与残差平方和(yi-)2如表:




散点图
残差
平方和
115
106
124
103
哪位同学的试验结果体现拟合A,B两变量关系的模型拟合精度高?(  )
A.甲 B.乙 C.丙 D.丁
【解析】选D.根据线性相关的知识,散点图中各样本点带状分布越均匀,同时保持残差平方和越小,回归分析建立的线性回归模型的拟合效果越好.由试验结果知,丁拟合效果较好些.
3.关于残差的叙述正确的是(  )
A.残差就是随机误差
B.残差就是方差
C.残差都是正数
D.残差可以用来判断模型拟合的效果
【解析】选D.根据残差的意义及作用知,D正确.
4.(2018·大连高二检测)在一次试验中,测得(x,y)的4组值分别为A(1,2),B(2,3),C(3,4),D(4,5),则y与x之间的回归直线方程为(  )
A. =x+1 B. =x+2
C. =2x+1 D. =x-1
【解析】选A.由已知条件可知=,=,而回归直线必经过样本点的中心,故选项A符合题意.
5.(2018·济南高二检测)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是(  )
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(,)
C.若该大学某女生身高增加1cm,则其体重约增加0.85kg
D.若该大学某女生身高为170cm,则可断定其体重必为58.79kg
【解题指南】根据线性相关、回归直线、样本点的中心等相关概念判断.
【解析】选D.
选项
具体分析
结论
A
x的系数大于零,正相关
正确
B
由回归直线方程的计算公式=-可知直线l必过点(,)
正确
C
由一次函数的单调性知,x每增加1cm,体重平均增加0.85kg,是估计变量
正确
D
体重应约为58.79kg,估计变量
不正确
二、填空题(每小题5分,共15分)
6.对于回归方程=257+4.75x,当x=28时,y的估计值是________.
【解析】当x=28时,=257+4.75×28=390,
所以y的估计值为390.
答案:390
7.若对于变量y与x的10组数据的回归模型中,R2=0.95,又知残差平方和为120.53.那么(yi-)2=________.
【解析】由公式R2=1-
得0.95=1-得(yi-)2=2410.6.
答案:2410.6
8.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本.某白酒酿造企业市场部对该企业9月份的产品销量x(单位:千箱)与单位成本y (单位:元)的资料进行线性回归分析,结果如下:
=,=71,=79,xiyi=1481.
则销量每增加1000箱,单位成本下降________元.
【解析】由题意知=≈-1.8182,
=71-(-1.8182)×≈77.36,=-1.8182x+77.36,销量每增加1千箱,则单位成本下降1.8182元.
答案:1.8182
三、解答题(每小题10分,共20分)
9.(2018·武汉高二检测)某公司有6名推销员,其工作年限与年推销金额数据如下:
推销员编号
1
2
3
4
5
工作年限x(年)
3
5
6
7
9
年推销金额y(万元)
2
3
3
4
5
(1)求年推销金额y关于工作年限x的线性回归方程.
(2)若第6名推销员工作年限为11年,试估计他的年推销金额.
【解析】(1)设所求的回归方程为=x+,
则===0.5,
=-=0.4.
所以年推销金额y关于工作年限x的线性回归方程为=0.5x+0.4.
(2)当x=11时,=0.5×11+0.4=5.9(万元),
所以可以估计第6名推销员的年推销金额为5.9万元.
10.已知某校在一次考试中,5名学生的数学和地理成绩如表:
学生的编号i
1
2
3
4
5
数学成绩x
80
75
70
65
60
地理成绩y
70
66
68
64
62
(1)根据上表,利用最小二乘法,求出y关于x的线性回归方程=x+(其中=0.36).
(2)利用(1)中的线性回归方程,试估计数学90分的同学的地理成绩(四舍五入到整数).
(3)若从5人中选2人参加数学竞赛,其中1、2号不同时参加的概率是多少?
【解析】(1)=(80+75+70+65+60)=70,
=(70+66+68+64+62)=66,
=0.36,所以=-=40.8,
所以y关于x的线性回归方程为=0.36x+40.8.
(2)若x=90,则y=0.36×90+40.8≈73,
即数学90分的同学的地理成绩估计为73分.
(3)五人中选两人的不同选法有(1,2),(1,3),(1,4),(1,5),(2,3),(2,4),(2,5),(3,4),(3,5),(4,5)共10种不同选法.其中1,2号不同时参加的有9种,
所以1,2号不同时参加的概率P=.
一、选择题(每小题5分,共10分)
1.(2018·石家庄高二检测)为了研究两个变量x和y之间的线性相关关系,甲、乙两位同学分别独立做了100次和150次试验,并且利用最小二乘法求得回归直线分别为l1,l2.已知两人在试验中发现变量x的观察数据的平均值都是s,变量y的观察数据的平均值都是t.下列说法中正确的是(  )
A. l1和l2有交点(s,t)
B. l1与l2相交,但交点不一定是(s,t)
C. l1与l2必平行
D. l1与l2必重合
【解析】选A.由题意知,(s,t)是甲、乙两位同学所做试验的样本点的中心,而回归直线恒过样本点的中心,故A正确.
2.在某种新型材料的研制中,试验人员获得了下列一组试验数据,现准备用下列四个函数中的一个近似地表示这些数据的规律,其中最接近的一个是(  )
x
1.95
3.00
3.94
5.10
6.12
y
0.97
1.59
1.98
2.35
2.61
A.y=2x       B.y=log2x
C.y=(x2-1) D.y=2.61cosx
【解析】选B.作散点图,从图中观察可知,应为对数函数模型.
二、填空题(每小题5分,共10分)
3.(2018·福州高二检测)某人收集统计近几年来春节期间的平均气温x与某取暖商品销售额y的有关数据(如表):
平均气温(℃)
-2
-3
-5
-6
销售额(万元)
20
23
27
30
根据上述数据,用线性回归的方法,求得销售额y与平均气温x之间的线性回归方程为=x+中系数=-2.4,预测平均气温为-8℃时,该商品的销售额大约为________万元.
【解析】=-4,=25,即这组数据的样本点的中心为(-4,25),将=-2.4代入回归直线方程且回归直线过样本点中心得=15.4.故回归直线方程为=-2.4x+15.4.当x=-8时,=-2.4×(-8)+15.4=34.6.
答案:34.6
4.对具有线性相关关系的变量x和y,由测得的一组数据已求得回归直线的斜率为6.5,且恒过(2,3)点,则这条回归直线的方程为________.
【解析】由题意知=2,=3,=6.5,所以=-=3-6.5×2=-10,即回归直线的方程为=-10+2x.
答案:=-10+2x
三、解答题
5.(10分)(2018·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(xi-
)2
(wi-
)2
(xi-
)(yi-)
(wi-
)(yi-)
46.6
563
6.8
289.8
1.6
1 469
108.8
表中wi=,=wi.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程.
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为:=,=-.
【解析】(1)由散点图的变化趋势可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程.
由于===68,
=-=563-68×6.8=100.6,
所以y关于w的线性回归方程为=100.6+68w,因此y关于x的回归方程为=100.6+68.
(3)①由(2)知,当x=49时,年销售量y的预报值=100.6+68=576.6,
年利润z的预报值=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
【补偿训练】(2018·济宁高二检测)假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,现测得5组数据如下:
x
15.0
25.8
30.0
36.6
44.4
y
39.4
42.9
42.9
43.1
49.2
(1)以x为解释变量,y为预报变量作出散点图.
(2)求y与x之间的回归方程,对基本苗数56.7预报有效穗.
(3)计算各组残差,并计算残差平方和.
(4)求R2,说明回归模型的拟合效果.
【解析】(1)散点图如图所示:
(2)由(1)中的图看出,样本点大致分布在一条直线的附近,有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.
设回归方程为=x+,=30.36,=43.5,
=5101.56,
=1320.66,2=921.7296,
xiyi=6746.76.
由=≈0.29,=-≈34.70,
故所求的回归直线方程为=34.70+0.29x.
当x=56.7时,=34.70+0.29×56.7=51.143.
估计成熟期有效穗为51.143.
(3)由于=xi+,可以算得=yi-,分别为=0.35,=0.718,=-0.5,
=-2.214,=1.624,
残差平方和:≈8.43.
(4)(yi-)2=50.18,
故R2=1-≈0.832.
故回归模型拟合效果较好.
课时提升作业 一
回归分析的基本思想及其初步应用
一、选择题(每小题5分,共25分)
1.下列四个命题中正确的是(  )
①在线性回归模型中,e是x+预报真实值y的随机误差,它是一个观测的量;②残差平方和越小的模型,拟合的效果越好;③用R2来刻画回归方程,R2越小,拟合的效果越好;④在残差图中,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,带状区域宽度越窄,说明拟合精度越高,回归方程的预报精度越高.
A.①③  B.②④  C.①④  D.②③
【解析】选B.e是预报变量y的随机误差,故①不正确;R2越接近1,拟合的效果越好,故③不正确.
2.甲、乙、丙、丁4位同学各自对A,B两个变量进行回归分析,分别得到散点图与残差平方和(yi-)2如表:




散点图
残差
平方和
115
106
124
103
哪位同学的试验结果体现拟合A,B两变量关系的模型拟合精度高?(  )
A.甲 B.乙 C.丙 D.丁
【解析】选D.根据线性相关的知识,散点图中各样本点带状分布越均匀,同时保持残差平方和越小,回归分析建立的线性回归模型的拟合效果越好.由试验结果知,丁拟合效果较好些.
3.关于残差的叙述正确的是(  )
A.残差就是随机误差
B.残差就是方差
C.残差都是正数
D.残差可以用来判断模型拟合的效果
【解析】选D.根据残差的意义及作用知,D正确.
4.(2018·大连高二检测)在一次试验中,测得(x,y)的4组值分别为A(1,2),B(2,3),C(3,4),D(4,5),则y与x之间的回归直线方程为(  )
A. =x+1 B. =x+2
C. =2x+1 D. =x-1
【解析】选A.由已知条件可知=,=,而回归直线必经过样本点的中心,故选项A符合题意.
5.(2018·济南高二检测)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是(  )
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(,)
C.若该大学某女生身高增加1cm,则其体重约增加0.85kg
D.若该大学某女生身高为170cm,则可断定其体重必为58.79kg
【解题指南】根据线性相关、回归直线、样本点的中心等相关概念判断.
【解析】选D.
选项
具体分析
结论
A
x的系数大于零,正相关
正确
B
由回归直线方程的计算公式=-可知直线l必过点(,)
正确
C
由一次函数的单调性知,x每增加1cm,体重平均增加0.85kg,是估计变量
正确
D
体重应约为58.79kg,估计变量
不正确
二、填空题(每小题5分,共15分)
6.对于回归方程=257+4.75x,当x=28时,y的估计值是________.
【解析】当x=28时,=257+4.75×28=390,
所以y的估计值为390.
答案:390
7.若对于变量y与x的10组数据的回归模型中,R2=0.95,又知残差平方和为120.53.那么(yi-)2=________.
【解析】由公式R2=1-
得0.95=1-得(yi-)2=2410.6.
答案:2410.6
8.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本.某白酒酿造企业市场部对该企业9月份的产品销量x(单位:千箱)与单位成本y(单位:元)的资料进行线性回归分析,结果如下:
=,=71,=79,xiyi=1481.
则销量每增加1000箱,单位成本下降________元.
【解析】由题意知=≈-1.8182,
=71-(-1.8182)×≈77.36,=-1.8182x+77.36,销量每增加1千箱,则单位成本下降1.8182元.
答案:1.8182
三、解答题(每小题10分,共20分)
9.(2018·武汉高二检测)某公司有6名推销员,其工作年限与年推销金额数据如下:
推销员编号
1
2
3
4
5
工作年限x(年)
3
5
6
7
9
年推销金额y(万元)
2
3
3
4
5
(1)求年推销金额y关于工作年限x的线性回归方程.
(2)若第6名推销员工作年限为11年,试估计他的年推销金额.
【解析】(1)设所求的回归方程为=x+,
则===0.5,
=-=0.4.
所以年推销金额y关于工作年限x的线性回归方程为=0.5x+0.4.
(2)当x=11时,=0.5×11+0.4=5.9(万元),
所以可以估计第6名推销员的年推销金额为5.9万元.
10.已知某校在一次考试中,5名学生的数学和地理成绩如表:
学生的编号i
1
2
3
4
5
数学成绩x
80
75
70
65
60
地理成绩y
70
66
68
64
62
(1)根据上表,利用最小二乘法,求出y关于x的线性回归方程=x+(其中=0.36).
(2)利用(1)中的线性回归方程,试估计数学90分的同学的地理成绩(四舍五入到整数).
(3)若从5人中选2人参加数学竞赛,其中1、2号不同时参加的概率是多少?
【解析】(1)=(80+75+70+65+60)=70,
=(70+66+68+64+62)=66,
=0.36,所以=-=40.8,
所以y关于x的线性回归方程为=0.36x+40.8.
(2)若x=90,则y=0.36×90+40.8≈73,
即数学90分的同学的地理成绩估计为73分.
(3)五人中选两人的不同选法有(1,2),(1,3),(1,4), (1,5),(2,3),(2,4),(2,5),(3,4),(3,5),(4,5)共10种不同选法.其中1,2号不同时参加的有9种,
所以1,2号不同时参加的概率P=.
一、选择题(每小题5分,共10分)
1.(2018·石家庄高二检测)为了研究两个变量x和y之间的线性相关关系,甲、乙两位同学分别独立做了100次和150次试验,并且利用最小二乘法求得回归直线分别为l1,l2.已知两人在试验中发现变量x的观察数据的平均值都是s,变量y的观察数据的平均值都是t.下列说法中正确的是(  )
A. l1和l2有交点(s,t)
B. l1与l2相交,但交点不一定是(s,t)
C. l1与l2必平行
D. l1与l2必重合
【解析】选A.由题意知,(s,t)是甲、乙两位同学所做试验的样本点的中心,而回归直线恒过样本点的中心,故A正确.
2.在某种新型材料的研制中,试验人员获得了下列一组试验数据,现准备用下列四个函数中的一个近似地表示这些数据的规律,其中最接近的一个是(  )
x
1.95
3.00
3.94
5.10
6.12
y
0.97
1.59
1.98
2.35
2.61
A.y=2x       B.y=log2x
C.y=(x2-1) D.y=2.61cosx
【解析】选B.作散点图,从图中观察可知,应为对数函数模型.
二、填空题(每小题5分,共10分)
3.(2018·福州高二检测)某人收集统计近几年来春节期间的平均气温x与某取暖商品销售额y的有关数据(如表):
平均气温(℃)
-2
-3
-5
-6
销售额(万元)
20
23
27
30
根据上述数据,用线性回归的方法,求得销售额y与平均气温x之间的线性回归方程为=x+中系数=-2.4,预测平均气温为-8℃时,该商品的销售额大约为________万元.
【解析】=-4,=25,即这组数据的样本点的中心为(-4,25),将=-2.4代入回归直线方程且回归直线过样本点中心得=15.4.故回归直线方程为=-2.4x+15.4.当x=-8时,=-2.4×(-8)+15.4=34.6.
答案:34.6
4.对具有线性相关关系的变量x和y,由测得的一组数据已求得回归直线的斜率为6.5,且恒过(2,3)点,则这条回归直线的方程为________.
【解析】由题意知=2,=3,=6.5,所以=-=3-6.5×2=-10,即回归直线的方程为=-10+2x.
答案:=-10+2x
三、解答题
5.(10分)(2018·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(xi-
)2
(wi-
)2
(xi-
)(yi-)
(wi-
)(yi-)
46.6
563
6.8
289.8
1.6
1 469
108.8
表中wi=,=wi.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程.
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为:=,=-.
【解析】(1)由散点图的变化趋势可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程.
由于===68,
=-=563-68×6.8=100.6,
所以y关于w的线性回归方程为=100.6+68w,因此y关于x的回归方程为=100.6+68.
(3)①由(2)知,当x=49时,年销售量y的预报值=100.6+68=576.6,
年利润z的预报值=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
【补偿训练】(2018·济宁高二检测)假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,现测得5组数据如下:
x
15.0
25.8
30.0
36.6
44.4
y
39.4
42.9
42.9
43.1
49.2
(1)以x为解释变量,y为预报变量作出散点图.
(2)求y与x之间的回归方程,对基本苗数56.7预报有效穗.
(3)计算各组残差,并计算残差平方和.
(4)求R2,说明回归模型的拟合效果.
【解析】(1)散点图如图所示:
(2)由(1)中的图看出,样本点大致分布在一条直线的附近,有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.
设回归方程为=x+,=30.36,=43.5,
=5101.56,
=1320.66,2=921.7296,
xiyi=6746.76.
由=≈0.29,=-≈34.70,
故所求的回归直线方程为=34.70+0.29x.
当x=56.7时,=34.70+0.29×56.7=51.143.
估计成熟期有效穗为51.143.
(3)由于=xi+,可以算得=yi-,分别为=0.35,=0.718,=-0.5,
=-2.214,=1.624,
残差平方和:≈8.43.
(4)(yi-)2=50.18,
故R2=1-≈0.832.
故回归模型拟合效果较好.