课件53张PPT。统计案例第一章1.1 回归分析的基本思想及其初步应用第一章通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系.
通过求线性回归方程,探究相关性检验的基本思想.
通过对典型案例的探究,体会回归分析在生产实际和日常生活中的广泛应用.重点:了解线性回归模型与函数模型的差异,了解判断刻画模型拟合效果的方法——相关指数和残差分析.
难点:解释残差变量的含义,回归直线系数的计算求解.思维导航
1.下列图中的y与x相关吗? 相关关系
新知导学
1.当一个变量取值改变时,另一个变量的取值随之改变,但带有__________,这样的两个变量之间的关系叫做相关关系.随机性思维导航
2.上图2中各点散布在一条直线附近,可否用这条直线对y随x的变化作出近似估计?如果可以,这条直线怎样求?如何刻画这种估计的可靠性?线性回归分析 新知导学
2.回归分析是处理两个变量之间__________常用的一种统计方法.若两个变量之间具有线性相关关系,则称相应的回归分析为________________.相关关系线性回归分析4.线性相关关系强与弱的判断:用相关系数r来描述线性相关关系的强弱.当r>0时,表明两个变量__________;当r<0时,表明两个变量__________.r的绝对值越接近1,表明两个变量的线性相关性越_____;r的绝对值接近于0时,表明两个变量之间_____________线性相关关系.通常当|r|大于______时,认为两个变量有很强的线性相关关系.
5.随机误差的概念:当样本点散布在某一条直线的附近,描述两个变量之间的关系是用线性回归模型____________来表示,其中_____为模型的未知参数,____称为随机误差.正相关负相关强几乎不存在0.75y=bx+a+ea和be贡献率 好新知导学
7.在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据,然后,通过残差______________,来判断模型拟合的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析.残差分析 8.利用图形来分析残差特性,作图时纵坐标为_____,横坐标可以选为________,这样作出的图形称为残差图.如果图中有某个样本点的残差比较大,需要确认在采集这个样本点的过程中是否有人为的错误.如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因.另外,残差点比较均匀地落在_______ _________中,说明选用的模型比较合适.这样的带状区域的宽度越____,说明模型拟合精度越高,回归方程的预报精度越高.
回归分析问题有线性回归问题和非线性回归问题,对于非线性回归问题,往往利用转换变量的方法转化为线性回归问题.残差样本编号水平的带状区域窄[答案] C
2.在两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是( )
A.模型1的相关指数R2为0.98
B.模型2的相关指数R2为0.80
C.模型3的相关指数R2为0.50
D.模型4的相关指数R2为0.25
[答案] A
[解析] 相关指数R2的取值范围为[0,1],其中R2=1,即残差平方和为0,此时预测值与观测值相等,y与x是函数关系,也就是说在相关关系中R2越接近于1,说明随机误差的效应越小,y与x相关程度越大,模型的拟合效果越好.R2=0,说明模型中x与y无关,故选A.
3.为了考察两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做了100次和150次试验,并且利用线性回归方法,求得回归直线分别为l1和l2,已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法正确的是( )
A.l1和l2有交点(s,t)
B.l1与l2相关,但交点不一定是(s,t)
C.l1与l2必定平行
D.l1与l2必定重合
[答案] A
[解析] 由题意知(s,t)是甲、乙两位同学所做试验的样本点的中心,而线性回归直线恒过样本点的中心,故选A.
[答案] 8.955.已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),则回归直线方程是________.概念的理解和判断 ④因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.
其中正确命题的个数是( )
A.1 B.2
C.3 D.4
[分析] 由题目可获取以下信息:
①线性回归分析;
②散点图;
③相关性检验等的相关概念及意义.
解答本题可先逐一核对相关概念及其性质,然后再逐一作出判断,最后得出结论.[答案] C
[方法规律总结] 解答概念辨析题,应紧扣线性回归分析中每个概念的定义进行,要准确把握概念的内涵.下面变量关系是相关关系的是( )
①学生的学习态度与学习成绩之间的关系;
②教师的执教水平与学生的学习成绩之间的关系;
③学生的身高与学生的学习成绩之间的关系;
④家庭的经济条件与学生的学习成绩之间的关系.
A.①② B.①③
C.②③ D.②④
[答案] A
[解析] ①②是相关关系,③④是非相关关系.回归直线方程 [解析] (1)散点图如图所示.(2)列出下表,并用科学计算器进行有关计算. [答案] A线性回归分析 [解析] (1)散点图如下图所示:
(3)由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与拉力呈线性关系.由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型.[方法规律总结] 1.线性回归分析的过程:
(1)随机抽取样本,确定数据,形成样本点;
(2)由样本点形成散点图,判定是否具有线性相关关系;
(3)由最小二乘法求线性回归方程;
(4)进行残差分析,分析模型的拟合效果,不合适时,分析错因,予以纠正;
(5)依据回归方程作出预报.
2.用散点图可粗略判断两个变量间有无线性相关关系,用相关指数R2可以描述两个变量之间的密切程度. 3.随机误差及其产生的原因
从散点图中我们可以看到,样本点散布在某一条直线附近,而不是在一条直线上,所以不能用一次函数y=bx+a来描述它们之间的关系,而是用线性回归模型y=bx+a+e来表示,其中e称为随机误差.产生随机误差的主要原因有以下3个方面:
(1)用线性回归模型近似真实模型所引起的误差.可能存在非线性的函数能更好地描述y与x之间的关系,但是现在却用线性函数来表述这种关系,结果会产生误差.这种由模型近似所引起的误差包含在e中.
(2)忽略了某些因素的影响.影响变量y的因素不只变量x,可能还包括其他许多因素(例如在描述身高和体重关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响),它们的影响都体现在e中.
(3)观测误差.由于测量工具等原因,导致y的观测值产生误差(比如一个人的体重是确定的数,但由于测量工具的影响和测量人技术的影响可能会得到不同的观测值,与真实值之间存在误差),这样的误差也包含在e中.
在线性回归模型中,R2表示解释变量对预报变量变化的贡献率.R2越接近于1,表示解释变量和预报变量的线性相关性越强;反之,R2越小,说明随机误差对预报变量的效应越大.
(3)由题中数据可得样本相关系数r的值为0.999 8,再结合散点图可以说明x与y有很强的线性相关关系.由R2的值可以看出回归效果很好,也说明用线性回归模型拟合数据效果很好.
由残差图也可以观察到,第4个样本点和第5个样本点的残差比较大,需要确认在采集在这两个样本点的过程中是否有人为的错误.[辨析] 明确R2的大小与拟合效果的关系
用相关指数R2来比较模型的拟合效果,R2越大,模型的拟合效果越好,并不是R2越小模型的拟合效果越好.