课件67张PPT。第一章 统计案例
1.1 回归分析的基本思想及其初步应用1.回归分析
回归分析是对具有_________的两个变量进行统计分析的一
种常用方法,回归分析的基本步骤是_____________________,
___________,并用回归方程进行预报.相关关系画出两个变量的散点图求回归方程2.线性回归模型
(1)在线性回归方程 = + x中, =_______________,
=_______,其中 =__________, =_______,( , )
称为变量_____________,回归直线过样本点的中心.
(2)线性回归模型y=bx+a+e,其中e称为_________,自变量
x称为_____变量,因变量y称为_____变量.样本点的中心随机误差解释预报3.刻画回归效果的方式残差样本编号身高数据体重估计值越窄越小解释预报1.判一判(正确的打“√”,错误的打“×”)
(1)在线性回归模型中,e是bx+a预报真实值y的随机误差,它是一个可观测的量. ( )
(2)求线性回归方程前可以不进行相关性检验. ( )
(3)在残差图中,纵坐标为残差,横坐标可以选为样本编号.( )【解析】(1)错误.e是一个不可观测的量.
(2)错误.在求线性回归方程前必须检验两个变量是否具有线性相关关系,具有线性相关关系时,求出的线性回归方程才有意义.
(3)正确.以纵坐标为残差,横坐标为样本编号,这样作出的图形称为残差图.
答案:(1)× (2)× (3)√2.做一做(请把正确的答案写在横线上)
(1)相关关系主要包括两类,即 .
(2)用R2来刻画回归方程,R2越小,拟合的效果 .
(3)已知线性回归方程 =0.75x+0.7,则x=11时,y的估计值为 .【解析】(1)相关关系主要包括线性相关关系和非线性相关关系.
答案:线性相关和非线性相关
(2)由R2=1- 知,R2越小,残差平方和
越大,即模型的拟合效果越差.
答案:越差
(3)由回归方程知 =0.75×11+0.7=8.95,即y的估计值为8.95.
答案:8.95【要点探究】
知识点1 回归分析
1.对回归分析的三点说明
(1)回归分析的前提是两个变量之间具有相关关系.
(2)对两个变量之间数量变化进行一般关系的测定,确定一个相应的数学表达式,即线性回归方程,达到由一个已知量推测或控制另一个变量的值的目标,是统计的一个重要方法.(3)线性回归方程是根据样本数据得到的一个确定性的函数关系,是用来对未知变量进行预测的,为了预测的效果更好,减小误差,应在求回归方程时尽量多地选取样本,选择代表性较强的样本,使得预测值尽量地接近真实值.2.随机误差产生的三个原因
(1)由线性回归模型近似真实模型所引起的误差.可能存在非线性的函数能够更好地描述y与x之间的关系,但是现在却用线性函数来表述这种关系,结果会产生误差.这种由模型近似所引起的误差包含在e中.
(2)忽略了某些因素的影响.影响变量y的因素不只有变量x,可能还包括其他许多因素,它们的影响都体现在e中.
(3)观测误差.由于测量工具等原因,导致y的观测值产生误差(比如一个人的体重是确定的数,不同的秤可能会得到不同的观测值,与真实值之间存在误差),这样的误差也包含在e中.【微思考】
(1)回归分析中,利用线性回归方程求出的函数值一定是真实值吗?为什么?
提示:不一定是真实值.利用线性回归方程求出的值,在很多时候是个预报值.例如,人的体重与身高存在一定的线性关系,但体重除了受身高影响外,还受其他因素的影响,如饮食,是否喜欢运动等.
(2)在线性回归模型y=bx+a+e中,e的作用是什么?
提示:e的作用是提供选择模型的准则以及在模型合理的情况下探究最佳估计值a,b的工具. 【即时练】
一位母亲记录了儿子3~9岁的身高数据,并由此建立的身高
与年龄的回归模型为 =7.19x+73.93,用这个模型预测这个孩子10岁时的身高,则下列说法正确的是 ( )
A.身高一定是145.83cm
B.身高在145.83cm以上
C.身高在145.83cm左右
D.身高在145.83cm以下
【解析】选C.由回归直线方程所得到的预报变量的值并不是y的精确值,而是预报变量取值的平均值.知识点2 数据拟合效果
数据拟合效果的比较
对于给定的样本点(x1,y1),(x2,y2),…,(xn,yn),两个含有未知参数的模型
其中a和b都是未知参数,可以按如下的步骤来比较它们的拟合效果:①分别建立对应于两个模型的回归方程 =f(x, )与
=g(x, ),其中 和 分别是参数a和b的估计值.
②分别计算模型(1)和模型(2)的,
③若 则模型(1)的拟合效果比模型(2)好;如果
则模型(1)的拟合效果不如模型(2).【知识拓展】
1.正确认识预报变量的变化和随机误差的关系
预报变量的变化程度可以分解为解释变量引起的变化程度与残差变量的变化程度之和,其中这个变化与解释变量和随机误差(即残差平方和)有关的程度是由相关指数R2的值决定的.
2.解释变量和随机误差的关系
在线性回归模型中,R2表示解释变量对预报变量变化的贡献率.R2越接近于1,表示解释变量和预报变量的线性相关性越强;反之,R2越小,说明随机误差对预报变量的效应越大.3.两种特殊非线性回归模型的转化
(1)将幂函数型函数y=axm(a为正的常数,x,y取正值)化为线性函数.
如果将y=axm两边同取以10为底的对数,则有lgy=mlgx+lga.令u=lgy,v=lgx,lga=b,代入上式,得u=mv+b,其中m,b是常数.这是u,v的线性函数.如果以u为纵坐标,v为横坐标,则u=mv+b的图象就是一条直线.(2)将指数型函数y=cax(a>0且a≠1,c>0且为常数)化为线性函数.
将y=cax两边同取以10为底的对数,有lgy=xlga+lgc,令lgy=u,lga=k,lgc=b,得u=kx+b,其中,k和b是常数,与幂函数型函数不同的是x依然保持原来的,只是用y的常用对数lgy代替了y.【微思考】
相关指数R2的作用是什么?
提示:利用相关指数R2可以刻画数据拟合效果的好坏.在线性回归模型中,R2的值越接近1,说明残差平方和越小,即说明模型的拟合效果越好.【即时练】
有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适;②用相关指数R2来刻画回归的效果,R2值越大,说明模型的拟合效果越好;③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.其中正确命题的个数是 ( )
A.0 B.1 C.2 D.3【解析】选D.若残差图中样本点比较均匀地落在水平的带状区域中,说明模型选择比较合适,而且带状区域的宽度越窄,模型拟合的精度越高;残差平方和越小,说明拟合效果越好;而相关指数R2的值越大,说明拟合效果越好. 【题型示范】
类型一 线性回归方程及回归分析
【典例1】
(1)已知一个回归方程为 =1.5x+45,
x∈{1,7,5,13,19},则 = ( )
A.9 B.45 C.58.5 D.1.5(2)如图所示的是四个残差图,其中回归模型的拟合效果最好的是( )(3)为研究质量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同质量的6个物体进行测量,数据如下表所示:
①作出散点图,并求线性回归方程;
②求出R 2;
③进行残差分析.【解题探究】1.题(1)中回归方程一定过什么点?
2.题(2)中残差图的分布与模型的拟合效果之间有怎样的关系?
3.题(3)中解决的关键是什么?主要利用什么进行残差分析?【探究提示】1.回归方程一定过样本中心( ).
2.残差图分布在一个水平带状区域,区域宽度越窄数据拟合越好.
3.关键是熟练掌握R2的公式,求 的公式,做残差分析时可利用残差表.【自主解答】(1)选C.由回归方程 =1.5x+45知 =1.5, =45,
又 由公式得
(2)选B.选项A和B中的残差图都是水平带状分布并且选项B的残差图散点分布集中,在更狭窄的范围内,所以B中回归模型的拟合效果最好.(3)①散点图如图所示. ×(5+10+15+20+25+30)
=17.5,
×(7.25+8.12+8.95+9.90+10.9+11.8)
≈9.487,
计算得 ≈0.183, ≈6.285,
所以所求线性回归方程为 =6.285+0.183x.②列表如下:所以 ≈0.013 18,
=14.678 4.
所以R 2≈1- ≈0.999 1,
所以回归模型的拟合效果较好.③由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与质量成线性关系.【延伸探究】题(3)中③在条件不变的情况下,画出残差图.
【解析】如图所示.【方法技巧】
1.求线性回归方程的三个步骤
(1)算:根据数据计算 , ,
(2)代:代入公式求 , 的具体数值.
(3)求:由上面的计算结果求方程 = x+ .2.求线性回归方程的三个关键点3.解决线性回归问题的思路
首先通过散点图来分析两变量间是否线性相关,然后利用求回归方程的公式求解回归方程,最后借助回归方程对实际问题进行分析.【变式训练】某班5名学生的数学和物理成绩如表:(1)画出散点图.
(2)求物理成绩y对数学成绩x的线性回归方程.
(3)一名学生的数学成绩是96,预测他的物理成绩.【解题指南】按照求回归方程的步骤求解,先求 , ,
代入公式求 , ,最后写出方程并进行预测.【解析】(1)散点图如图.(2) ×(88+76+73+66+63)=73.2,
×(78+65+71+64+61)=67.8.
=88×78+76×65+73×71+66×64+63×61=25 054.
=882+762+732+662+632=27 174,
所以y对x的回归直线方程是 =0.625x+22.05.(3)当x=96时, =0.625×96+22.05≈82,即可以预测他的物理成绩是82.【补偿训练】某工厂1~8月份某种产品的产量与成本的统计数据见下表:设产量为x,成本为y,试建立函数模型近似表示x,y的关系.【解析】散点图如图所示.从图上可以看出,这些点基本上散布在一条直线附近,可以认为x和y线性相关关系显著,下面求其回归方程,首先列出下表: =6.85, =157.25,
≈157.25-22.17×6.85≈5.39.
故线性回归方程 =22.17x+5.39.类型二 非线性回归分析
【典例2】
(1)两个变量的散点图如图,可考虑
用如下函数进行拟合比较合理的是
( )
A.y=a·xb B.y=a+blnx
C.y=a·ebx D.y=a·(2)在一次抽样调查中,测得样本的5个样本点的数值如下表:试写出y与x之间的回归方程.【解题探究】1.题(1)中,散点图中的点在某条直线附近吗?与我们学过的哪种函数图象相似?
2.题(2)中求回归方程的第一步需做什么?求解非线性回归模型问题的关键是什么?
【探究提示】1.题(1)中的散点不在某条直线附近,与我们学过的对数函数图象类似.
2.第一步需作散点图,求解非线性回归模型问题的关键是回归模型的选取.【自主解答】(1)选B.由散点图知,此曲线类似对数函数型曲线,可用B项函数进行拟合.
(2)根据表中的数据作图,其散点图如图所示.根据散点图可知,y与x近似地呈反比例函数关系,设y=
令t= ,则y=kt,可得下表:根据上表的数据作出散点图如图所示.根据散点图可以看出y与t近似地呈线性相关关系,列表如下:所以 =1.55, =7.2,
≈0.791 7,所以 =4.134 4t+0.791 7,
所以y与x之间的回归方程是 +0.791 7.【方法技巧】求非线性回归方程的步骤
(1)确定变量,作出散点图.
(2)根据散点图,选择恰当的拟合函数.
(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.
(4)分析拟合效果:通过计算相关指数或画残差图来判断拟合效果.
(5)根据相应的变换,写出非线性回归方程.【变式训练】在一个化学反应过程中,某化学物质的反应速度y(g/分)与一种催化剂的量x(g)有关,现收集了8组数据列于表中,试建立y与x之间的回归方程.【解题指南】首先画出散点图,根据散点图考虑把非线性相关关系转化为线性相关关系来解决.【解析】根据收集的数据作散点图,如图所示.根据x与y的散点图可以认为样本点集中在某一条指数型
函数曲线y= 的周围.
令Z=lny,则Z=c2x+lnc1,即变换后样本点应该分布在直线Z=bx+a(a=lnc1,b=c2)的周围.由题意得变换后Z与x的样本数据表:Z与x的散点图如图所示.由散点图可观察到样本数据点大致分布在一条直线附近,所以可用线性回归方程来拟合它.
由Z与x的样本数据表得到线性回归方程 =0.1812x-0.8485,
所以非线性回归方程为 =e0.1812x-0.8485.
因此该化学物质反应速度对催化剂的量的非线性回归方程为
=e0.1812x-0.8485.Z【补偿训练】今有一组数据,如下表:现准备从以下函数中选择一个近似地表示这组数据满足的规律,其中拟合最好的是 ( )
A.y=-2x-2 B.y= log2x
C.y=2x-1+1 D.y= x2-【解题指南】观察表中的数据发现随着x的增加,数据y的递增速度越来越快,根据基本初等函数的图象和性质,逐一比照其变化趋势和表中数据的变化趋势,可以从变化趋势上选择恰当的函数关系.【解析】选D.把x看作自变量,y看作其函数值,从表中数据的变化趋势看,函数递增的速度不断加快.对照四个选项,
A选项是以一个恒定的幅度变化,其图象是直线型的,不符合本题的变化规律.
B选项是对数型函数,随着x的增大y的递增速度不断变慢,不符合本题的变化规律.
C选项是指数型函数,随着x的增大y的递增速度不断变快,但增长速度超出题目中y的增长速度,不符合本题的变化规律.
D选项是二次函数对比数据知,其最接近实验数据的变化趋势,故选D.【易错误区】对回归系数的含义理解错误
【典例】废品率x%和每吨生铁成本y(元)之间的回归直线方程为 =256+3x,表明 ( )
A.废品率每增加1%,生铁成本增加259元
B.废品率每增加1%,生铁成本增加3元
C.废品率每增加1%,生铁成本平均每吨增加3元
D.废品率不变,生铁成本为256元【解析】选C.回归方程的系数 表示x每增加一个单位,
平均增加 ,当x为1时,废品率应为1%,故当废品率为1%时,生铁成本平均每吨增加3元.【常见误区】【防范措施】
理解回归方程中系数的含义
表示自变量x每变动一个单位时, 的平均变动值,也可
认为是直线的斜率.如本例 的含义是x每增加一个单位,
平均增加 .【类题试解】工人月工资y(元)依劳动生产率x(千元)变化的回归直线方程为 =60+90x,下列判断正确的是 ( )
A.劳动生产率提高1000元时,工资提高150元
B.劳动生产率提高1000元时,工资平均提高150元
C.劳动生产率提高1000元时,工资提高90元
D.劳动生产率提高1000元时,工资平均提高90元
【解析】选D.在 = x+ 中, 的统计学意义是解释变量每
增加一个单位,预报变量的平均水平改变 个单位.