1.1回归分析的基本思想及其初步应用(38张PPT)

文档属性

名称 1.1回归分析的基本思想及其初步应用(38张PPT)
格式 zip
文件大小 1.5MB
资源类型 教案
版本资源 人教新课标A版
科目 数学
更新时间 2020-02-14 13:52:21

图片预览

文档简介

(共38张PPT)
1.1回归分析的基本思想

其初步应用
在《数学3》中,我们对两个具有线性相关关系的变量利用回归分析的方法进行了研究,其步骤为:
画散点图
求回归直线方程
用直线方程进行预报
函数关系是一种确定性关系,而相关关系是一种非确定性关系.那么,这节课我们就学习对具有相关关系的两个变量进行统计分析的一种常用方法——回归分析.
提问:“名师出高徒”这句彦语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?
对于一组具有线性相关关系的数据
(x1,y1),(x2,y2),…,(xn,yn),
我们知道回归直线y=bx+a的斜率和截距的最小二乘估计分别为
其中
称为样本点的中心,你能推导出这两个计算公式吗?
回归直线过样本点的中心
从已经学过的知识我们知道,斜距 和斜率
分别是使
取最小时 的值.由于
在上式中,后两项和 无关,而前两项为非负数,因此要使Q取得最小值,当且仅当前两项的值均为0,即有
这正是我们所要推导的公式.
从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:
求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重.
编 号  1  2  3  4  5  6  7  8
身高/cm 165 165 157 170 175 165 155 170
体重/kg 48 57 50 54 64 61 43 59
第一步:画散点图
第二步:求回归方程
第三步:代值计算
身高为172cm的女大学生的体重一定是60.316kg吗?如果不是,其原因是什么?
计算器得:

故线性回归方程:
当x=172时,
显然,身高172cm的女大学生的体重不一定是60.316kg,但一般可以认为她的体重在60.316kg左右,下图中的样本点和回归直线的相互位置说明了这一点.
由于所有的样本点不共线,而只是散布在某一条直线的附近,所以身高和体重的关系可用线性回归模型
y=bx+a+e
来表示,这里a和b为模型的未知参数,e是y与bx+a之间的误差.通常e为随机变量,称为随机误差.它的均值E(e)=0,方差D(e)=?2>0,这样线性回归的完整表达式为
y=bx+a+e
E(e)=0, D(e)=?2.
注意
存在误差的原因
(1)随机误差,其大小取决于随机误差的方差. 在线性回归模型中,随机误差e的方差? 2越小 ,用bx+a预报真实值y的精度越高.
(2) 和 为斜率和截距的估计值,它们与真实值a和b之间也存在误差.
要牢记!
在线性回归模型中,e是用bx+a预报真实值y的随机误差,它是一个不可观测的量,那么应该怎样研究随机误差呢?
在实际应用中,我们用回归方程
中的 估计bx+a. 由于随机误差e=y-(bx+a),所以 是e的估计值. 对于样本点
(x1,y1),(x2,y2),…,(xn,yn)
而言,它们的随机误差为
ei=yi-bxi-a,i=1,2,…,n,
其估计值为
称为相应于点(xi,yi)的残差(residual).
要牢记!
思考
  如何发现数据中的错误?如何衡量模型的拟合效果?
(1)可以利用残差图来分析残差特性;
(2)可以利用.
来刻画回归的效果.
何为残差图?
残差图
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图.
要牢记!
对R2的理解
(1)在含有一个解释变量的线性模型中, R2恰好等于相关系数r的平方.
(2)对于已经获取的样本数据, R2表达式中的
为确定的数.
因此R2越大,意味着残差平方和
越小,即模型的拟合效果越好;反之,越差.
要牢记!
用身高预报体重时,需要注意以下问题
(1)回归方程只适用于我们所研究的样本总体;
(2)我们所建立的回归方程一般都有时间性;
(3)样本取值的范围会影响回归方程的适用范围;
(4)不能期望回归方程得到的预报值就是预报变量的精确值.
建立回归模型的基本步骤:
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
(2)画出解释变量和预报变量的散点图,观察它们之间的关系;
(3)由经验确定回归方程的类型;
(4)按一定规则估计回归方程中的参数;
(5)得出结果后分析残差图是否有异常,若有异常,检查数据是否有误,或模型是否合适等.
要牢记!
为了对x、Y两个变量进行统计分析,现有以下两种线性模型 和 试比较哪一个模型拟合的效果更好.
关于X与Y有如下数据:
  
x 2 4 5 6 8
y 30 40 60 50 70
分析:既可分别求出两种模型下的总偏差平方和、残差平方和、回归平方和,也可分别求出两种模型下的相关指数,然后再进行比较,从而得出结论.

84.5%>82%,所以甲选用的模型拟合效果较好.

  1.数学知识
(1)建立回归模型及残差图分析的基本步骤;
(2)不同模型拟合效果的比较方法;
(3)相关指数和残差的分析.
  2. 数学思想
数形结合的思想,化归思想及整体思想.
  3.数学方法
数形结合法,转化法,换元法.
1. (2017年浙江)某校有学生2000人,其中高三学生500人,为了了解学生身体素质情况,采用按年级分层抽样的方法,从该学生中抽取一个200人的样本,则样本中高三学生的人数为_________.
解析:本题考查抽样的方法. 由已知抽样比200/2000=1/10,故样本中高三学生数为500*(1/10)=50.
2.(2018年广东)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程
x 3 4 5 6
y 2.5 3 4 4.5
(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?
解析: (1)如下图
故线性回归方程为y=0.7x+0.35.
(3)根据回归方程的预测,现在生产100吨产品消耗的标准煤的数量为0.7×100+0.35=70.35.
1.选择
(1)下列说法中正确的有:( )
①若r>0,则x增大时,y也相应增大;
②若r<0,则x增大时,y也相应增大;
③若r=1或r=-1,则x与y的关系完全对应(由函数关系),在散点图上各个点均在一条直线上
A. ① ② B. ② ③ C. ① ③ D. ① ② ③
C
解析:
若r>0,表示两个相关变量正相关,x增大时,y也相应增大,故①正确. r<0,表示两个变量负相关,x增大时,y也相应减小,故②错误. |r|越接近1,表示两个变量相关性越高,|r|=1表示两个变量有确定的关系(即函数关系),故③正确.
(2)对两个变量y与x进行回归分析,分别选择不同的模型,它们的相关系数r如下,其中拟合效果最好的模型是( )
A.模型Ⅰ的相关系数r为0.98
B.模型Ⅱ的相关系数r为0.80
C.模型Ⅲ的相关系数r为0.50
D.模型Ⅳ的相关系数r为0.25
解析:根据相关系数的定义和计算公式可知,|r|≦1,且|r|越接近于1,相关程度越大,拟合效果越好;|r|越接近于0,相关程度越小,拟合效果越弱.
A
(3)对有线性相关关系的两个变量建立的回归直线方程 中,回归系数 ( )
A.可以小于0 B.小于0
C.能等于0 D.只能等于0
解析: 时,得r=0,这时不具有线性相关性,但 能大于0,也能小于0.
A
2.解答题
(1)现随机抽取了我校10名学生在入学考试中的数学成绩(x)与入学后的第一次考试中的数学成绩(y),数据如下:
试问这10个学生的两次数学考试成绩是否具有显著性线性相关关系?
学生号 1 2 3 4 5 6 7 8 9 10
x 120 108 117 104 103 110 104 105 99 108
y 84 64 84 68 69 68 69 46 57 71
查表得自由度为10-2=8相应的相关关系临界值 由 知,两次数学考试成绩有显著性的线性相关关系.
易得
则相关系数为
(2)观察两相关量得如下数据:
求两变量间的回归方程.
x -1 -2 -3 -4 -5 5 3 4 2 1
y -9 -7 -5 -3 -1 1 5 3 7 9
列表:
i 1 2 3 4 5 6 7 8 9 10
xi -1 -2 -3 -4 -5 5 3 4 2 1
yi -9 -7 -5 -3 -1 1 5 3 7 9
xiyi 9 14 15 12 5 5 15 12 14 9