第一章统计案例单元同步授课课件

文档属性

名称 第一章统计案例单元同步授课课件
格式 zip
文件大小 1.5MB
资源类型 教案
版本资源 人教新课标A版
科目 数学
更新时间 2018-03-21 14:57:38

文档简介

课件27张PPT。1. 1 . 1 回归分析的基本
思想及其初步应用
(第一课时)深圳市民办学校高中数学教师欧阳文丰从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:
怎样根据一名女大学生的身高预报她的体重,并预报一名身高为172 cm的女大学生的体重? 根据必修3 2.3变量相关关系解决这个问题的方法:
1.先判断是两个变量是否具有线性相关关系
(1)作散点图,如图所示(见课本P82:图3.1-1)具有较好的线性相关关系性质:回归直线一定过样本中心点(2)计算相关系数这些点并不都在同一条直线上,上述直线并不能精确地反映x与y之间的关系,y 的值不能完全由x 确定,它们之间是统计相关关系,y 的实际值与估计值之间存在着误差.因此,在统计学中设它们的线性回归模型为:其中a,b为模型的未知参数,e为y与bx+a之间的误差,称它为随机误差,它是随机变量。且x称为_____变量,y称为_____变量.解释预报在线性回归模型中,e为用bx+a的预报真实值y的随机误差,它是一个不可观测的量,那么应该怎样研究随机误差?坐标纵轴为残差变量,横轴可以有不同的选择;
若模型选择的正确,残差图中的点应该分布在以横轴为中心的带形区域;
对于远离横轴的点,要特别注意。残差的作用1.通过残差表或残差图发现原始数据中的可疑数据通过残差表或残差图判断模型拟合的效果是直观判断,如何精确判断模型拟合的效果?引入参数R2来精确该画模型拟合效果引入例中参数R2计算得约为0.64说明女大学生体重差异有百分之六十四是由身高引起的.知识点 线性回归分析
1.对线性回归模型的三点说明
(1)非确定性关系:线性回归模型y=bx+a+e与确定性函数y=bx+a相比,它表示y与x之间是统计相关关系(非确定性关系),其中的随机误差e提供了选择模型的准则以及在模型合理的情况下探求最佳估计值a,b的工具.(2)线性回归方程 中 , 的意义是:以 为基数,x每增加1个单位,y相应地平均增加 个单位.
(3)线性回归模型中随机误差的主要来源
①线性回归模型与真实情况引起的误差;
②观测与计算产生的误差;
③省略了一些因素的影响产生的误差.2.线性回归模型的模拟效果
(1)残差图法:观察残差图,如果残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.(2)残差的平方和法:一般情况下,比较两个模型的残差比较困难(某些样本点上一个模型的残差的绝对值比另一个模型的小,而另一些样本点的情况则相反),故通过比较两个模型的残差的平方和的大小来判断模型的拟合效果.残差平方和越小的模型,拟合的效果越好.
(3)R2法:R2的值越大,说明残差平方和越小,也就是说模型拟合的效果越好.3.相关系数r与相关指数R2
(1)R2是相关指数的平方,其变化范围为[0,1],而相关系数r的变化范围为[-1,1].
(2)相关系数r可较好地反映变量的相关性及正相关或负相关,而R2反映了回归模型拟合数据的效果.
(3)当|r|接近于1时说明两变量的相关性较强,当|r|接近于0时说明两变量的相关性较弱,而当R2接近于1时,说明线性回归方程的拟合效果较好.【微思考】
(1)残差与我们平时说的误差是一回事儿吗?
提示:这两个概念在某程度上具有很大的相似性,都是衡量不确定性的指标,二者的区别是:误差与测量有关,误差可以衡量测量的准确性,误差越大表示测量越不准确;残差与预测有关,残差大小可以衡量预测的准确性,残差越大表示预测越不准确.建立回归模型的基本步骤
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).
(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程).
(4)按一定规则(如最小二乘法)估计回归方程中的参数.
(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,或残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否合适等. 某商场经营一批进价是30元/台的小商品,在市场试验中发现,此商品的销售单价x(x取整数)元与日销售量y台之间有如下对应数据:(1)画出散点图并说明y与x是否具有线性相关关系?如果有,求出线性回归方程;(方程的斜率保留一个有效数字)
(2)设经营此商品的日销售利润为P元,根据(1)写出P关于x的函数关系式,并预测当销售单价x为多少元时,才能获得最大日销售利润?【解】 (1)散点图如图所示:
从图中可以看出这些点大致分布在一条直线附近,
因此两个变量具有线性相关关系.即预测销售单价为42元时,能获得最大日销售利润.
【思维总结】 该类题属于线性回归问题,解答此类题目的关键是:首先通过散点图来判断两变量是否相关,然后再利用求回归方程的公式求解回归方程.在此基础上,借助回归方程对实际问题进行分析. 为研究重量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:
(1)作出散点图并求线性回归方程;
(2)求出R2;
(3)进行残差分析.
作残差分析时,一般从以下几个方面予以说明:(1)散点图;(2)相关指数;(3)残差图中的异常点和样本点的带状分布区域的宽窄.解答 (1)散点图如图
(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与拉力成线性关系.
规律方法 当资料点较少时,也可以利用残差表进行残差分析,注意计算数据要认真细心,残差分析要全面.课件23张PPT。1.1.2回归分析的基本
思想及其初步应用
(第二课时)深圳市民办学校高中数学教师欧阳文丰知识点 线性回归分析
1.对线性回归模型的三点说明
(1)非确定性关系:线性回归模型y=bx+a+e与确定性函数y=bx+a相比,它表示y与x之间是统计相关关系(非确定性关系),其中的随机误差e提供了选择模型的准则以及在模型合理的情况下探求最佳估计值a,b的工具.复习巩固基础知识:(2)线性回归方程 中 , 的意义是:以 为基数,x每增加1个单位,y相应地平均增加 个单位.
(3)线性回归模型中随机误差的主要来源
①线性回归模型与真实情况引起的误差;
②观测与计算产生的误差;
③省略了一些因素的影响产生的误差.2.线性回归模型的模拟效果
(1)残差图法:观察残差图,如果残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.(2)残差的平方和法:一般情况下,比较两个模型的残差比较困难(某些样本点上一个模型的残差的绝对值比另一个模型的小,而另一些样本点的情况则相反),故通过比较两个模型的残差的平方和的大小来判断模型的拟合效果.残差平方和越小的模型,拟合的效果越好.
(3)R2法:R2的值越大,说明残差平方和越小,也就是说模型拟合的效果越好.建立回归模型的基本步骤
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).
(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程).
(4)按一定规则(如最小二乘法)估计回归方程中的参数.
(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,或残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否合适等.1.判一判(正确的打“√”,错误的打“×”)
(1)残差平方和越小,线性回归方程拟合效果越好.(  )
(2)在画两个变量的散点图时,预报变量在x轴上,解释变量在y轴上. (  )
(3)R2越接近于1,线性回归方程的拟合效果越好.(  )√×√2.做一做(请把正确的答案写在横线上)
(1)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系为     .
(2)在残差分析中,残差图的纵坐标为     .
(3)如果发现散点图中所有的样本点都在一条直线上,则残差平方和等于   ,解释变量和预报变量之间的相关系数R等于     .正相关残差01或-1【例2】 一个车间为了规定工时定额,需确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下表:
(1)画出散点图,并初步判断是否线性相关;
(2)若线性相关,求回归直线方程;
(3)求出相关指数;
(4)作出残差图;
(5)进行残差分析;解 (1)散点图,如图所示.
由图可知,x,y线性相关.(2)x与y的关系可以用线性回归模型来拟合,不妨设回归模型为y=a+bx.
将数据代入相应公式可得数据表:(3)利用所求回归方程求出下列数据.(5)由散点图可以看出x与y有很强的线性相关性,由R2的值可以看出回归效果很好.
由残差图也可观察到,第2、5、9、10个样本点的残差比较大,需要确认在采集这些样本点的过程中是否有人为的错误.3.已知某种商品的价格x(元)与需求量y(件)之间的关系有如下一组数据:
求y对x的回归直线方程,并说明回归模型拟合效果的好坏.
补充例题学习:课件25张PPT。1.1.3 回归分析的基本思想及其初步应用
(第三课时)深圳市民办学校高中数学教师欧阳文丰建立回归模型的基本步骤
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).
(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程).
(4)按一定规则(如最小二乘法)估计回归方程中的参数.
(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,或残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否合适等.(2)相关系数r与R2
(1)R2是相关系数的平方,其变化范围为[0,1],而相关系数的变化范围为[-1,1].
(2)相关系数可较好地反映变量的相关性及正相关或负相关,而R2反映了回归模型拟合数据的效果.
(3)当|r|接近于1时说明两变量的相关性较强,当|r|接近于0时说明两变量的相关性较弱,而当R2接近于1时,说明线性回归方程的拟合效果较好.例:一只红铃虫产卵数y和温度x有关,现收集到的一组数据如下表1-3表,试建立y与x之间的回归方程。画出确定好的解释变量和预报变量的散点图,观察它们之间的关系.(1)是否存在线性关系?(2)散点图具有哪种函数特征?(3)以指数函数模型为例,如何设模型函数?非线性关系指数函数、二次函数、三次函数设指数函数曲线 其中 和 是待定参数。我们可以通过对数变换把指数关系变为线性关系非线性回归模型另一方面,可以认为图11-4中样本点集中在某二次曲线表1-5是红铃虫的产卵数和对应的温度的平方,图1.1-6是相应的散点图.其中a和b都是未知参数,可以按如下的步骤来比较它们的拟合效果.(2)分别计算两个回归方程的残差平方和非线性回归问题的处理方法
(1)两个变量不呈线性关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型,如y= ,我们可以通过对数变换把指数关系变为线性关系.令z=lny,则变换后样本点应该分布在直线z=bx+a(a=lnc1,b=c2)的周围.(2)非线性回归方程的求法
①根据原始数据(x,y)作出散点图;
②根据散点图,选择恰当的拟合函数;
③作恰当的变换,将其转化成线性函数,求线性回归方程;
④在③的基础上通过相应的变换,即可得非线性回归方程.(3)非线性相关问题中常见的几种线性变换
在实际问题中,常常要根据一批实验数据绘出曲线,当曲线类型不具备线性相关关系时,可以根据散点分布的形状与已知函数的图象进行比较,确定曲线的类型,再作变量替换,将曲线改为直线.下面是几种容易通过变量替换转化为直线的函数模型:例 某种食品每公斤的生产成本y(元)与该食品生产的重量x(公斤)有关,经生产统计得到以下数据:通过以上数据判断该食品的成本y(元)与生产的重量x(公斤)的倒数1/x之间是否具有线性相关关系?若有,求出y关于1/x的回归直线方程,并借此估计一下生产该食品500公斤时每公斤的生产成本是多少?(精确到0.01) X x2.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:
则y关于x的线性回归方程为(  ).
A.y=x-1 B.y=x+1
C.y=88+12x D.y=176答案:C
解析:方法一:由线性回归直线方程过样本中心(176,176),排除A,B答案,结合选项可得C为正确答案.
方法二:将表中的五组数值分别代入选项验证,可知y=88+12x最适合.xxxx 非线性回归问题有时并不给出经验公式,这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数)等图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量置换,把问题化为线性回归分析问题,使之得到解决.课件23张PPT。1. 2 .1 独立性检验的
基本思想及初步应用
(第一课时 ) 深圳市民办学校高中数学教师欧阳文丰为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)列联表说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大0.54%2.28%1)通过图形直观判断两个分类变量是否相关:三维柱状图2) 通过图形直观判断两个分类变量是否相关:二维条形图3)通过图形直观判断两个分类变量是否相关:患肺癌
比例不患肺癌
比例等高条形图 独立性检验H0: 吸烟和患肺癌之间没有关系
←→ H1: 吸烟和患肺癌之间有关系通过数据和图表分析,得到结论是:吸烟与患肺癌有关结论的可靠程度如何? 用 A 表示“不吸烟”, B 表示“不患肺癌”则 H0: 吸烟和患肺癌之间没有关系 “吸烟”与“患肺癌”独立,即A与B独立等价于等价于 独立性检验引入一个随机变量作为检验在多大程度上可以认为“两个变量有关系”的标准 。设有两个分类变量X和Y它们的值域分别为{x1,x2}和{y1,y2}其样本频数列表(称为2×2列联表)为2×2列联表0.1%把握认
为A与B无关1%把握认为A与B无关99.9%把握认
为A与B有关99%把握认
为A与B有关90%把握认
为A与B有关10%把握认为
A与B无关没有充分的依据显示A与B有关,
但也不能显示A与B无关例如独立性检验通过公式计算 独立性检验现在的K2=56.632的观测值远大于6.635所以有理由断定H0不成立,即认为”吸烟与患肺癌有关系”名师点睛
1.在2×2列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0,因此|ad-bc|越小,关系越弱;|ad-bc|越大,关系越强.2.独立性检验的基本思想
(1)独立性检验的基本思想类似于数学中的反证法,要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下我们构造的随机变量K2应该很小,如果由观测数据计算得到的K2的观测值很大,则在一定程度上说明假设不合理,根据随机变量K2的含义,可以通过P(K2≥6.635)≈0.01来评价假设不合理的程度,由实际计算出k2≥6.635,说明假设不合理的程度约为99%,即“两个分类变量有关系”这一结论成立的可信程度约为99%.(2)在实际问题中要记住以下几个常用值:
①k>6.635有99%的把握认为“X与Y有关系”;
②k>3.841有95%的把握认为“X与Y有关系”;
③k>2.706有90%的把握认为“X与Y有关系”;
④k≤2.706就认为没有充分证据显示“X与Y有关系”.
(3)反证法原理与独立性检验原理的比较
反证法原理:在假设H0下,如果推出一个矛盾,就证明了H0不成立.
独立性检验原理:在假设H0下,如果出现一个与H0相矛盾的小概率事件,就推断H0不成立,且该推断犯错误的概率不超过这个小概率.3.两个分类变量相关性检验方法
利用独立性检验来考察两个分类变量是否有关系,能较精确地给出这种判断的可靠程度,具体的做法是:①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.②计算随机变量K2的观测值k.③如果k≥k0,就推断“X与Y”有关系,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.例1.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.分别利用图形和独立性检验方法判断是否有关?你所得的结论在什么范围内有效?例2.为考察高中生性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表: 性别与喜欢数学课程列联表acdb独立性检验基本的思想类似反证法(1)假设结论不成立,即“两个分类变量没有关系”.
(2)在此假设下随机变量 K2 应该很能小,如果由观测数据
计算得到K2的观测值k很大,则在一定程度上说明假设不合理.
(3)根据随机变量K2的含义,可以通过评价该假设不合理的程度,由实际计算出的,说明假设合理的程度为99.9%,即“两个分类变量有关系”这一结论成立的可信度为约为99.9%.课件28张PPT。1. 2 .2 独立性检验的
基本思想及初步应用(第二课时 )深圳市民办学校高中数学教师欧阳文丰 复习基础知识
1.分类变量和列联表
(1)分类变量
变量的不同“值”表示个体所属的 ,像这样的变
量称为分类变量.
(2)列联表
①定义:列出的两个分类变量的 ,称为列联表.不同类别频数表②2×2列联表
一般地,假设两个分类变量X和Y,它们的取值分别为
{x1,x2}和{y1,y2},其样本频数列联表(称2×2列联表)为2.独立性检验a+b+c+d 临界值k0观测值kk≥k0犯错误的概率没有发现足够证据3.独立性检验临界值表【变式1】 为研究学生的数学成绩与对学习数学的兴趣是否有关,对某年级学生作调查得到如下数据:
判断学生的数学成绩好坏与对学习数学的兴趣是否有关?题型一 有关“有关的检验”题型二 有关“无关的检验”
【例2】 为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.试分析学生选报文、理科与对外语的兴趣是否有关?
[思路探索] 要在选报文、理科与对外语有无兴趣之间有无关系作出判断,可以运用独立性检验的方法进行判断.解 列出2×2列联表规律方法 运用独立性检验的方法:
(1)列出2×2列联表,根据公式计算K2的观测值k.
(2)比较k与k0的大小作出结论.【变式2】 某教育机构为了研究人具有大学专科以上学历(包括大学专科)和对待教育改革态度的关系,随机抽取了392名成年人进行调查,所得数据如下表所示:
对于教育机构的研究项目,根据上述数据能得出什么结论.题型三 独立性检验的基本思想
【例3】 某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在(29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出500件,量其内径尺寸,结果如下表:
甲厂乙厂(1)试分别估计两个分厂生产的零件的优质品率;
(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.1.(2010·新课标全国)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:附链接高考:独立性检验的应用(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;
(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?
(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?
说明理由.
附:P(K2≥k)2.(2010·辽宁)为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.下表1和表2分别是注射药物A和药物B后的试验结果.(疱疹面积单位:mm2)
表1:注射药物A后皮肤疱疹面积的频数分布表表2:注射药物B后皮肤疱疹面积的频数分布表
(1)完成下面频率分布直方图,并比较注射两种药物后疱疹面积的中位数大小;(2)完成下面2×2列联表,并回答能否有99.9%的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.
表3:P(K2≥k) k 解 (1)
从频率分布直方图中可以看出注射药物A后皮肤疱疹面积的中位数在65至70之间,而注射药物B后皮肤疱疹面积的中位数在70至75之间,所以注射药物A后疱疹面积的中位数小于注射药物B后疱疹面积的中位数.(2)表3: