第一章 统计案例课件

文档属性

名称 第一章 统计案例课件
格式 rar
文件大小 322.7KB
资源类型 教案
版本资源 人教新课标A版
科目 数学
更新时间 2009-12-04 23:39:00

文档简介

课件10张PPT。1.1回归分析的基本思想 及初步应用(1)例题1 从某大学中随机选出8名女大学生,其身高和体重数据如下表:求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重。 分析:由于问题中要求根据身高预报体重,因此选取身高为自变量,体重为因变量.=—————————————————————————————————=0.849所以线性回归方程是:线性回归模型
y=bx+a+e
其中a和b为模型的未知参数,e是y与 之间的误差,通常e称为随机误差。产生随机误差项e的原因是什么? 线性回归模型y=y=bx+a+e与我们熟悉的一次函数模型y=bx+a的不同的之处是增加了随机误差e,因变量y的值由自变量x和随机误差e共同确定,即自变量x只能解释部分y的变化。自变量x称为解释变量,因变量y称为预报变量。回归方程 中的 估计y=bx+a+e中的bx+a称为相应于点 的残差坐标纵轴为残差变量,横轴可以有不同的选择;身高与体重残差图若模型选择的正确,残差图中的点应该分布在以横轴为心的带形区域;对于远离横轴的点,要特别注意。解释变量与随机误差的总效应记为称为总偏差平方和。把各点残差平方相加得到称为残差平方和,称为相关指数,刻画回归效果。R2的取值范围是多少?残差平方和越小, R2越接近于1,表示回归的效果越好,说明模型的拟合效果越好。建立回归模型的基本步骤小结1、确定研究的对象,明确哪个变量是解释变量,哪个变量是预报变量;2、作出散点图,观察他们之间的关系;3、由经验确定回归方程的类型;4、求出回归方程;5、得出结果后分析残差图是否有异常,若有异常,检查数据是否有误,或模型是否合适等。作业P9 1,(1) (2) (3) 课件8张PPT。2.相关指数R21.残差e随机误差 ,它的估计值为 . 对于样本点 它们随机误
差的估计值 称相应残差.1)确定解释变量和预报变量;
2)画出散点图;
3)确定回归方程类型;
4)求出回归方程;
5)利用相关指数或残差进行分析.问题:一只红铃虫的产卵数y与温度x有关,现收集了7组观测数据,试建立y与x之间的回归方程 解:1)作散点图;从散点图中可以看出产卵数和温度之间的关系并不能用线性回归模型来很好地近似。这些散点更像是集中在一条指数曲线或二次曲线的附近。解: 令
则z=lny= =bx+a,(a=lnc1,b=c2),列出变换后数据表并画出x与z 的散点图 x和z之间的关系可以用线性回归模型来拟合2) 用 y=c3x2+c4 模型,令 ,则y=c3t+c4 ,列出变换后数据表并画出t与y 的散点图 散点并不集中在一条直线的附近,因此用线性回归模型拟合他们的效果不是最好的。非线性回归方程二次回归方程残差公式应用统计方法解决实际问题需要注意的问题:对于同样的数据,有不同的统计方法进行分析,我们要用最有效的方法分析数据。现在有三个不同的回归模型可供选择来拟合红铃虫的产卵数与温度数据,他们分别是:可以利用直观(散点图和残差图)、相关指数来确定哪一个模型的拟合效果更好。 实际问题
样本分析
回归模型
抽样回归分析预报精度预报课件9张PPT。1.2 独立性检验的基本思想及其初步应用 独立性检验随机变量通过公式计算在H0成立的情况下,统计学家估算出如下的概率:即在H0成立的情况下,K2的值大于6.635的概率
非常小,近似于0.01.也就是说,在H0成立的情况下对随机变量K2进行
多次观测,观测值超过6.635的频率约为0.01只有1%,因此我们有99%的把握认为H0不成立,
即有99%的把握认为”吸烟与患肺癌有关系”例1.在某医院,因为患心脏病而住院的665名男性病人中,
有214人秃顶;而另外772名不是因为患心脏病而住院的
男性病人中有174人秃顶.分别利用图形和独立性检验
方法判断秃顶与患心脏病是否有关系?你所得的结论在
什么范围内有效?解:根据题目所得数据得到列联表:秃顶与患心脏病列联表所以有99%的把握认为”秃顶与患心脏病有关”练习1: 为考察高中生的性别与是否喜欢数学课程之间的
关系,在某城市的某校高中生中随机抽取300名学生,
得到如下列联表:性别与喜欢数学课程列联表:由表中数字计算K2的观测值,在多大程度上可以认为
高中生的性别与是否喜欢数学课程之间有关系?
为什么?有95%的把握认为”性别与是否喜欢数学课程之间有关系”k≈4.513练习2: 在研究某种新药对小白兔的防治效果时,得到下表
数据:试分析新药对防治小白兔是否有效?99.5%的把握判定新药对防治小白兔是有效的.课件11张PPT。 3.2
独立性检验的基本思想
及初步应用(1)问题: 数学家庞加莱每天都从一家面包店买一块1000g 的面包,并记录下买回的面包的实际质量。一年后,这位数学家发现,所记录数据的均值为950g。于是庞加莱推断这家面包店的面包分量不足。假设“面包分量足”,则一年购买面包的质量数据的平均值应该不少于1000g ;
“这个平均值不大于950g”是一个与假设“面包分量足”矛盾的小概率事件;
这个小概率事件的发生使庞加莱得出推断结果。二个概念这种变量的不同取“值”表示个体所属的不同类别,这类变量称为分类变量1.分类变量 对于性别变量,取值为:男、女 分类变量在现实生活中是大量存在的,如是否吸烟,是否患肺癌,宗教信仰,国别,年龄,出生月份等等。利用随机变量K2来确定在多大程度上可以认为”两个分类变量有关系”的方法称为两个分类变量的独立性检验.(为假设检验的特例)这种变量的不同取“值”表示个体所属的不同类别,这类变量称为分类变量1.分类变量 对于性别变量,取值为:男、女 分类变量在现实生活中是大量存在的,如是否吸烟,是否患肺癌,宗教信仰,国别,年龄,出生月份等等。在日常生活中,我们常常关心两个分类变量之间是否有关系?如吸烟是否与患肺癌有关系?性别是否对于喜欢数学课程有影响?问题:为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)列联表说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大0.54%2.28%3)通过图形直观判断两个分类变量是否相关:
患肺癌
比例不患肺癌
比例 独立性检验H0: 吸烟和患肺癌之间没有关系
←→ H1: 吸烟和患肺癌之间有关系通过数据和图表分析,得到结论是:吸烟与患肺癌有关用 A 表示“不吸烟”, B 表示“不患肺癌”则 H0: 吸烟和患肺癌之间没有关系 “吸烟”与“患肺癌”独立,即A与B独立等价于 独立性检验引入一个随机变量作为检验在多大程度上可以认为“两个变量有关系”的标准 。 独立性检验通过公式计算 独立性检验已知在 成立的情况下,即在 成立的情况下,K2 大于6.635概率非常小,近似为0.01现在的K2=56.632的观测值远大于6.635,出现这样的观测值的概率不超过0.01。故有99%的把握认为H0不成立,即有99%的把握认为“患肺癌疾病与吸烟有关系”。