课件69张PPT。 第 三 章 统计案例3.1 回归分析的基本思想及其初步应用自主学习 新知突破1.通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用.
2.了解线性回归模型与函数模型的差异,了解判断模型拟合效果的方法:相关指数和残差分析.
3.体会有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的过程中寻找更好的模型的方法.下列变量关系是相关关系的是
(1)学生的学习时间与学习成绩之间的关系;
(2)某家庭的收入与支出之间的关系;
(3)学生的身高与视力之间的关系;
(4)球的体积与半径之间的关系.
[提示] 对于(1),学习时间影响学生的学习成绩,但是学生学习的刻苦程度、学习方法、教师的授课水平等其他因素也影响学习成绩,因此学生的学习时间与学习成绩之间具有相关关系;
对于(2),也是相关关系;
对于(3),身高与视力之间没有关系;
对于(4),球的体积与半径之间是函数关系.线性回归模型2.变量样本点中心:_______________,回归直线过样本点的中心.
3.线性回归模型y=____________,其中_____和_____是模型的未知参数,___称为随机误差.自变量x又称为____________,因变量y又称为_____________.bx+a+eabe解释变量预报变量4.随机误差产生的原因. 刻画回归效果的方式残差样本编号身高数据体重估计值越小 解释 预报 残差图的缺点
(1)残差e受许多条件的影响,也受我们所选用的线性模型的影响.
(2)作残差图有时不够精确,也难于区分拟合效果的好坏,因此多数情况下,选用计算相关指数R2来说明拟合.1.两个变量之间的相关关系是一种( )
A.确定性关系
B.线性关系
C.非线性关系
D.可能是线性关系也可能不是线性关系
解析: 变量之间的相关关系是一种非确定性的关系,如果所有数据点都在一条直线附近,那么它们之间就是一种线性相关关系,否则不是线性相关关系.故选D.
答案: D解析: 由于销售量y与销售价格x成负相关,故排除B,D.又当x=10时,A中y=100,而C中y=-300,C不符合题意,故选A.
答案: A3.下表是x和y之间的一组数据,则y关于x的线性回归方程必过点________.4.关于x与y有如下数据:合作探究 课堂互动线性回归分析 某班5名学生的数学和物理成绩如下表:
(1)画出散点图;
(2)求物理成绩y对数学成绩x的回归直线方程;
(3)一名学生的数学成绩是96,试预测他的物理成绩. [思路点拨] [规律方法] 1.求线性回归方程的基本步骤:2.需特别注意的是,只有在散点图大致呈直线时,求出的线性回归方程才有实际意义,否则求出的回归方程毫无意义.1.某地最近十年粮食需求量逐年上升,下表是部分统计数据:残差分析 某运动员训练次数与运动成绩之间的数据关系如下:
(1)作出散点图;
(2)求出回归方程;
(3)作出残差图;
(4)计算相关指数R2;
(5)试预测该运动员训练47次及55次的成绩.解析: (1)作出该运动员训练次数(x)与成绩(y)之间的散点图,如下图所示,由散点图可知,它们之间具有线性相关关系.(2)列表计算:(3)残差分析
作残差图如下图所示,由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.
[规律方法] 1.对于建立的回归模型进行残差分析,一般从以下几方面进行:(1)残差图;(2)残差平方和;(3)相关指数.
2.相关指数R2的作用
利用相关指数R2可以刻画拟合效果的好坏.在线性回归模型中,R2的取值越接近1,说明残差的平方和越小,即说明模型的拟合效果越好.2.已知某种商品的价格x(元)与需求量y(件)之间的关系有如下一组数据:
求y对x的回归直线方程,并说明回归模型拟合效果的好坏.非线性回归分析 某地区不同身高的未成年男性的体重平均值如下表:
(1)试建立y与x之间的回归方程;
(2)若体重超过相同身高男性体重平均值的1.2倍为偏胖,低于0.8倍为偏瘦,那么这个地区一名身高为175 cm,体重为82 kg的在校男生体重是否正常?
(3)求相关指数R2. [思路点拨] (1)根据上表中数据画出散点图如下图.
由图看出,样本点分布在某条指数函数曲线y=c1ec2x的周围,于是令z=ln y.作出散点图如下图.
3分 (3)
[规律方法] 解决非线性回归问题
(1)两个变量不具有线性相关关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型,如y=c1ec2x,可通过对数变换把指数关系变为线性关系:令z=ln y,则变换后样本点应分布在直线z=bx+a(a=ln c1,b=c2)周围.(2)求非线性回归方程的步骤:
①确定变量,作出散点图;
②根据散点图,选择恰当的拟合函数;
③变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程;
④分析拟合效果:通过计算相关指数或画残差图来判断拟合效果;
⑤根据相应的变换,写出非线性回归方程.3.为了研究某种细菌随时间x变化时,繁殖个数y的变化,收集数据如下:
(1)用天数x作解释变量,繁殖个数y作预报变量,作出这些数据的散点图;
(2)描述解释变量x与预报变量y之间的关系;
(3)计算相关指数.解析: (1)所作散点图如图所示. (2)由散点图看出样本点分布在一条指数函数y=c1ec2x的周围,于是令z=ln y,则◎在一次抽样调查中测得样本的5个样本点,数值如下表:
试建立y与x之间的回归方程.【错解】 由已知条件制成下表:由散点图可以看出y与t呈近似的线性相关关系.列表如下:谢谢观看!课件53张PPT。3.2 独立性检验的基本思想及其初步应用自主学习 新知突破1.通过对实际问题的分析探究,了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用;了解独立性检验的常用方法:等高条形图及K2统计量法.
2.通过典型案例的探究,了解实际推断原理和假设检验的基本思想、方法及初步应用.
3.理解独立性检验的基本思想及实施步骤,能运用自己所学知识对具体案例进行检验. 饮用水的质量是人类普遍关心的问题.
据统计,饮用优质水的518人中,身体状
况优秀的有466人,饮用一般水的312人中,
身体状况优秀的有218人.
人的身体健康状况与饮用水的质量之间有关系吗?
[提示] 人的身体健康状况与饮用水的质量之间有关系.1.分类变量
变量的不同“值”表示个体所属的___________,像这样的变量称为分类变量.
2.列联表
(1)定义:列出的两个分类变量的___________,称为列联表.分类变量和列联表不同类别频数表 (2)2×2列联表
一般地,假设两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称2×2列联表)为:分类变量及其关系的分析的理解
(1)这里的“变量”和“值”都应作为广义的变量和值来理解,只要不属于同种类别都是变量和值,并不一定是取具体的数值,如:男、女;上、下;左、右等.
(2)频数分析是指用不同类别的事件发生的频率的大小比较来分析分类变量是否有关联关系.
(3)等高条形图更加形象直观地反映两个分类变量之间的差异,进而推断它们之间是否具有关联关系.1.等高条形图与表格相比,更能直观地反映出两个分类变量间是否___________,常用等高条形图展示列联表数据的___________.
2.观察等高条形图发现_________和________相差很大,就判断两个分类变量之间有关系.等高条形图相互影响频率特征绘制等高条形图时,列联表的行对应的是高度,两行的数据不相等,但对应的条形图的高度是相同的;两列的数据对应不同的颜色.独立性检验独立性检验思想的理解及常用的几个数值
(1)独立性检验的基本思想类似于数学中的反证法,要确认两个分类变量有关系这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下我们构造的随机变量K2应该很小,如果由观测数据计算得到的K2的观测值很大,则在一定程度上说明假设不合理,根据随机变量K2的含义,可以通过P(K2≥6.635)≈0.01来评价假设不合理的程度,由实际计算得K2的观测值k>6.635,说明假设不合理的程度约为99%,即两个分类变量有关系这一结论成立的可信程度为99%.(2)在实际问题中要记住以下几个常用值:
①若k≥6.635,则在犯错误的概率不超过0.01的前提下认为“X与Y有关系”;
②若k≥3.841,则在犯错误的概率不超过0.05的前提下认为“X与Y有关系”;
③若k≥2.706,则在犯错误的概率不超过0.1的前提下认为“X与Y有关系”;
④若k<2.706,则认为没有充分证据显示“X与Y有关系”.1.观察下列各图,其中两个分类变量x,y之间关系最强的是( )
解析: 在四幅图中,D图中两个深色条的高相差最明显,说明两个分类变量之间关系最强.
答案: D2.下面是一个2×2列联表:
则表中a,b处的值分别为( )
A.94,96 B.52,50
C.52,54 D.54,523.在吸烟与患肺病是否相关的判断中,有下面的说法:
①若K2的观测值k>6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;
②从独立性检验可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;
③从独立性检验可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.其中说法正确的是________.
解析: K2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说法③正确.
答案: ③4.为了解决高二年级统计案例入门难的问题,某校在高一年级的数学教学中设有试验班,着重加强统计思想的渗透,下面是高二年级统计案例的测验成绩统计表(单位:分)的一部分,试分析实验效果.附:合作探究 课堂互动利用等高条形图判断分类变量间的关系 2012年5月1日起我国对醉驾列入法律,交通事故明显降低,现从发生交通事故的司机中抽取2 000名司机的随机样本,根据他们血液中是否含有酒精以及他们是否对事故负有责任将数据整理如下:
(1)试作出相应的等高条形图;
(2)结合等高条形图分析血液中含有酒精与对事故负有责任是否有关系. [思路点拨] (1)相应的等高条形图如图:
(2)图中两个深色条的高分别表示司机血液中有酒精和无酒精样本中对事故负有责任的频率,从图中可以看出,司机血液中有酒精样本中对事故负有责任的频率明显高于司机血液中无酒精样本中对事故负有责任的频率.由此可以认为司机血液中含有酒精与对事故负有责任有关系.
2.分析分类变量关系的步骤:
(1)作大量的调查、研究,统计出结果;
(2)列出列联表利用频率粗略估计;
(3)作出等高条形图,从直观上进一步判断分类变量之间的关联关系.
特别提醒: 通过等高条形图可以粗略地判断两个分类变量是否有关系,但无法精确地给出所得结论的可靠程度.1.某校对学生课外活动进行调查,结果整理成下表:
请根据数据,利用图形判断:喜欢体育或喜欢文娱是否与性别有关系.解析: 其等高条形图如图所示.
由图可以直观地看出喜欢体育还是喜欢文娱与性别在某种程度上有关系.利用随机变量K2判断分类变量间的关系 下表是某地区的一种传染病与饮用水的调查表:(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;
(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.
[思路点拨] (1)根据表中的信息计算K2的观测值,并根据临界值表来分析相关性的大小,对于(2)要列出2×2列联表,方法同(1).
两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中我们在犯错误的概率不超过0.001的前提下肯定结论的正确性,(2)中我们在犯错误的概率不超过0.025的前提下肯定结论的正确性. 12分[规律方法] 利用K2公式判断两分类变量是否有关系的方法2.某电视台联合相关报社对“男女同龄退休”这一公众关注的问题进行了民意调查,数据如下表所示:
根据表中数据,能否在犯错误的概率不超过0.001的前提下认为这一问题的看法与性别有关系?(P(K2≥10.828)≈0.001)独立性检验的综合应用 为了调查某生产线上质量监督员甲对产品质量的好坏有无影响,现统计数据如下:甲在生产现场时,990件产品中有合格品982件,次品8件;甲不在生产现场时,510件产品中有合格品493件,次品17件.试分别用列联表、等高条形图、独立性检验的方法分析监督员甲对产品质量的好坏有无影响.能否在犯错误的概率不超过0.001的前提下,认为质量监督员甲在不在生产现场与产品质量的好坏有关系? [思路点拨] 解析: (1)2×2列联表如下:
由列联表可得|ac-bd|=|982×17-493×8|=12 750,相差较大,可在某种程度上认为“质量监督员甲是否在生产现场与产品质量有关”. (2)由等高条形图可知:在某种程度上认为“质量监督员甲是否在生产现场与产品质量有关系”.
[规律方法] 判断两个分类变量之间有无关系,可以用2×2列联表、等高条形图、独立性检验等方法作出判断,其中从列联表和等高条形图中只能粗略地进行估计,要进行精确的判断,必须利用独立性检验进行计算并与临界值对比.3.在调查的480名男人中有38名患有色盲,520名女人中有6名患有色盲,做出列联表,试用独立性检验的方法来判断色盲与性别是否有关?你所得到的结论在什么范围内有效?解析: 根据题目所给的数据作出如下的列联表:◎为了研究男子的年龄与吸烟的关系,抽查了100个男子,按年龄超过和不超过40岁,吸烟量每天多于和不多于20支进行分组,数据如表,试问吸烟量与年龄是否有关?
[提示] 由于对2×2列联表中a,b,c,d的位置不确定,在代入公式时取错了数值,导致计算结果的错误.谢谢观看!课件58张PPT。第 三 章 统计案例章 末 高 效 整 合知能整合提升
1.两个基本思想
(1)回归分析的基本思想
回归分析包括线性回归分析和非线性回归分析两种,而非线性回归分析往往可以通过变量代换转化为线性回归分析,因此,回归分析的思想主要是指线性回归分析的思想.
注意理解以下几点:
①确定线性相关关系
线性相关关系有两层含义:一是具有相关关系,如广告费用与销售量的关系等在一定条件下具有相关关系,而气球的体积与半径的关系是函数关系,而不是相关关系;二是具有线性相关关系.判断是否线性相关的依据是观察样本点的散点图;
②引起预报误差的因素
对于线性回归模型y=bx+a+e,引起预报变量y的误差的因素有两个:一个是解释变量x,另一个是随机误差e;
③回归方程的预报精度
判断回归方程的预报精度是通过计算残差平方和来进行的,残差平方和越小,方程的预报精度越高.
简单来说,线性回归分析就是通过建立回归直线方程对变量进行预报,用回归方程预报时,需对函数值明确理解,它表示当x取值时,真实值在函数值附近或平均值在函数值附近,不能认为就是真实值;
④回归模型的拟合效果
判断回归模型的拟合效果的过程也叫残差分析,残差分析的方法有两种,一是通过残差图直观判断,二是通过计算相关指数R2的大小判断.
(2)独立性检验的基本思想
独立性检验的基本思想类似于反证法.要确认两个分类变量有关系的可信程度,先假设两个分类变量没有关系,再计算随机变量K2的观测值,最后由K2的观测值很大在一定程度上说明两个分类变量有关系.进行独立性检验要注意理解以下三个问题:
①独立性检验适用于两个分类变量;
②两个分类变量是否有关系的直观判断:
一是根据2×2列联表计算|ad-bc|,值越大关系越强;
二是观察等高条形图,两个深色条的高度相差越大关系越强.
③独立性检验是对两个分类变量有关系的可信程度的判断,而不是对其是否有关系的判断.独立性检验的结论只能是有多大的把握确认两个分类变量有关系,而不能是两个分类变量一定有关系或没有关系.2.两个重要参数
(1)相关指数R2
相关指数R2是用来刻画回归模型的回归效果的,其值越接近1,残差平方和越小,模型的拟合效果越好.
(2)随机变量K2
随机变量K2是用来判断两个分类变量在多大程度上相关的变量.独立性检验即计算K2的观测值,并与教材中所给表格中的数值进行比较,从而得到两个分类变量在多大程度上相关.
3.两种重要图形
(1)散点图
散点图是进行线性回归分析的主要手段,其作用如下:
一是判断两个变量是否具有线性相关关系,如果样本点呈条状分布,则可以断定两个变量有较好的线性相关关系;
二是判断样本中是否存在异常.
(2)残差图
残差图可以用来判断模型的拟合效果,其作用如下:
一是判断模型的精度,残差点所分布的带状区域越窄,说明模型的拟合精度越高,回归方程的预报精度越高;
二是确认样本点在采集中是否有人为的错误.热点考点例析线性回归分析的应用点拨: 回归分析的基本步骤为:
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系;
(3)由经验确定回归方程的类型;
(4)按一定规则估计回归方程中的参数;
(5)得检查回归模型的拟合程度,如分析残差图、求相关指数R2等. 一个车间为了规定工时定额,需确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下表:
(1)画出散点图,并初步判断是否线性相关;
(2)若线性相关,求回归直线方程;
(3)求出相关指数;
(4)作出残差图;
(5)进行残差分析;
(6)试制订加工200个零件的用时规定.
[思维点击] 明确各相关概念.求出回归直线方程是解题关键.注意正确使用公式和准确计算. (1)散点图如图所示.
由图可知,x,y线性相关.将数据代入相应公式可得数据表: (3)利用所求回归方程求出下列数据:1.为了研究3月下旬的平均气温(x)与4月20日前棉花害虫化蛹高峰日(y)的关系,某地区观察了2007年至2011年的情况.得到下面数据:点拨: 非线性回归问题的处理技巧
一般地,有些非线性回归模型通过变换可以转化为线性回归模型,即借助于线性回归模型研究呈非线性回归关系的两个变量之间的关系.
(1)如果散点图中的点分布在一个直线状带形区域,可以选用线性回归模型来建模;
(2)如果散点图中的点的分布在一个曲线状带形区域,要先对变量作适当的变换,再利用线性回归模型来建模.非线性回归问题2.电容器充电后,电压达到100 V,然后开始放电,由经验知道,此后电压U随时间t变化的规律公式U=Aebt(b<0)表示,观测得时间t(s)时的电压U(V)如下表所示:
试求电压U对时间t的回归方程.解析: 对U=Aebt两边取自然对数得ln U=ln A+bt,
令y=ln U,a=ln A,即y=bt+a,
由所给数据可得其散点图为: 点拨: 1.独立性检验的一般步骤:
(1)提出假设H0:Ⅰ和Ⅱ没有关系;
(2)根据2×2列联表计算K2的观测值;
(3)根据K2的观测值与临界值的大小关系作统计推断.独立性检验2.可以用反证法的原理来解释独立性检验原理.
从上述对比中可以看出,假设检验的原理和反证法原理类似.不同之处:一是独立性检验中用有利于H0的小概率事件的发生代替了反证法中的矛盾;二是独立性检验中接受原假设的结论相当于反证法中没有找到矛盾.
把独立性检验的基本思想具体化到独立性检验中,就可以通过随机变量K2的值的大小来研究两个分类变量是否有相关关系. 调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据表,试问婴儿的性别与出生的时间是否有关系?[思维点击] 根据列联表,将相应数据代入公式求K2. 3.为了探究患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调查如下表所示:
试问:50岁以上的人患慢性气管炎与吸烟习惯是否有关系?
解析: -5是斜率的估计值,说明x每增加一个单位,y平均减少5个单位.
答案: B
4.若由一个2×2列联表中的数据计算得K2=6.630,则判断“这两个分类变量有关系”时,犯错误的最大概率是( )
A.0.025 B.0.01
C.0.005 D.0.001
解析: ∵P(K2>5.024)=0.025,
又K2=6.630>5.024,∴犯错误的最大概率为0.025.
答案: A
5.若由一个2×2列联表中的数据计算得K2=4.073,那么在犯错误的概率不超过________的前提下认为两变量有关系,已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.
解析: 查表可知K2的观测值k=4.073≥3.841,因此在犯错误的概率不超过5%的前提下认为两变量有关系.
答案: 5%7.某产品的广告费支出x与销售额y(单位:百万元)之间有如下对应数据:
请画出散点图并用散点图粗略地判断x,y是否线性相关.解析: 散点图如图.
从散点图可以看出散点呈条状分布,所以x,y具有较强的线性相关关系.
8.某研究者欲考察某一高考试题的得分情况是否与性别有关系,统计结果如下:及格的人中男生有290人,女生有100人;不及格的人中男生有160人,女生有350人.试根据这些数据判断这一高考试题的得分情况与性别是否有关系.解析: 根据题中数据得如下列联表:谢谢观看!