课件33张PPT。1.1 回归分析的基本思想及其初步应用1.回归分析
(1)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)回归分析的基本步骤是:①画出两个变量的散点图,
②求回归直线方程,③用回归直线方程进行预报.
(3)求线性回归方程的步骤:
①确定两个变量具有相关关系;【做一做1】 如图四个散点图中,适合用线性回归模型拟合其中两个变量的是( )
?
A.①② B.①③ C.②③ D.③④
解析:图①,③中的点大致在一条直线附近,适合用线性回归模型拟合.
答案:B2.线性回归模型
(1)线性回归模型为y=bx+a+e,其中a和b为模型的未知参数,e称为随机误差,自变量x称为解释变量,因变量y称为预报变量.
(2)随机误差产生的原因(3)刻画回归分析效果的参数 名师点拨在线性回归模型中,R2的取值范围为[0,1],R2表示解释变量对于预报变量变化的贡献率,1-R2表示随机误差对于预报变量变化的贡献率.R2越接近于1,表示回归的效果越好.【做一做2】 已知回归直线方程为 ,而试验得到的一组数据是(2,4.9),(3,7.1),(4,9.1),则残差平方和是( )
A.0.01 B.0.02 C.0.03 D.0.04
解析:(4.9-5)2+(7.1-7)2+(9.1-9)2=0.03.
答案:C3.建立回归模型的基本步骤
(1)确定研究对象,明确哪个变量是解析变量,哪个变量是预报变量.
(2)画出解析变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等);或者通过计算相关系数来判断两个变量之间的关系.
(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程 ).
(4)按一定规则(如最小二乘法)估计回归方程中的参数,得到回归方程.
(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律等).若存在异常,则检查数据是否有误,或模型是否合适等.名师点拨非线性回归分析
在散点图中,如果样本点没有分布在某个带状区域内,那么两个变量不呈线性相关关系,就不能直接利用线性回归方程来建立两个变量之间的关系,这就是所谓的非线性回归问题.对于此类问题,我们可以画出已知数据的散点图,通过对散点图的观察,把它与我们已经学过的各种函数(幂函数、指数函数、对数函数等)的图象做比较,挑选一种与这些散点拟合的最好的函数,然后转化为线性函数,通过最小二乘法公式计算求得回归方程.思考辨析
判断下列说法是否正确,正确的在后面的括号内打“√”,错误的打“×”.
(1)判断两个变量是否相关的唯一办法是通过散点图确定. ( )
(2)在残差图中,残差点比较均匀地落在水平带状区域内,说明选用的模型比较合适. ( )
(3)在残差图中,纵坐标为残差,横坐标可以选为样本编号. ( )
(4)残差平方和越大,说明回归模型的拟合精度越高,预报越准确. ( )
(5)相关指数越大,说明回归模型的拟合精度越高,预报越准确. ( )
答案:(1)× (2)√ (3)√ (4)× (5)√探究一探究二探究三线性回归方程及其应用
【例1】 某地区2010年至2016年农村居民家庭人均纯收入y(单位:千元)的数据如表:(1)求y关于t的线性回归方程;
(2)利用(1)中的回归方程,分析2010年至2016年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2018年农村居民家庭人均纯收入.
思路分析:(1)根据回归系数的计算公式求出 的值,代入即得回归直线方程;(2)将t=9代入回归直线方程计算求解.探究一探究二探究三探究一探究二探究三探究一探究二探究三探究一探究二探究三变式训练1某种产品的广告费支出x(单位:百万元)与销售额y(单位:百万元)之间有如下对应数据:(1)试根据数据预报当广告费支出为1 000万元时的销售额;
(2)若广告费支出为1 000万元时的实际销售额为8 500万元,求误差.探究一探究二探究三探究一探究二探究三(2)8 500万元即85百万元,实际数据与预报值的误差为85-82.5=2.5(百万元).探究一探究二探究三回归模型的误差分析
【例2】已知x,y的取值如表所示:(1)求y与x之间的回归方程;
(2)计算残差平方和;
(3)判断该回归模型的好坏.
思路分析:首先画出散点图,通过散点图确定y与x之间的线性相关关系,套用公式求得回归直线方程;然后根据公式计算残差平方和;最后可求出相关指数R2,进行模型好坏的评判.探究一探究二探究三解:(1)画出散点图如下:
由图可以看出,样本点呈条状分布,有较好的线性相关关系,因此可用线性回归方程刻画它们之间的关系.探究一探究二探究三探究一探究二探究三探究一探究二探究三变式训练2关于x与y有如下数据: 探究一探究二探究三非线性回归分析
【例3】 在某一化学反应过程中,其化学物质的反应速度y(单位:g/min)与一种催化剂的量x(单位:g)有关,现收集了8组测验数据列于下表中,试建立y与x之间的回归方程.思路分析:先画出散点图,由此确定拟合曲线的类型,再进行非线性回归分析.探究一探究二探究三解:根据测验数据可以作出散点图,如图所示:根据y与x的散点图,可以认为样本点集中在某一条指数函数曲线
(c1,c2为待定参数)的附近,令z=ln y,则z=ln y=c2x+ln c1,即变换变量后样本点应该分布在直线z=bx+a(a=ln c1,b=c2)的附近.z与x的数据如下表所示:探究一探究二探究三画出z与x的散点图,如图所示.
观察散点图可知,样本点近似地分布在一条直线附近,因此,可以用线性回归模型来拟合它.探究一探究二探究三反思感悟求非线性回归方程的步骤
(1)确定变量,作出散点图.
(2)根据散点图,选择恰当的拟合函数.
(3)关系变换,通过关系变换把非线性回归问题转化为线性回归问题,并求出线性回归方程.
(4)分析拟合效果:通过计算相关指数或画残差图来判断拟合效果.
(5)根据相应的变换,写出非线性回归方程.探究一探究二探究三?1.在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是( )
A.总偏差平方和 B.残差平方和
C.回归平方和 D.相关指数R2
解析:由残差平方和的定义及计算公式可知.
答案:B
2.甲、乙、丙、丁四名同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R2分别如下表:建立的回归模型拟合效果最好的同学是( )
A.甲 B.乙 C.丙 D.丁
解析:相关指数R2越大,表示回归模型的效果越好.
答案:A3.已知回归直线方程中斜率的估计值为5.43,样本点的中心为(1,2),则回归直线在y轴上截距为( )
A.-3.43 B.3.43 C.1 D.2
解析:回归直线方程过样本点的中心,把点(1,2)代入求得y轴上截距为-3.43.
答案:A
4.已知工厂加工零件的个数x与花费时间y(单位:h)之间的线性回归方程为 =0.01x+0.5,则加工200个零件大约需要 h.?
解析:将200代入线性回归方程 =0.01x+0.5,得y=2.5.
答案:2.55.某个服装店经营某种服装,在某周内获纯利y(单位:元),与该周每天销售这种服装件数x之间的一组数据关系见表:(2)已知纯利y与每天销售件数x之间线性相关,求出y关于x的回归直线方程;
(3)求残差平方和、相关指数.课件30张PPT。1.2 独立性检验的基本思想及其初步应用1.分类变量与列联表
(1)分类变量
如果某种变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表
列出两个分类变量的频数表,称为列联表.
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:【做一做1】 下面是一个2×2列联表. 则表中p的值等于 .?
解析:依题意有33+m=83,33+n=60,所以m=50,n=27,于是a=50+25=75,b=27+25=52,从而p=60+75=83+52=135.
答案:1352.等高条形图
(1)图形与表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.
(2)观察等高条形图,如果发现 相差很大,就判断两个分类变量之间有关系.【做一做2】 下列关于等高条形图的叙述中,正确的是 ( )
A.从等高条形图中可以精确地判断两个分类变量是否有关系
B.从等高条形图中可以看出两个变量频数的大小
C.从等高条形图中可以粗略地判断两个变量是否有关系
D.以上说法均不正确
答案:C3.独立性检验 名师点拨独立性检验原理与反证法原理比较
(1)反证法原理:在假设H0下,如果推出一个矛盾,就证明了H0不成立.
(2)独立性检验原理:在假设H0下,如果出现一个与H0相矛盾的小概率事件,就推断H0不成立,且该推断犯错误的概率不超过小概率.【做一做3】 某研究小组为了研究中学生的身体发育情况,在某中学随机抽出20名15至16周岁的男生,将他们的身高和体重制成2×2列联表,根据列联表中的数据,可以在犯错误的概率不超过
的前提下认为该学校15至16周岁的男生的身高和体重之间有关系.?思考辨析
判断下列说法是否正确,正确的在后面的括号内打“√”,错误的打“×”.
(1)列联表中的数据是两个分类变量的频数. ( )
(2)事件A与B的独立性检验无关,即两个事件互不影响. ( )
(3)K2的大小是判断分类变量A与B是否相关的统计量. ( )
(4)在等高条形图中,如果 非常接近,说明两个变量之间有关系. ( )
(5)利用列联表求得的K2的值越大,说明两个变量有关系的可能性越大. ( )
答案:(1)√ (2)× (3)√ (4)× (5)√探究一探究二探究三思维辨析列联表
【例1】 为了调查胃病是否与生活规律有关系,在某地对540名40岁以上的人进行了调查,结果显示:患胃病者生活不规律的共60人,患胃病者生活规律的共20人,未患胃病者生活不规律的共260人,未患胃病者生活规律的共200人,试根据以上数据列出2×2列联表.
思路分析:先确定两个分类变量,再分别计算分类变量的取值,最后作出列联表.解:由已知可列2×2列联表如下: 探究一探究二探究三思维辨析反思感悟列2×2列联表,实质就是列出两个变量取值的频数表.
一般地,假设有两个变量A和B,它们的取值分别为{A1,A2}和{B1,B2},其样本频数列联表(称为2×2列联表)为:探究一探究二探究三思维辨析变式训练1关于男女生喜欢武打剧的列联表如下:则表中A= ,B= ,
C= ,D= .?
解析:A=105-39=66,B=100-39=61,
C=66+34=100,D=105+95=200.
答案:66 61 100 200探究一探究二探究三思维辨析利用等高条形图进行独立性检验
【例2】在一项有关医疗保健的社会调查中,一共调查了男性530人,女性670人,其中男性喜欢吃甜食的为117人,女性喜欢吃甜食的为492人.请根据以上数据作出性别与喜欢吃甜食的列联表,并用等高条形图判断二者之间是否有关系.
思路分析:先根据题意确定分类变量,作出列联表,再画等高条形图,最后给出判断.探究一探究二探究三思维辨析解:根据已知的数据,可以作出列联表如下: 等高条形图如下:
?
从等高条形图可以看出,男性中不喜欢吃甜食的比例明显高于女性中不喜欢吃甜食的比例,因此可以认为性别与喜欢吃甜食之间有关系.探究一探究二探究三思维辨析反思感悟1.利用等高条形图进行直观判断的步骤
(1)作出2×2列联表;
(2)计算出相应的频率;
(3)作出等高条形图;
(4)最后结合图形进行判断.
2.绘制等高条形图时,列联表的行对应的是高度,两行的数据不相等,但对应的条形图的高度是相同的,两列的数据对应不同颜色.探究一探究二探究三思维辨析变式训练2下面是调查某地区男女中学生喜欢理科情况的等高条形图,由图形可知( )
?
A.性别与喜欢理科无关
B.女生中喜欢理科的比例为80%
C.男生比女生喜欢理科的可能性大些
D.男生中不喜欢理科的比例为60%
解析:由题图知女生中喜欢理科的比例为20%,男生中喜欢理科的比例为60%,故选项B,D不正确.由题图知,男生比女生喜欢理科的可能性大些.
答案:C探究一探究二探究三思维辨析利用列联表进行独立性检验
【例3】 下表是对某地区的一种传染病与饮用水的调查表:(1)这种传染病是否与饮用水的卫生程度有关系?请说明理由.
(2)若饮用干净水得病的有5人,不得病的有50人,饮用不干净水得病的有9人,不得病的有22人.按此样本数据分析这种疾病是否与饮用水的卫生程度有关系,并比较两种样本在反映总体时的差异.
思路分析:根据列联表,通过公式计算K2的观测值,然后与临界值进行比较,得出结论.探究一探究二探究三思维辨析解:(1)假设H0:传染病与饮用水的卫生程度没有关系.把表中数据代入公式得在H0成立的情况下,P(K2>10.828)≈0.001,是小概率事件,所以拒绝H0.
因此我们在犯错误的概率不超过0.001的前提下,可以认为该地区这种传染病与饮用不干净水有关系.探究一探究二探究三思维辨析(2)依题意得2×2列联表如下: 因为5.785>5.024,P(K2>5.024)≈0.025,
所以我们在犯错误的概率不超过0.025的前提下,可以认为该种疾病与饮用不干净水有关系.
两个样本都能统计得到传染病与饮用不干净水有关系这一相同结论.但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有97.5%的把握认为该疾病与饮用不干净水有关系.探究一探究二探究三思维辨析反思感悟解决独立性检验问题的思路
解决一般的独立性检验问题,首先由题目所给的2×2列联表确定a,b,c,d,n的值,然后代入随机变量K2的计算公式求出观测值k,最后将k与临界值k0进行对比,从而确定在犯错误的概率不超过多少的前提下(或有多大的把握)认为“两个分类变量有关系”.探究一探究二探究三思维辨析变式训练3某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下2×2列联表:如果说其亲属的饮食习惯与年龄有关系,那么犯错误的概率不超过( )
A.0.1 B.0.05 C.0.01 D.0.001
解析:K2= =10>6.635,所以如果说其亲属的饮食习惯与年龄有关系,那么犯错误的概率不超过0.01.
答案:C探究一探究二探究三思维辨析对独立性检验的原理理解不清致误
【典例】 某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K2≈3.918,经查临界值表知P(K2≥3.841)≈0.05.则下列结论中,正确结论的序号是 .?
①在犯错误的概率不超过0.05的前提下认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%.
错解分析:本题常见的错解是由对独立性检验的原理理解不清,对检验结果的概率性描述不准确导致的.
解析:由独立性检验的思想方法,知①正确.
答案:①探究一探究二探究三思维辨析纠错心得注意独立性检验结果的概率性描述,在独立性检验中,当随机变量K2的观测值k与临界值k0比较,满足k≥k0时,我们就可以在犯错误概率不超过P(K2≥k0)的前提下认为两个变量有关系,或者说有[1-P(K2≥k0)]×100%的把握认为两个变量有关系,即认为两个变量没有关系的概率为P(K2≥k0).探究一探究二探究三思维辨析跟踪训练利用独立性检验对两个分类变量是否有关系进行研究时,若在犯错误的概率不超过0.005的前提下认为事件A和B有关系,则具体计算得出的数据k应满足( )
A.k≥6.635 B.k<6.635
C.k≥7.879 D.k<7.879
解析:犯错误的概率为0.5%,对应的k0的值为7.879,由独立性检验的思想可知应为k≥7.879.
答案:C1.在调查高中学生的近视情况中,某校高一年级145名男生中有60名近视,120名女生中有70名近视.在检验这些高中学生眼睛近视是否与性别相关时,常采用的数据分析方法是( )
A.频率分布直方图 B.独立性检验
C.回归分析 D.茎叶图
答案:B
2.在等高条形图中,下列哪两个比值相差越大,“两个分类变量有关系”成立的可能性越大( )解析: 相差越大,说明ad与bc相差越大,两个分类变量之间的关系越强.
答案:C3.根据下面的2×2列联表: 得K2的观测值k= .? 4.在一个2×2列联表中,由其数据计算得K2=9.46,则两个变量有关系的可能性不小于 .?
附:解析:由于K2=9.46>6.635,而P(K2≥6.635)≈0.01,所以有99%的把握说两个变量有关系,即两个变量有关系的可能性不小于99%.
答案:99%5.调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据:出生时间在晚上的男婴为24人,女婴为8人;出生时间在白天的男婴为31人,女婴为26人.
(1)将2×2列联表补充完整.(2)能否在犯错误的概率不超过0.1的前提下认为婴儿性别与出生时间有关系?解:(1)列2×2列联表: 根据临界值表知P(K2≥2.706)≈0.10.
因此在犯错误的概率不超过0.1的前提下,认为婴儿的性别与出生的时间有关系.