课件44张PPT。3.1 独立性检验第3章 统计案例学习目标
1.了解2×2列联表的意义.
2.了解统计量χ2的意义.
3.通过对典型案例分析,了解独立性检验的基本思想和方法.题型探究问题导学内容索引当堂训练问题导学答案 可通过表格与图形进行直观分析,也可通过统计分析定量判断.知识点一 2×2列联表思考 山东省教育厅大力推行素质教育,增加了高中生的课外活动时间,某校调查了学生的课外活动方式,结果整理成下表:答案如何判定“喜欢体育还是文娱与性别是否有联系”?(1)2×2列联表的定义
对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值,即类A和类B;Ⅱ也有两类取值,即类1和类2.我们得到如下列联表所示的抽样数据:梳理a+bc+da+cb+d(2)χ2统计量的求法知识点二 独立性检验独立性检验的概念
用χ2统计量研究两变量是否有关的方法称为独立性检验.知识点三 独立性检验的步骤1.独立性检验的步骤
要判断“Ⅰ与Ⅱ有关系”,可按下面的步骤进行:
(1)提出假设H0: ;
(2)根据2×2列联表及χ2公式,计算 的值;Ⅰ与Ⅱ没有关系χ2表示在H0成立的情况下,事件“ ”发生的概率.(3)查对临界值,作出判断.
其中临界值如表所示:χ2≥x02.推断依据
(1)若χ2>10.828,则有99.9%的把握认为“Ⅰ与Ⅱ有关系”.
(2)若χ2>6.635,那么有99%的把握认为“Ⅰ与Ⅱ有关系”.
(3)若χ2>2.706,那么有90%的把握认为“Ⅰ与Ⅱ有关系”.
(4)若χ2≤2.706,那么就认为没有充分的证据显示“Ⅰ与Ⅱ有关系”,但也不能作出结论“H0成立”,即Ⅰ与Ⅱ没有关系.题型探究例1 在一项有关医疗保健的社会调查中,发现调查的男性为530人,女性为670人,其中男性中喜欢吃甜食的为117人,女性中喜欢吃甜食的为492人,请作出性别与喜欢吃甜食的列联表.解 作列联表如下:解答类型一 2×2列联表分清类别是列联表的作表关键步骤.表中排成两行两列的数据是调查得来的结果.反思与感悟则表中a,b的值分别为____,_____.解析 ∵a+21=73,∴a=52.
又∵a+2=b,∴b=54.跟踪训练1 (1)下面是2×2列联表:答案解析52 54(2)某学校对高三学生作一项调查后发现:在平时的模拟考试中,性格内向的426名学生中有332名在考前心情紧张,性格外向的594名学生中有213名在考前心情紧张.作出2×2列联表.解 作列联表如下:解答例2 对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示.类型二 由χ2进行独立性检验解答试根据上述数据比较这两种手术对病人又发作过心脏病的影响有没有差别.解 假设病人又发作过心脏病与做过心脏搭桥手术还是血管清障手术没有关系,由表中数据得a=39,b=157,c=29,d=167,a+b=196,c+d=196,a+c=68,b+d=324,n=392,因为χ2≈1.779<2.706,所以不能得出病人又发作过心脏病与做过心脏搭桥手术还是血管清障手术有关系的结论,
即这两种手术对病人又发作过心脏病的影响没有差别.独立性检验的关注点
在2×2列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0,因此|ad-bc|越小,关系越弱;|ad-bc|越大,关系越强.反思与感悟跟踪训练2 某省进行高中新课程改革已经四年了,为了解教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.
(1)根据以上数据建立一个2×2列联表;解答解 2×2列联表如下所示:(2)判断是否有99%的把握说明对新课程教学模式的赞同情况与教师年龄有关系.解 假设“对新课程教学模式的赞同情况与教师年龄无关”.解答≈4.963<6.635,
所以没有99%的把握认为对新课程教学模式的赞同情况与教师年龄有关.例3 电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,并根据调查结果绘制了观众日均收看该体育节目时间的频率分布直方图如图.类型三 独立性检验的综合应用将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.(1)根据已知条件完成下面的2×2列联表,并据此资料推断“体育迷”与性别是否有关?解答解 由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:将2×2列联表中的数据代入公式计算,得因为2.706<3.030<3.841,所以在犯错误的概率不超过0.10的前提下认为“体育迷”与性别有关.(2)将上述调查所得的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X.若每次抽取的结果是相互独立的,求X的概率分布,均值E(X)和方差V(X).解答解 由频率分布直方图知,抽到“体育迷”的频率为0.25,将频率视为概率,即从观众中抽取一名“体育迷”的概率为独立性检验的步骤
第一步,假设两个分类变量X与Y无关系;第二步,找相关数据,列出
2×2列联表;第三步,由公式χ2= (其中n=a
+b+c+d)计算出χ2的值;第四步,将χ2的值与临界值进行比较,进而作出统计推断.这些临界值,在高考题中常会附在题后,应适时采用.反思与感悟跟踪训练3 某地区甲校高二年级有1 100人,乙校高二年级有900人,为了统计两个学校高二年级在学业水平考试中的数学学科成绩,采用分层抽样的方法在两校共抽取了200名学生的数学成绩,如下表:(已知本次测试合格线是50分,两校合格率均为100%)
甲校高二年级数学成绩:乙校高二年级数学成绩:(1)计算x,y的值,并分别估计以上两所学校数学成绩的平均分;(精确到1分)解答解 依题意知,甲校应抽取110人,乙校应抽取90人,
∴x=10,y=15,
估计两个学校的平均分,甲校的平均分为乙校的平均分为(2)若数学成绩不低于80分为优秀,低于80分为非优秀,根据以上统计数据填写下面2×2列联表,并回答能否在犯错误的概率不超过0.05的前提下认为“两个学校的数学成绩有差异”?解答又4.714>3.841,故能在犯错误的概率不超过0.05的前提下认为“两个学校的数学成绩有差异”.解 数学成绩不低于80分为优秀,低于80分为非优秀,得到2×2列联表如下:当堂训练1.在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算χ2=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是______的.(填有关,无关)答案23451有关则空格中的数据分别为:①____;②____;③____;④____.2.为了考察长头发与女性头晕是否有关系,随机抽查301名女性,得到如下所示的列联表,试根据表格中已有数据填空.答案2345186 180 229 3013.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是_____.(填序号)
①若χ2>6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;
②从独立性检验可知,有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;
③若从χ2与临界值的比较中得出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误.答案23451解析③解析 对于①,99%的把握是通过大量的试验得出的结论,这100个吸烟的人中可能全患肺病也可能都不患,是随机的,所以①错;
对于②,某人吸烟只能说其患病的可能性较大,并不一定患病;
③的解释是正确的.234514.某科研机构为了研究中年人秃发与心脏病是否有关,随机调查了一些中年人的情况,具体数据如表:答案23451解析0.01根据表中数据得到χ2= ≈15.968,因为χ2>6.635,
则断定秃发与心脏病有关系,那么这种判断出错的可能性为_____.解析 因为χ2>6.635,所以有99%的把握说秃发与患心脏病有关,故这种判断出错的可能性有1-0.99=0.01.234515.根据下表计算:23451χ2≈______.(保留3位小数)答案解析4.514规律与方法1.列联表
列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有相关关系.
2.对独立性检验思想的理解
独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算统计量χ2的值,如果χ2的值很大,说明假设不合理.χ2越大,两个分类变量有关系的可能性越大.本课结束课件52张PPT。3.2 回归分析第3章 统计案例学习目标
1.会建立线性回归模型分析两个变量间的相关关系.
2.能通过相关系数判断两个变量间的线性相关程度.
3.了解非线性回归分析.题型探究问题导学内容索引当堂训练问题导学请问如何表示推销金额y与工作年限x之间的相关关系?y关于x的线性回归方程是什么?知识点一 线性回归模型思考 某电脑公司有5名产品推销员,其工作年限与年推销金额数据如下表:答案答案 画出散点图,由图可知,样本点散布在一条直线附近,因此可用回归直线表示变量之间的相关关系.所以年推销金额y关于工作年限x的线性回归方程为线性回归模型
(1)随机误差
具有线性相关关系的两个变量的取值x、y,y的值不能由x完全确定,可将x,y之间的关系表示为y=a+bx+ε,其中 是确定性函数, 称为随机误差.
(2)随机误差产生的主要原因
①所用的 不恰当引起的误差;
②忽略了 ;
③存在 误差.梳理a+bxε确定性函数某些因素的影响观测(3)线性回归模型中a,b值的求法
y= 称为线性回归模型.a+bx+ε(4)回归直线和线性回归方程回归截距回归系数回归值思考1 知识点二 样本相关系数r答案答案 不一定.思考2 答案答案 越小越好.(2)r具有以下性质:
①|r|≤ ;
②|r|越接近于 ,x,y的线性相关程度越强;
③|r|越接近于 ,x,y的线性相关程度越弱.(1)r= .样本相关系数r及其性质梳理1101. :变量x,y不具有线性相关关系;
2.如果以95%的把握作出判断,那么可以根据1-0.95=0.05与n-2在教材附录2中查出一个r的临界值r0.05(其中1-0.95=0.05称为检验水平);
3.计算 ;
4.作出统计推断:若|r|> ,则否定H0,表明有 的把握认为x与y之间具有线性相关关系;若|r|≤r0.05,则 原来的假设H0,即就目前数据而言,没有充分理由认为y与x之间有线性相关关系.提出统计假设H0样本相关系数r知识点三 对相对关系数r进行显著性检验的基本步骤r0.0595%没有理由拒绝题型探究例1 某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:解答类型一 求线性回归方程(1)请画出上表数据的散点图;解 如图:(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程解答(3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.解答(1)求线性回归方程的基本步骤
①列出散点图,从直观上分析数据间是否存在线性相关关系.反思与感悟④写出线性回归方程并对实际问题作出估计.
(2)需特别注意的是,只有在散点图大致呈线性时,求出的回归方程才有实际意义,否则求出的回归方程毫无意义.跟踪训练1 某班5名学生的数学和物理成绩如下表:(1)画出散点图;解 散点图如图.解答(2)求物理成绩y对数学成绩x的线性回归方程;解答(3)一名学生的数学成绩是96,试预测他的物理成绩.解答例2 现随机抽取了某中学高一10名在校学生,他们入学时的数学成绩(x)与入学后第一次考试的数学成绩(y)如下:类型二 线性回归分析解答请问:这10名学生的两次数学成绩是否具有线性关系?所以相关系数为≈0.751.
由检验水平0.05及n-2=8,
在附录2中查得r0.05=0.632.
因为0.751>0.632,
由此可看出这10名学生的两次数学成绩具有较强的线性相关关系.相关关系的两种判定方法及流程
(1)利用散点图判定的流程反思与感悟(2)利用相关系数判定的流程跟踪训练2 一台机器由于使用时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点的零件的多少,随机器运转的速度而变化,下表为抽样试验的结果:解答对变量y与x进行线性相关性检验.由检验水平0.05及n-2=2,在教材附录表2中查得r0.05=0.950,
因为r>r0.05,所以y与x具有线性相关关系.例3 下表为收集到的一组数据:类型三 非线性回归分析解答(1)作出x与y的散点图,并猜测x与y之间的关系;解 作出散点图如图,从散点图可以看出x与y不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数型函数曲线y=c1e 的周围,其中c1、c2为待定的参数.c2x(2)建立x与y的关系;解答解 对两边取对数把指数关系变为线性关系,令z=ln y,则有变换后的样本点应分布在直线z=bx+a,a=ln c1,b=c2的周围,这样就可以利用线性回归模型来建立y与x之间的非线性回归方程,数据可以转化为求得线性回归方程为(3)利用所得模型,估计当x=40时y的值.解答非线性回归问题的处理方法
(1)指数函数型y=ebx+a
①函数y=ebx+a的图象反思与感悟②处理方法:两边取对数,得ln y=ln ebx+a,即ln y=bx+a.令z=ln y,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b.(2)对数函数型y=bln x+a
①函数y=bln x+a的图象:②处理方法:设x′=ln x,原方程可化为y=bx′+a,
再根据线性回归模型的方法求出a,b.
(3)y=bx2+a型
处理方法:设x′=x2,原方程可化为y=bx′+a,再根据线性回归模型的方法求出a,b.跟踪训练3 已知某种食品每千克的生产成本y(元)与生产该食品的重量x(千克)有关,经生产统计得到以下数据:解答通过以上数据,判断该食品的生产成本y(元)与生产的重量x(千克)的倒数
之间是否具有线性相关关系.若有,求出y关于 的回归方程,并估计一下生产该食品500千克时每千克的生产成本是多少.(精确到0.01)根据上述数据可求得相关系数所以估计生产该食品500千克时每千克的生产成本是1.14元.当堂训练1.设有一个线性回归方程 =2-1.5x,当变量x增加1个单位时,y平均________个单位.答案23451解析解析 由回归方程中两个变量之间的关系可以得到.减少1.52.如图四个散点图中,适合用线性回归模型拟合其中两个变量的是______.(填序号)答案23451解析解析 由图易知①③两个图中样本点在一条直线附近,
因此适合用线性回归模型.①③根据上表提供的数据,求出y关于x的线性回归方程为 =0.7x+0.35,则上表中的t=____.3.某厂节能降耗技术改造后,在生产A产品过程中记录的产量x(吨)与相应的生产能耗y(吨)的几组对应数据如表:答案2345134.下表是x和y之间的一组数据,则y关于x的回归直线必过点________.答案23451解析(2.5,4)5.已知x、y之间的一组数据如下表:解答23451x1y1+x2y2+x3y3+x4y4=0×1+1×3+2×5+3×7=34,(2)已知变量x与y线性相关,求出回归方程.解答23451规律与方法回归分析的步骤
(1)确定研究对象,明确哪个变量是自变量,哪个变量是因变量;
(2)画出确定好的自变量和因变量的散点图,观察它们之间的关系(如是否存在线性关系等);
(3)由经验确定回归方程的类型(如果呈线性关系,则选用线性回归方程
(4)按一定规则估计回归方程中的参数.本课结束课件34张PPT。章末复习课第3章 统计案例学习目标
1.会求线性回归方程,并用回归直线进行预测.
2.理解独立性检验的基本思想及实施步骤.题型探究知识梳理内容索引当堂训练知识梳理1.最小二乘法对于一组数据(xi,yi),i=1,2,…,n,如果它们线性相关,则线性回归
方程为 = =
.2.2×2列联表
2×2列联表如表所示:a+bc+da+cb+d其中n= 为样本容量.a+b+c+d3.独立性检验
常用统计量χ2= 来检验两个变量是否有关系.题型探究例1 某城市理论预测2010年到2014年人口总数与年份的关系如表所示:解答类型一 线性回归分析(1)请画出上表数据的散点图;解 散点图如图:(2)请根据上表提供的数据,求出y关于x的线性回归方程解答(3)据此估计2018年该城市人口总数.故估计2018年该城市人口总数为29.2(十万).解答解决回归分析问题的一般步骤
(1)画散点图.根据已知数据画出散点图.
(2)判断变量的相关性并求回归方程.通过观察散点图,直观感知两个变量是否具有相关关系;在此基础上,利用最小二乘法求回归系数,然后写出回归方程.
(3)实际应用.依据求得的回归方程解决实际问题.反思与感悟跟踪训练1 在一段时间内,某种商品的价格x元和需求量y件之间的一组数据为:解答且知x与y具有线性相关关系,求出y关于x的线性回归方程.已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为
(1)请将上面的2×2列联表补充完整;(不用写计算过程)例2 为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查得到了如下的2×2列联表:类型二 独立性检验解答解 列联表补充如下:(2)能否在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关?说明你的理由;解答因为4.286>3.841,所以能在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关.(3)现从女生中抽取2人进一步调查,设其中喜爱打篮球的女生人数为X,求X的概率分布与均值.解答解 喜爱打篮球的女生人数X的可能取值为0,1,2,其概率分别为故X的概率分布为独立性检验问题的求解策略反思与感悟先计算出χ2,再与临界值表作比较,最后得出结论.跟踪训练2 某学生对其亲属30人的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数,如图所示.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主).(1)根据茎叶图,帮助这位同学说明其亲属30人的饮食习惯;解 30位亲属中50岁以上的人多以食蔬菜为主,50岁以下的人多以食肉类为主.解答(2)根据以上数据完成如表所示的2×2列联表;解答解 2×2列联表如表所示:(3)在犯错误的概率不超过0.01的前提下,是否能认为“其亲属的饮食习惯与年龄有关”?解答故在犯错误的概率不超过0.01的前提下认为“其亲属的饮食习惯与年龄有关”.当堂训练1.“回归”一词是在研究子女的身高与父母的身高之间的遗传关系时由高尔顿提出的,他的研究结果是子代的平均身高向中心回归.根据他的结论,在儿子的身高y与父亲的身高x的线性回归方程 的取值范围是________.答案23451解析解析 子代平均身高向中心回归, 应为正的真分数.(0,1)2.假如由数据:(1,2),(3,4),(2,2),(4,4),(5,6),(3,3.6)可以得出线性回归方程 则经过的定点是以上点中的________.答案23451解析(3,3.6)根据计算可知这几个点中满足条件的是(3,3.6).3.考古学家通过始祖鸟化石标本发现:其股骨长度x(cm)与肱骨长度y(cm)的线性回归方程为 =1.197x-3.660,由此估计,当股骨长度为50 cm时,肱骨长度的估计值为_______cm.答案23451解析解析 根据线性回归方程 =1.197x-3.660,将x=50代入,
得y=56.19,则肱骨长度的估计值为56.19 cm.56.19则b-d=____.4.下面是一个2×2列联表:答案23451解析解析 ∵a=70-21=49,c=30-5=25,
∴b=49+5=54,d=21+25=46,
∴b-d=8.85.对于线性回归方程 当x=3时,对应的y的估计值是17,当x=8时,对应的y的估计值是22,那么,该线性回归方程是_________,根据线性回归方程判断当x=____时,y的估计值是38.23451答案解析24解析 首先把两组值代入线性回归方程,得令x+14=38,可得x=24,即当x=24时,y的估计值是38.规律与方法1.建立回归模型的基本步骤
(1)确定研究对象,明确哪个变量是自变量,哪个变量是因变量;
(2)画出散点图,观察它们之间的关系;
(3)由经验确定回归方程的类型;
(4)按照一定的规则估计回归方程中的参数.
2.独立性检验是对两个分类变量间是否存在相关关系的一种案例分析方法.利用假设的思想方法,计算出某一个统计量χ2的值来判断更精确些.本课结束