8.1 成对数据的统计相关性
学习目标
1.结合实例了解样本相关系数的统计含义.
2.了解样本相关系数与“标准化”成对数据向量夹角的关系.
3.结合实例,会通过相关系数比较多组成对数据的相关性.
核心素养
1.通过画散点图来判断变量的相关关系,提升数据分析素养.
2.通过样本相关系数的计算,培养数学运算及逻辑推理素养.
知识点 1 变量的相关关系
(1)两个变量的关系
分类 函数关系 相关关系
特征 两变量有_确定__的关系 两个变量有关系,但又没有确切到可由其中一个去_精确地决定__另一个的程度
(2)散点图:将样本中的每一个序号下的成对数据用_直角坐标系__中的点表示出来得到的统计图.
(3)正相关与负相关
正相关 负相关
当一个变量的值增加时,另一个变量的相应值也呈现_增加的趋势__ 当一个变量的值增加时,另一个变量的相应值呈现_减少的趋势__
(4)线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在_一条直线__附近,则称这两个变量线性相关.
想一想:正相关与负相关是对所有具有相关关系的两个变量而言的,对吗?
提示:不对,正相关与负相关是针对线性相关关系而言的.
练一练:
下列两个变量之间的关系是相关关系的是( D )
A.正方体的棱长和体积
B.单位圆中角的弧度数和所对弧长
C.当亩产量为常数时,土地面积和总产量
D.日照时间与水稻的亩产量
[解析] 选项A,B,C中两个变量之间是函数关系,选项D中两个变量之间是相关关系.
知识点 2 样本的相关系数
(1)相关系数:统计学里一般用r==来衡量y与x的_线性相关性的强弱__,这里的r称为样本相关系数(简称相关系数).
(2)相关系数的性质
1 _r>0__时,成对数据正相关;_r<0__时,成对数据负相关,-1≤r≤1.
2 |r|越小,两个变量之间的线性相关程度越_弱__,|r|越大,两个变量之间的线性相关程度越_强__.
3 |r|=1时,成对数据构成的点都在_一条确定的直线__上.
练一练:
对四组不同数据进行统计,获得如图所示的散点图,对它们的样本相关系数进行比较,正确的是( A )
①样本相关系数r1
②样本相关系数r2
③样本相关系数r3
④样本相关系数r4
A.r2C.r4[解析] 由给出的四组数据的散点图可以看出,图①和图③中的成对数据是正相关的,样本相关系数大于0,图②和图④中的成对数据是负相关的,样本相关系数小于0,图①和图②中的点相对更加集中于一条直线附近,所以相关性更强,所以r1接近于1,r2接近于-1,由此可得r2题|型|探|究
题型一 相关关系的判断
典例1 (多选)下列选项中,两变量间具有相关关系的是( ACD )
A.一个人的身高与他(她)的体重之间的关系
B.曲线上的点与该点的坐标之间的关系
C.苹果的产量与气候之间的关系
D.森林中的同一种树木,其横断面直径与高度之间的关系
[分析] 直接利用相关关系的定义逐一判断即可.
[解析] 选项A,一般地,人的身高与体重是一种相关关系;选项B,曲线上的点与该点的坐标是一种确定的对应关系,不是相关关系;选项C,苹果的产量与气候之间的关系是一种相关关系;选项D,森林中的同一种树木,其横断面直径与高度之间的关系是相关关系.
[规律方法] 对相关关系的理解
(1)相关关系与函数关系是两种不同的变量关系,函数关系是一种确定性关系,可以用一个变量确切地表示另一个变量;相关关系是一种非确定性关系,两个变量虽然有关系,但又没有确切到可由其中一个去精确地决定另一个的程度.
(2)根据变量变化趋势可将相关关系分为正相关和负相关;根据变量分布特征可将相关关系分为线性相关和非线性相关(曲线相关).
对点训练 下列五组变量:
①匀速行驶的汽车行驶的路程和行驶的时间;②学生的平均日学习时间和平均学习成绩;③某人每日吸烟量和其身体健康情况;④正方形的边长和面积;⑤汽车的重量和百公里耗油量.
其中两个变量正相关的是( C )
A.①③ B.②④
C.②⑤ D.④⑤
[解析] ①④中两个变量是确定的函数关系,③中两个变量负相关,只有②⑤中两个变量正相关.
题型二 由散点图判断相关关系
典例2 如图所示的散点图分别反映的变量间的相关关系是( D )
A.正相关,负相关,不相关
B.负相关,不相关,正相关
C.负相关,正相关,不相关
D.正相关,不相关,负相关
[分析] 分别分析三个散点图中的点的分布情况,可得第一个图中两个变量正相关,第二个图中两个变量不相关,第三个图中两个变量负相关.
[解析] 对于图(1),图中的点成带状分布,且从左到右上升,两个变量正相关;对于图(2),图中的点杂乱无章,没有明显的规律,两个变量不相关;对于图(3),图中的点成带状分布,且从左到右下降,两个变量负相关.故选D.
[规律方法] 判断两个变量具有相关关系的方法
(1)根据直观感觉或生活经验等判断;(2)根据成对数据的变化趋势判断;(3)根据散点图判断:若散点图中各点分布在一条直线或曲线附近,则变量具有相关关系.
由散点图判断两个变量正、负相关的方法
如果散点图中的点落在从左下角到右上角的区域,两个变量正相关;如果散点图中的点落在从左上角到右下角的区域,两个变量负相关.
由散点图判断线性相关程度强弱的方法
在散点图中,散点在某条直线附近越集中,两个变量的线性相关程度越强;散点在某条直线附近越分散,两个变量的线性相关程度越弱.
对点训练 (1)对变量x,y由观测数据(xi,yi)(i=1,2,…,10),得散点图①;对变量u,v由观测数据(ui,vi)(i=1,2,…,10),得散点图②.由这两个散点图可以判断( C )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
[解析] 由图①可以看出,散点图在从左上角到右下角的带状区域内,所以变量x与y负相关;由图②可知,散点图在从左下角到右上角的带状区域内,所以变量u与v正相关.
(2)下列散点图中,两个变量线性相关程度最强的是( A )
[解析] 对于A选项,散点图中的点成带状分布,且集中分布在一条直线附近,所以两个变量具有较强的线性相关关系;对于B,C,D选项,散点图中的点成片状分布,两个变量的线性相关程度较弱或不具有线性相关关系.故选A.
题型三 样本相关系数
典例3 (1)对于样本相关系数r来说,下列说法正确的是( C )
A.|r|≤1,|r|越接近0,相关程度越强;|r|越接近1,相关程度越弱
B.|r|≥1,|r|越接近1,相关程度越强;|r|越大,相关程度越弱
C.|r|≤1,|r|越接近1,相关程度越强;|r|越接近0,相关程度越弱
D.|r|≥1,|r|越接近1,相关程度越弱;|r|越大,相关程度越强
[解析] 用样本相关系数r可以衡量两个变量之间线性相关程度的强弱,|r|≤1,|r|越接近1,表示两个变量之间的线性相关程度越强;|r|越接近0,表示两个变量之间的线性相关程度越弱.故选C.
(2)为了对2023年某校月考成绩进行分析,在60分以上的全体同学中随机抽取8位,他们的数学、物理成绩对应如下表:
学生编号 1 2 3 4 5 6 7 8
数学成绩x 68 72 78 81 85 88 91 93
物理成绩y 70 66 81 83 79 80 92 89
用变量y与x的样本相关系数r(精确到0.01)说明物理成绩y与数学成绩x的线性相关程度的强弱,并说明它们的变化趋势特征.
参考数据:iyi=52 957,≈545.82.
[分析] 分别计算出,,然后求出样本相关系数r,用样本相关系数说明物理成绩与数学成绩的相关程度.
[解析] (2)==82,
==80,
r=≈=≈0.87>0.
所以物理成绩y与数学成绩x的线性相关程度较强,且呈正相关,它们的变化趋势相同.
[规律方法] 在统计中常用样本相关系数r来衡量两个变量间线性相关程度的强弱.r的范围为[-1,1],r为正时,两个变量正相关;r为负时,两个变量负相关;|r|越接近1,两个变量间线性相关程度越强;r越接近0,两个变量间线性相关程度越弱.
对点训练 为了解某地区足球特色学校的发展状况,某调查小组得到统计数据如下表:
年份x 2014 2015 2016 2017 2018
足球特色学校y(百个) 0.30 0.60 1.00 1.40 1.70
根据上表数据,计算y与x的样本相关系数r,并说明y与x的线性相关程度的强弱.
参考公式和数据:
r=,
(xi-)(yi-)≈3.6,
(xi-)2=10,(yi-)2=1.3,
≈3.605 6.
[解析] 由题意得r==≈≈0.998.
∵r=0.998非常接近1,∴y与x线性相关程度很强.
易|错|警|示
概念不清致误
典例4 在一组成对样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( D )
A.-1 B.0
C. D.1
[错解] ∵所有样本点都在直线y=x+1上,x的系数为,故选C.
[正解] 因为所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,且x,y的变化趋势相同,所以样本相关系数为1.
1.有以下五组变量:
①某商品的销售价格与销售量;
②学生的学籍号与学生的数学成绩;
③坚持每天吃早餐的人数与患胃病的人数;
④气温与冷饮销售量;
⑤电瓶车的重量和行驶每千米的耗电量.
其中两个变量成正相关的是( D )
A.①③ B.②④
C.②⑤ D.④⑤
[解析] 对于①,一般情况下,某商品的销售价格与销售量成负相关关系;对于②,学生的学籍号与学生的数学成绩没有相关关系;对于③,一般情况下,坚持每天吃早餐的人数与患胃病的人数成负相关关系;对于④,一般情况下,气温与冷饮销售量成正相关关系;对于⑤,一般情况下,电瓶车的重量和行驶每千米的耗电量成正相关关系.综上所述,其中两个变量成正相关的序号是④⑤.
2.两个变量负相关时,散点图的特征是( D )
A.点散布在从左下角到右上角的区域内
B.点散布在某带形区域内
C.点散布在某圆形区域内
D.点散布在从左上角到右下角的区域内
[解析] 有负相关关系的各点整体呈递减趋势,因此点应散布在从左上角到右下角的区域内.
3.已知两个变量的3对观测数据(0,1),(1,0),(2,-0.9),则它们的样本相关系数的大小可能是( A )
A.-0.98 B.0
C.0.02 D.0.97
[解析] 由3对观测数据可知两个变量负相关,所以样本相关系数r<0.
4.某公司欲知诗词日历费用x(十万元)与诗词日历销售量y(千本)之间的关系,从其所发行的诗词日历中随机抽取了10张,得到如下的资料:i=28,=303.4,i=75,y=598.5,iyi=237,则y与x的相关系数r为___0.3__.
[解析] 由题中数据可知
r==0.3.8.2 一元线性回归模型及其应用
学习目标
1.结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义.了解最小二乘法原理.掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件.
2.针对实际问题,会用一元线性回归模型进行预测.
3.了解随机误差、残差、残差图的概念.
核心素养
1.通过对散点图、线性回归的分析,培养数据分析素养.
2.借助回归模型的建立,培养数学建模、数据分析及数学运算素养.
知识点 1 一元线性回归模型
一元线性回归模型的完整表达式为其中Y称为_因变量__或 _响应变量__,x称为自变量或_解释__变量;a,b为模型的未知参数,e是Y与bx+a之间的_随机误差__.
想一想:具有相关关系的两个变量,其样本点散布在某一条直线y=bx+a的附近,可以用一次函数 y=bx+a来描述两个变量之间的关系吗?
提示:不能.
练一练:
下列说法不正确的是( C )
A.在回归模型中,变量间的关系是非确定性关系,因变量不能由自变量唯一确定
B.在函数模型中,变量间的关系是确定性关系,因变量由自变量唯一确定
C.在回归模型中,变量x和y都是普通变量
D.在回归模型中,回归系数可能是正的也可能是负的
[解析] 在回归模型中,x是解释变量,y是响应变量,当解释变量取值一定时,响应变量的取值带有一定的随机性.
知识点 2 最小二乘法与经验回归方程
(1)最小二乘法
=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为_经验回归直线__.这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计.
(2)经验回归方程的系数计算公式
经验回归方程 的计算公式 的计算公式
= x+ = = =-
(3)经验回归方程的性质
①经验回归方程一定过点 (,) ;
②一次函数=x+的单调性由的符号决定,函数递增的充要条件是 >0 ;
③的实际意义:当x增大一个单位时, 增大 个单位.
练一练:
如果记录了x,y的几组数据分别为(0,1),(1,3),(2,5),(3,7),那么y关于x的经验回归方程必过点( D )
A.(2,2) B.(1.5,2)
C.(1,2) D.(1.5,4)
[解析] 因为==1.5,==4,
所以经验回归方程必过点(1.5,4).
知识点 3 残差与残差分析
(1)残差
对于响应变量Y,通过观测得到的数据称为_观测值__,通过经验回归方程得到的称为_预测值__,_观测值__减去_预测值__称为残差.
(2)残差分析
_残差__是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为_残差分析__.
(3)对模型刻画数据效果的分析
①残差图法:在残差图中,如果残差比较均匀地集中在以_横轴为对称轴的水平带状区域内__,则说明经验回归方程较好地刻画了两个变量的关系;
②残差平方和法:残差平方和 (yi-i)2 越小,模型的拟合效果越好;
③R2法:可以用R2=1-来比较两个模型的拟合效果,R2越_大__,模型拟合效果越好,R2越_小__,模型拟合效果越差.
练一练:
甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的决定系数R2分别如表:
甲 乙 丙 丁
R2 0.98 0.78 0.50 0.85
哪位同学建立的回归模型拟合效果最好( A )
A.甲 B.乙
C.丙 D.丁
[解析] 决定系数R2越大,表示回归模型的拟合效果越好.
题|型|探|究
题型一 求经验回归方程
典例1 随着网络的普及,网上购物的方式已经受到越来越多年轻人的青睐,某家网络店铺商品的成交量x(单位:件)与店铺的浏览量y(单位;次)之间的对应数据如下表所示:
x/件 2 4 5 6 8
y/次 30 40 50 60 70
(1)根据表中数据画出散点图;
(2)根据表中的数据,求出y关于x的经验回归方程;
(3)当这种商品的成交量突破100件(含100 件)时,预测这家店铺的浏览量至少为多少?
[分析] 以横轴表示成交量,纵轴表示浏览量,画出散点图,若散点图显示两变量线性相关,则依据公式求解经验回归方程,再利用经验回归方程进行估计.
[解析] (1)散点图如图所示.
(2)根据散点图可得,变量x与y之间具有线性相关关系.
根据数据可知,=5,=50,xiyi=1 390,x=145,代入公式得===7,=-=50-7×5=15.
故所求的经验回归方程是=7x+15.
(3)根据上面求出的经验回归方程,当成交量突破100件(含100件),即x=≥100时,≥715,所以预测这家店铺的浏览量至少为715次.
[规律方法] 经验回归分析的步骤
(1)收集样本数据,设为(xi,yi)(i=1,2,…,n)(数据一般由题目给出).
(2)作出散点图,确定x,y具有线性相关关系.
(3)计算,,x,xiyi.
(4)代入公式计算相关系数,确定相关性的强弱.
(5)代入公式计算,,写出经验回归方程=x+.
(6)利用经验回归方程进行预测.
对点训练 佩戴头盔是一项对家庭与社会负责的表现,某市对此不断进行安全教育.下表是该市某主干路口连续4年监控设备抓拍到的驾驶员不戴头盔的统计数据:
年度 2020 2021 2022 2023
年度序号x 1 2 3 4
不戴头盔人数y 1 250 1 050 1 000 900
(1)请利用所给数据求不戴头盔人数y与年度序号x之间的经验回归方程=x+;
(2)估算该路口2024年不戴头盔的人数.
[解析] (1)由表中数据知,==,==1 050,
所以===-110,所以=-=1 050-(-110)×=1 325,
故所求回归直线方程为=-110x+1 325.
(2)令x=5,则=-110×5+1 325=775,
则估算该路口2024年不戴头盔的人数为775人.
题型二 R2的求解与回归模型的拟合
典例2 我国在第七十五届联合国大会上提出:“中国将提高国家自主贡献力度,采取更加有力的政策和措施,二氧化碳排放力争于2030年前达到峰值,努力争取2060年前实现碳中和.”减少碳排放,实现碳中和,人人都可出一份力.某中学数学教师组织开展了题为“家庭燃气灶旋钮的最佳角度”的数学建模活动.
实验假设:
①烧开一壶水有诸多因素,本建模的变量设定为燃气用量与旋钮的旋转角度,其他因素假设一样;
②由生活常识知,旋转角度很小或很大,一壶水甚至不能烧开或造成燃气浪费,因此旋转角度设定在10°到90°之间,建模实验中选取5个代表性数据:18°,36°,54°,72°,90°.
某数学建模小组收集了“烧开一壶水”的实验数据,如表:
项目旋转角度 开始烧水时燃气表度数/dm3 水烧开时燃气表度数/dm3
18° 9 080 9 210
36° 8 958 9 080
54° 8 819 8 958
72° 8 670 8 819
90° 8 498 8 670
以x表示旋转角度,y表示燃气用量.
(1)用列表法整理数据(x,y);x(旋转角度:度) 18 36 54 72 90
y(燃气用量:dm3)
(2)假定x,y线性相关,试求经验回归方程=x+;(注:计算结果精确到小数点后三位)
(3)计算(2)中所求模型的决定系数,评价此模型的拟合效果.(注:计算结果精确到小数点后两位)
参考数据:i=712,(xi-)(yi-)=1 998,(xi-)2=3 240,(yi-)2=1 501.2,
(yi-i)2≈269.1.
[解析] (1)整理数据如表:
x(旋转角度:度) 18 36 54 72 90
y(燃气用量:dm3) 130 122 139 149 172
(2)=54,=142.4,==≈0.617,
≈142.4-0.617×54=109.082,
故回归直线方程为=0.617x+109.082.
(3)计算(2)中所求模型的决定系数
R2=1-=1-≈0.82.
此模型的拟合效果较好.
[规律方法] 决定系数R2、残差图在回归分析中的作用
(1)决定系数R2是用来刻画回归效果的,由R2=可知,R2越大,意味着残差平方和越小,也就是说模型的拟合效果就越好;
(2)残差图也是用来刻画回归效果的,判断依据是残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合精度越高,回归方程预测的精度也越高.
对点训练 某运动员训练次数与训练成绩之间的数据关系如表:
次数(x) 30 33 35 37 39 44 46 50
成绩(y) 30 34 37 39 42 46 48 51
(1)作出散点图;
(2)求出经验回归方程;
(3)作出残差图;
(4)计算R2,并说明运动员的训练次数对成绩的影响占百分之几.
[解析] (1)作出该运动员训练次数x与成绩y的散点图,如图所示.由散点图可知,它们之间具有相关关系.
(2)=39.25,=40.875,=12 656,iyi=13 180,
所以=≈1.041 5,
=-=-0.003 875,
所以经验回归方程为=1.041 5x-0.003 875.
(3)残差分析:下面的表格列出了运动员训练次数和成绩的原始数据以及相应的残差数据.
x y =y-
30 30 -1.241 1
33 34 -0.365 6
35 37 0.551 4
37 39 0.468 4
39 42 1.385 4
44 46 0.177 9
46 48 0.094 9
50 51 -1.071 1
作残差图如图所示.
由图可知,残差点比较均匀地分布在水平带状区域内,说明选择的模型比较合适.
(4)计算R2≈0.985 5,说明了该运动的训练次数对成绩的影响占98.55%.
题型三 非线性经验回归问题
典例3 某公交公司推出扫码支付优惠乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引了越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用x表示推出的天数,y表示每天使用扫码支付的人次(一人次等于十人),统计数据如下表:
x 1 2 3 4 5 6 7
y 6 11 21 34 66 101 196
根据以上数据,绘制了如图所示的散点图.
(1)根据散点图判断,在推广期内,=x+与=c·dx(c,d均为大于零的常数)哪一个适宜作为扫码支付的人次y关于活动推出天数x的经验回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中的数据,求y关于x的经验回归方程,并预测活动推出后第8天使用扫码支付的人数.
参考数据:
iyi ivi 100.54
62.14 1.54 2 535 50.12 3.47
其中vi=lg yi,=i.
[分析] 由散点图可判断x,y之间的关系符合指数型函数模型,选择=c·dx进行拟合,然后取对数,进而求出经验回归方程.
[解析] (1)根据散点图判断=c·dx适宜作为扫码支付的人次y关于活动推出天数x的经验回归方程类型.
(2)=c·dx,两边同时取常用对数得lg =lg(c·dx)=lg c+lg d·x.
设lg =v.
∴v=lg c+lg d·x.
∴=4,=1.54,=140,ivi=50.12.
∴lg d====0.25.
把点(4,1.54)代入v=lg c+lg d·x,得lg c=0.54,
∴v=0.54+0.25x,
∴lg =0.54+0.25x,
∴y关于x的经验回归方程为=100.54+0.25x=100.54×100.25x=3.47×100.25x.
把x=8代入,得=3.47×102=347(人次).
故预测活动推出后第8天使用扫码支付的人数为3 470.
[规律方法] 求非线性经验回归方程的方法
(1)非线性经验回归方程的求解,一般可以根据散点图选取合适的非线性回归模型,或根据已知条件选取拟合程度较好的非线性回归模型,再通过变换,转化为求线性经验回归方程,最后还原即可.
(2)非线性经验回归方程常见形式有以下几种:=a+b(x-c)2,=a+bln(x-c),=a+b,=a+和=abcx.其中=a+b(x-c)2,=a+bln(x-c),=a+b,=a+可通过变量替换(换元)求解;=abcx可通过先两边取对数,再变量替换(换元)求解.
对点训练 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)的数据作了初步处理,得到下面的散点图及一些统计量的值.
(xi-)2 (wi-)2 (xi-)(yi-) (wi-)(yi-)
46.6 563 6.8 289.8 1.6 1 469 108.8
表中wi=,=i.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线=+u的斜率和截距的最小二乘估计分别为=,=-.
[解析] (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的经验回归方程.
由于===68,=-=563-68×6.8=100.6,
所以y关于w的经验回归方程为=100.6+68w,
因此y关于x的经验回归方程为=100.6+68.
(3)①由(2)知,当x=49时,年销售量y的预报值=100.6+68=576.6(t),
年利润z的预报值=576.6×0.2-49=66.32(千元).
②根据(2)的结果知,年利润z的预报值
=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,
即x=46.24时,取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
1.关于回归分析,下列说法错误的是( D )
A.回归分析是研究两个具有相关关系的变量的方法
B.散点图中,解释变量在x轴,响应变量在y轴
C.回归模型中一定存在随机误差
D.散点图能明确反映变量间的关系
[解析] 用散点图反映两个变量间的关系时,存在误差.
2.关于残差图的描述错误的是( C )
A.残差图的横坐标可以是样本编号
B.残差图的横坐标也可以是解释变量或预报变量
C.残差点分布的带状区域的宽度越窄相关指数越小
D.残差点分布的带状区域的宽度越窄残差平方和越小
[解析] 残差点分布的带状区域的宽度越窄,说明模型拟合精度越高,则残差平方和越小,此时,相关指数R2的值越大.
3.根据如下样本数据:
x 2 3 4 5 6
y 4 2.5 -0.5 -2 -3
得到的经验回归方程为=x+,则( B )
A.>0,>0 B.>0,<0
C.<0,>0 D.<0,<0
[解析] 由题干表中的数据可得,变量y随着x的增大而减小,则<0,又回归方程为=x+经过(2,4),(3,2.5),可得>0.
4.某种产品的广告支出费用x(单位:万元)与销售额y(单位:万元)的数据如表:
x 2 4 5 6 8
y 30 40 60 50 70
已知y关于x的经验回归方程为=6.5x+17.5,则当广告支出费用为5万元时,残差为_10__.
[解析] 当x=5时,=6.5×5+17.5=50,表格中对应y=60,于是残差为60-50=10.8.3 列联表与独立性检验
学习目标
1.基于2×2列联表,通过实例了解独立性检验的基本思想.
2.掌握独立性检验的基本步骤.
3.能利用条形图、列联表探讨两个分类变量的关系.
4.了解χ2的含义及其应用.
5.会用独立性检验解决简单的实际问题.
核心素养
1.通过学习独立性检验的基本思想,提升逻辑推理素养.
2.借助χ2公式,培养数学运算素养.
3.借助条形图,培养直观想象素养.
4.通过利用独立性检验解决实际问题,提升数据分析能力.
知识点 1 分类变量与列联表
(1)分类变量:用来区别不同的现象或性质的_随机变量__,其取值可以用实数表示.
(2)2×2列联表:如果随机事件X与Y的样本数据如下表格形式
Y=0 Y=1 合计
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d a+b+c+d
在这个表格中,核心的数据是中间的4个格子,所以这样的表格通常称为2×2列联表.
练一练:
下面是一个2×2列联表:
X Y 合计
Y=0 Y=1
X=0 a 21 73
X=1 8 25 33
合计 b 46
则表中a,b处的值分别为( C )
A.94,96 B.52,50
C.52,60 D.54,52
[解析] 因为a+21=73,所以a=52,b=a+8=52+8=60.
知识点 2 独立性检验
(1)零假设:设X和Y为定义在Ω上,取值于{0,1}的成对分类变量.由于{X=0}和{X=1},{Y=0}和{Y=1}都是互为对立事件,故要判断事件{X=1}和{Y=1}之间是否有关联,需要判断假定关系_H0:P(Y=1|X=0)=P(Y=1|X=1)__是否成立.通常称H0为零假设.
(2)独立性检验:利用随机变量χ2来判断“两个分类变量有关系”的方法称为独立性检验.
(3)公式:χ2= ,其中n=a+b+c+d为样本容量.
(4)对照表及检验规则:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
当χ2≥xα时就推断“X与Y不独立”,这种推断犯错误的概率不超过α;当χ2<xα时,可以认为“X与Y独立”.
练一练:
根据表格计算:
性别 不看电视 看电视
男 37 85
女 35 143
χ2≈_4.514__(保留3位小数).
[解析] χ2=≈4.514.
题|型|探|究
题型一 列联表与等高堆积条形图
典例1 某学校对高三学生做了一项调查,发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张.性格外向的学生594人中有213人在考前心情紧张,作出等高堆积条形图,利用图形判断考前心情紧张与性格类别是否有关系.
[解析] 作列联表如下:
性格内向 性格外向 合计
考前心情紧张 332 213 545
考前心情不紧张 94 381 475
合计 426 594 1 020
相应的等高条形图如图所示:
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的人数所占的比例,从图中可以看出考前心情紧张的样本中性格内向的人数占的比例比考前心情不紧张样本中性格内向的人数占的比例高,可以认为考前紧张与性格类型有关.
[规律方法] 1.利用2×2列联表分析两变量间关系的步骤
(1)根据题中数据获得2×2列联表;
(2)根据频率特征,即将与
的值相比,直观地反映出两个分类变量间是否相互影响.
2.利用等高条形图判断两个分类变量是否相关的步骤
微提醒:等高堆积条形图的缺点是不能给出推断“两个分类变量有关系”犯错误的概率.
对点训练 为了解铅中毒病人是否有尿棕色素增加现象,分别对病人组和对照组的尿液做尿棕色素定性检查,结果如下表.问:铅中毒病人组和对照组的尿棕色素阳性数有无差别?
尿棕色素 合计
阳性数 阴性数
铅中毒病人组 29 7 36
铅中毒对照组 9 28 37
合计 38 35 73
[解析] 由上述列联表可知,在铅中毒病人组中尿棕色素为阳性的约占80.56%,而铅中毒对照组仅约占24.32%.说明它们之间有较大差别.
画出等高堆积条形图如图所示.
由列联表及等高堆积条形图可知,铅中毒病人组与对照组相比较,尿棕色素为阳性数差别明显,因此铅中毒病人组和对照组的尿棕色素阳性数有明显差别.
题型二 独立性检验
典例2 某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
满意 不满意
男顾客 40 10
女顾客 30 20
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?
附:χ2=,
P(χ2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
[分析] (1)根据列联表,用频率代替概率,可分别估计男、女顾客对该商场服务满意的概率;(2)求出χ2的值,与临界值表对比可得结论.
[解析] (1)由调查数据知,男顾客对该商场服务满意的概率的估计值为0.8;女顾客对该商场服务满意的概率的估计值为=0.6.
(2)χ2=≈4.762.
由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.
[规律方法] 解决独立性检验问题的基本步骤
对点训练 2024年春季,某出租汽车公司决定更换一批小汽车以代替原来报废的出租车,现有A,B两款车型的使用寿命(单位:年)频数表如下:
使用寿命/年 5 6 7 8 总计
A型出租车/辆 10 20 45 25 100
B型出租车/辆 15 35 40 10 100
(1)填写下表,并判断是否有99%的把握认为出租车的使用寿命与汽车车型有关;
使用寿命不高于6年 使用寿命不低于7年 总计
A型
B型
总计
(2)司机师傅小李准备在一辆开了4年的A型车和一辆开了4年的B型车中选择,为了尽最大可能实现3年内(含3年)不换车,试通过计算说明,他应如何选择?
[解析] (1)根据题目所给数据得到如下2×2的列联表:
使用寿命不高于6年 使用寿命不低于7年 总计
A型 30 70 100
B型 50 50 100
总计 80 120 200
所以χ2=≈8.333.
查表可得P(χ2≥6.635)=0.01,
由于8.333>6.635,
所以有99%的把握认为出租车的使用寿命与汽车车型有关.
(2)记事件A为“小李选择A型车,3年内(含3年)不换车”,事件B为“小李选择B型车,3年内(含3年)不换车”,所以P(A)==0.25,P(B)==0.1,因为P(A)>P(B),所以小李应选择A型车.
题型三 独立性检验的综合应用
典例3 某校鼓励即将毕业的大学生到西部偏远地区去支教,校学生就业部针对即将毕业的男、女生是否愿意到西部支教进行问卷调查,得到的情况如下表所示:
性别 支教 合计
愿意去支教 不愿意去支教
女生 20
男生 40
合计 70 100
(1)完成上述2×2列联表;
(2)根据表中的数据,试根据小概率值α=0.05的独立性检验,分析愿意去西部支教是否与性别有关?
(3)若在接受调查的所有男生中按照“是否愿意去支教”进行分层抽样,随机抽取10人,再在10人中抽取3人进行面谈,记面谈的男生中,不愿意去支教的人数为ξ,求ξ的分布列以及数学期望.
[分析] (2)根据列联表求出χ2和相应的频率,从而分析是否与性别有关;(3)由超几何分布公式求出相应的分布列,计算出数学期望.
[解析] (1)2×2列联表如下:
性别 支教 合计
愿意去支教 不愿意去支教
女生 30 20 50
男生 40 10 50
合计 70 30 100
(2)零假设H0:支教与性别相互独立,即是否愿意去西部支教与性别无关.根据2×2列联表中的数据,可得χ2=≈4.762>3.841=x0.05,
根据小概率值α=0.05的独立性检验,我们推断H0不成立,
即认为是否愿意去西部支教与性别有关联,此推断犯错误的概率不大于0.05.
根据2×2列联表中的数据计算,
女生愿意去支教与不愿意去支教的频率分别为=0.6,=0.4;
男生愿意去支教与不愿意去支教的频率分别为=0.8,=0.2.
由=2可见,女生不愿意去支教的频率是男生不愿意去支教的频率的2倍.
于是,根据频率稳定于概率的原理,我们可以认为女生不愿意去支教的概率明显大于男生不愿意去支教的概率,即是否愿意去西部支教明显与性别有关.
(3)由题意,抽取的10人中有8人愿意去西部支教,2人不愿意去西部支教,于是ξ=0,1,2,
∴P(ξ=0)==,P(ξ=1)==,
P(ξ=2)==,
∴ξ的分布列为
ξ 0 1 2
P
∴E(ξ)=0×+1×+2×=.
[规律方法] 解决一般的独立性检验问题的步骤:
对点训练 某地为了调查市民对“一带一路”倡议的了解程度,随机选取了100名年龄在20岁至60岁的市民进行问卷调查,并通过问卷的分数把市民划分为了解“一带一路”倡议与不了解“一带一路”倡议两类,数据如表所示.
年龄/岁 [20,30) [30,40) [40,50) [50,60]
调查人数 30 30 25 15
了解“一带一路”倡议人数 12 28 15 5
(1)完成下面的2×2列联表,并判断是否有90%的把握认为以40岁为分界点对“一带一路”倡议的了解有差异;(结果精确到0.001)
年龄低于40岁的人数 年龄不低于40岁的人数 合计
了解
不了解
合计
(2)以频率估计概率,若在该地选出4名市民(年龄在20岁至60岁),记4名市民中了解“一带一路”倡议的人数为X,求随机变量X的分布列、数学期望和方差.附:
α 0.15 0.10 0.05 0.025 0.010
xα 2.072 2.706 3.841 5.024 6.635
χ2=,其中n=a+b+c+d.
[分析] (1)由表格读取信息,年龄低于40岁的共60人,年龄不低于40岁的共40人,填写2×2列联表,再把数据代入χ2公式计算;
(2)在总体未知的市民中选取4人,由频率估计概率得出选出的每位市民是了解“一带一路”倡议的概率,可知随机变量X服从二项分布.
[解析] (1)根据已知数据得到2×2列联表:
年龄低于40岁的人数 年龄不低于40岁的人数 合计
了解 40 20 60
不了解 20 20 40
合计 60 40 100
χ2=≈2.778>2.706,
故有90%的把握认为以40岁为分界点对“一带一路”倡议的了解有差异.
(2)由(1)知市民了解“一带一路”倡议的概率为=,X~B.
X的所有可能取值为0,1,2,3,4,则
P(X=0)=C4=,
P(X=1)=C××3=,
P(X=2)=C2×2=,
P(X=3)=C3×=,
P(X=4)=C4=,则X的分布列为
X 0 1 2 3 4
P
E(X)=4×=,D(X)=4××=.
1.判断两个分类变量是彼此相关还是相互独立的常用的方法中,最为精确的是( B )
A.残差 B.独立性检验
C.等高堆积条形图 D.回归分析
[解析] 用独立性检验考查两个分类变量是否有关系时,算出随机变量χ2的值越大,说明“X与Y有关系”成立的可能性越大.
2.下列关于独立性检验的叙述:
①常用等高堆积条形图表示列联表数据的频率特征;
②独立性检验依据的是小概率原理;
③独立性检验的结果是完全正确的;
④对分类变量X与Y的随机变量χ2的观测值来说,χ2越小,X与Y有关系的把握程度就越大.
其中叙述正确的个数为( B )
A.1 B.2
C.3 D.4
[解析] 因为独立性检验常用等高堆积条形图表示列联表数据的频率特征,故①正确;独立性检验依据的是小概率原理,故②正确;独立性检验的结果不是完全正确的,故③不正确;对分类变量X与Y的随机变量χ2的观测值来说,χ2越大,X与Y有关系的把握程度才越大,故④不正确.所以正确的个数为2,故选B.
3.一个2×2列联表如下:
y1 y2 总计
x1 a 35 45
x2 7 b n
总计 m 73 s
则表中m,n的值分别是( B )
A.10,38 B.17,45
C.10,45 D.17,38
[解析] 由a+35=45,得a=10.由a+7=m,得m=17.由m+73=s,得s=90.由45+n=s,得n=45.
4.在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算χ2的值χ2≈27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是_有关__的(填“有关”或“无关”).
[解析] 由χ2≈27.63与临界值比较,在犯错误的概率不超过0.001的前提下,说明打鼾与患心脏病有关.章末知识梳理
知识点 1 变量的相关关系
1.散点图
为了直观地描述成对样本数据中两个变量间的关系,用横轴表示其中的一个变量,纵轴表示另一个变量,则每一对成对样本数据都可以用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
2.线性相关与非线性相关
(1)线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
(2)非线性相关
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关.
知识点 2 样本相关系数
1.样本相关系数
(1)计算公式:
r=
=
(2)取值范围:[-1,1].
2.样本相关系数的意义
样本相关系数r是一个描述成对样本数据的数字特征,r的符号反映了相关关系的正负性;|r|的大小反映了两个变量相关的程度,具体如下:
(1)r的正负
当r>0时,称成对数据正相关;当r<0时,称成对数据负相关.
(2)r的绝对值
当|r|越接近于1时,成对数据的线性相关程度越强;
|r|越接近于0,成对数据线性相关程度越弱.
3.判断相关关系的两种方法
(1)通过作散点图,观察由所给的数据描出的点是否在一条直线附近来判定,直观方便.
(2)利用相关系数.
知识点 3 一元线性回归模型参数的最小二乘估计
1.最小二乘估计
设满足一元线性回归模型的两个变量的n对样本数据为(x1,y1),(x2,y2),…,(xn,yn),当a,b的取值为
时,Q(随机误差的平方和)达到最小.我们将=x+称为y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计.
2.残差分析
对于响应变量y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等.残差分析的一般方法有以下两种:
(1)残差图
(2)R2的表达式及其意义
①计算公式R2=1-.
②对于已获取的样本数据,R2表达式中的(yi-)2为确定的数,因此R2越大,残差平方和(yi-i)2越小,即模型的拟合效果越好;R2越小,残差平方和越大,即模型的拟合效果越差.
知识点 4 分类变量与列联表
(1)分类变量
(2)2×2列联表
如下表所示,我们将给出成对分类变量数据的交叉分类频数的表格,称为2×2列联表.
y1 y2 合计
x1 a b a+b
x2 c d c+d
合计 a+c b+d a+b+c+d
(3)等高堆积条形图
与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.分别计算出中间四个数各自的频率,可以用等高堆积条形图直观展示上述计算结果.
注意:(1)在等高堆积条形图中,列联表的行对应的是高度,两行的数据不相等,但对应的条形图的高度是相同的;同一行中两列数据对应不同的颜色.
(2)等高堆积条形图中有两个高度相同的矩形,每一个矩形中都有两种颜色,如果两个高度相差比较明显,就判断两个分类变量之间有关联.
知识点 5 独立性检验的基本思想
1.独立性检验的定义
一般地,假设有两个分类变量X和Y,其样本频数
X Y 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
依据上述2×2列联表构造统计量
χ2=,利用随机变量χ2的取值推断分类变量是否独立的方法称为χ2独立性检验,简称独立性检验.
2.临界值表
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
3.应用独立性检验的主要环节
(1)提出零假设H0:分类变量X和Y相互独立,并给出在问题中的解释.
(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.
(3)根据检验规则得出推断结论.
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
要点一 回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,也是本章的重点、高考的热点,主要考查线性回归分析.题型既有选择、填空题,也有解答题.
典例1 连锁经营公司所属5个零售店某月的销售额利润资料如表:
商店名称 A B C D E
销售额x/千万元 3 5 6 7 9
利润额y/百万元 2 3 3 4 5
(1)画出销售额和利润额的散点图;
(2)若销售额和利润额具有相关关系,试计算利润额y对销售额x的经验回归直线方程;
(3)估计要达到1 000万元的利润额,销售额约为多少万元.
参考公式:==,=-
[分析] (1)根据表中所给的数据,在平面直角坐标系中画出散点图即可;(2)求出对应的数值,,以及n ,iyi,和n2,代入公式即可求出经验回归直线方程的系数与方程;(3)根据题意,令=10(注意单位),求出x的值即可.
[解析] (1)根据表中所给的5对数据,在平面直角坐标系中画出散点图,如图所示.
(2)∵==6,
==,
∴n =5×6×=102,
iyi=3×2+5×3+6×3+7×4+9×5=112,
=32+52+62+72+92=200,
n2=5×62=180,
===0.5,
=-=-0.5×6==0.4,
∴利润额y对销售额x的经验回归直线方程是=0.5x+0.4.
(3)根据题意,令=0.5x+0.4=10,
解得x=19.2(千万元),
故销售额约为19 200万元.
[规律方法] 1.建立经验回归模型的步骤
(1)确定研究对象,明确变量x,y.
(2)画出变量的散点图,观察它们之间的关系.
(3)确定经验回归方程的类型.
(4)按一定规则估计经验回归方程中的参数(如最小二乘法).
(5)得出经验回归方程.
2.分析两个变量线性相关的常用方法
(1)散点图法,该法主要是用来直观地分析两变量间是否存在相关关系.
(2)相关系数法,该法主要是从量上分析两个变量间相互联系的密切程度,|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小.
要点二 独立性检验的基本思想与方法
独立性检验的基本思想是:先作出零假设H0,即假设两个分类变量没有关系,再根据这个假设应用统计的方法进行分析,得到一个统计量χ2的值,再由统计学得到的各临界值,确定我们的假设是否成立,以及假设的不合理程度.
典例2 某校为了探索一种新的教学模式, 进行了一项课题实验,乙班为实验班,甲班为对比班,甲、乙两班均有50人,一年后对两班进行测试,成绩如下表(总分:150分).
甲班
成绩 [80,90) [90,100) [100,110) [110,120) [120,130]
频数 4 20 15 10 1
乙班
成绩 [80,90) [90,100) [100,110) [110,120) [120,130]
频数 1 11 23 13 2
(1)现从甲班成绩位于[90,120)内的试卷中抽取9份进行试卷分析,请问用什么抽样方法更合理,并写出最后的抽样结果;
(2)根据所给数据可估计在这次测试中,甲班的平均分是101.8,请你估计乙班的平均分,并计算两班平均分相差几分;
(3)完成下面2×2列联表,依据小概率值α=0.05的独立性检验,分析这两个班在这次测试中成绩的差异与实施课题实验是否有关,并说明理由.
成绩小于100分 成绩不小于 100分 总计
甲班26 50
乙班 12 50
总计 36 64 100
[分析] →→
(2)→→
(3)
[解析] (1)用分层抽样的方法更合理.甲班成绩位于[90,120)内的试卷共有20+15+10=45(份),从中抽取9份,抽样比为=,故在[90,100),[100,110),[110,120)各分数段内抽取试卷20×=4(份),15×=3(份),10×=2(份).
(2)估计乙班的平均分为乙=85×+95×+105×+115×+125×=105.8,105.8-101.8=4,即两班的平均分相差4分.
(3)补全列联表如下:
成绩小于100分 成绩不小于100分 总计
甲班 24 26 50
乙班 12 38 50
总计 36 64 100
零假设H0:两个班的成绩差异与实施课题实验无关.
由列联表中的数据,得χ2的观测值为
χ2==6.25>3.841=x0.05,根据小概率值α=0.05的独立检验,我们推断H0不成立,即认为这两个班在这次测试中成绩的差异与实施课题有关,此推断犯错误率不超过0.05.
[规律方法] 使用2×2列联表进行独立性检验:
(1)根据数据绘制2×2列联表,并检验数据是否符合要求.
(2)由公式χ2=,计算 出χ2的值.
(3)将χ2的数值与临界值进行对比.
(4)作出统计判断.
要点三 概率、统计与独立性检验的综合问题
概率、统计与独立性检验的综合问题在高考中常常出现,一般为解答题,难度中等.有时古典概型与独立性检验综合,有时样本的分布与独立性检验综合,更有三者融合在一起的综合性较强的题目出现.
典例3 某电视传媒公司为了解某地区电视观众对某体育节目的收视情况,随机抽取了100名观众进行调查.根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图如图所示:
将日均收看该体育节目的时间不低于40分钟的观众称为“体育迷”.
(1)根据已知条件完成下面的2×2列联表,试根据小概率值α=0.05的独立性检验,分析“体育迷”是否与性别有关;
性别 电视观众 合计
非体育迷 体育迷
男
女 10 55
合计
(2)将上述调查所得到的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X.若每次抽取的结果是相互独立的,求X的分布列,期望E(X)和方差D(X).
附χ2=
P(χ2≥k) 0.05 0.01
k 3.841 6.635
[解析] (1)由频率分布直方图可知,在抽取的100名观众中,“体育迷”有25名,从而2×2列联表如下:
性别 电视观众 合计
非体育迷 体育迷
男 30 15 45
女 45 10 55
合计 75 25 100
零假设H0:“体育迷”与性别无关.
将2×2列联表中的数据代入公式计算,得
χ2=≈3.030<3.841=x0.05.
根据小概率值α=0.05的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为“体育迷”与性别无关.
(2)由频率分布直方图知抽到“体育迷”的频率为0.25,将频率视为概率,即从观众中抽取一名“体育迷”的概率为.由题意知X~B,从而X的分布列为
X 0 1 2 3
P
E(X)=np=3×=,
D(X)=np(1-p)=3××=.
[规律方法] 使用2×2列联表进行独立性检验的步骤:
(1)根据数据绘制2×2列联表,并检验数据是否符合要求.
(2)由公式χ2=,计算出χ2的值.
(3)将χ2的数值与临界值进行对比.
(4)作出统计判断.