(共29张PPT)
第八章 成对数据的统计分析
8.1 成对数据的统计相关性
第八章
新课程标准 素养风向标
1.了解变量的相关关系及散点图. 2.会求变量的相关系数. 1.了解变量的相关关系.(数学抽象)
2.能利用散点图判定变量的相关性.(直观想象)
3.能根据给定的条件求样本的相关系数.(数学运算)
基础预习初探
主题1 变量的相关关系
在科学实验、社会生产和经营活动中,经常要对变量之间的关系进行分析.考察居民家庭储蓄与居民家庭收入这两个变量的关系,回答下列问题:
1.居民家庭储蓄与居民家庭收入之间存在完全确定的关系吗
提示:它们之间不存在完全确定的关系.收入水平相同的家庭,他们的储蓄额不尽相同;储蓄额相同的家庭,他们的收入水平也可能不同.
2.家庭储蓄除了受到家庭收入的影响,还受到哪些因素的影响
提示:如银行利率、消费水平等,也可能影响家庭储蓄.
3.通过对大量数据的观测与研究,人们发现许多变量之间确实存在着一定的客观规律.你能举出一些例子吗
提示:例如,在企业生产中,为控制成本,要对影响生产成本的各种因素进行分析;
在农业生产中,为确定施肥量,需要研究农作物产量与施肥量之间的关系;在商业活动中,为了解广告费支出对销售量的影响,需要分析广告费支出与销售量之间的关系等.
结论:
1.相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
2.散点图:每个编号下的成对样本数据都可以用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
3.正相关:当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,则称这两个变量正相关.
4.负相关:当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
5.线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,称这两个变量线性相关.
【对点练】
1.下列两个变量具有相关关系的是 ( )
A.角度和它的余弦值
B.圆的半径和该圆的面积
C.正n边形的边数和它的内角和
D.居民的收入与存款
【解析】选D.A,B,C中两变量是确定的函数关系.
2. 在下列各图中,相关关系最强的是 ( )
【解析】选A.对于A,图中各点呈带状分布,这组变量具有较强的线性相关关系;对于B,C,D,样本点呈片状分布,两个变量的线性相关关系相对较弱,或不具有相关关系.
主题2 样本相关系数
r的正负及大小如何反映两个变量的线性相关程度
提示:r为正数时,表明两个变量为正相关;
r为负数时,表明两个变量为负相关;
|r|越接近于1,成对样本数据的线性相关程度越强;
|r|越接近于0,成对样本数据的线性相关程度越弱.
结论:
对于变量x和变量y,设经过随机抽样获得的成对样本数据为(x1,y1),(x2,y2),…,(xn,yn),其中x1,x2,…,xn和y1,y2,…,yn的均值分别为和,
则r=称为变量x和变量y的样本相关系数.
【对点练】
对两个变量的四组数据进行统计,获得以下散点
图,关于两个变量相关系数的比较,正确的是 ( )
A.r2B.r4C.r4D.r2【解析】选A.由样本相关系数的定义以及散点图的含义,可知r2【跟踪训练】
已知变量x,y相对应的一组数据为(10,1.5),(11,3.2),(11,8.3),(12.5,14),(13,5),变量x',y'相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),用r1表示变量x与y之间的线性相关系数,用r2表示变量x'与y'之间的线性相关系数,则有 ( )
A.r2C.r2<0【解析】选C.==11.5,==6.4,
(xi-)(yi-)=13.5,=,=,
所以r1=≈0.56.'==11.72,
'==3,(xi'-')(yi'-')=-7.2,
所以r2<0,r2<0核心互动探究
探究点一 变量间相关关系的判断
【典例1】(1)下列说法错误的是 ( )
A.正方体的体积与棱长之间的关系是函数关系
B.人的身高与视力之间的关系是相关关系
C.汽车的质量和汽车每消耗1升汽油所行驶的平均路程是负相关关系
D.数学成绩与语文成绩之间没有相关关系
【思维导引】根据相关关系及函数关系的定义判断;
【解析】选B. 正方体的体积与棱长之间的关系是函数关系,故A正确,不符合题意;人的身高与视力之间不具有相关关系,故B错误,符合题意;汽车的质量和汽车每消耗1升汽油所行驶的平均路程是负相关关系,故C正确,不符合题意;数学成绩与语文成绩之间不具有相关关系,故D正确,不符合题意.
(2)某个男孩的年龄与身高的统计数据如表所示.
年龄x/岁 1 2 3 4 5 6
身高y/cm 78 87 98 108 115 120
①画出散点图;
②判断y与x是否具有线性相关关系.
【思维导引】在坐标系内描出各点,根据点的分布判断是否具有相关关系.
【解析】①散点图如图所示.
②由图知,所有数据点大致分布在一条直线附近,因此,认为y与x具有线性相关关系.
【类题通法】
1.两个变量x和y具有相关关系的判断方法:
①散点图法:通过散点图,观察它们的分布是否存在一定规律,直观地判断;
②表格、关系式法:结合表格或关系式进行判断;
③经验法:借助积累的经验进行分析判断.
2.判断两个变量x和y之间是否具有线性相关关系,常用的简便方法就是绘制散点图,如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.
提醒:如果所有的样本点都落在某一函数曲线附近,那么变量之间就具有相关关系.
【定向训练】
1.下列关系中,属于相关关系的是 (填序号).
①正方形的边长与面积之间的关系;
②一个人的身高和右手的拃长之间的关系;
③出租车费与行驶的里程;
④降雪量与交通事故的发生率之间的关系.
【解析】①中,正方形的边长与面积之间的关系是函数关系;②中,一个人的身高和右手的拃长之间不具有严格的函数关系,但具有相关关系;③为确定的函数关系;④中,降雪量与交通事故的发生率之间具有相关关系.
答案:②④
2.判断下列两个变量之间是否具有相关关系:
(1)月平均气温与家庭月用电量;
(2)一天中的最高气温与最低气温;
(3)某企业生产的一种商品的销量与其广告费用;
(4)谷物的价格与牛肉的价格;
(5)在公式LW=12中的L与W.
【解析】(1)月平均气温的高低不受家庭月用电量的影响,两个变量之间不具有相关关系;
(2)一天中的最高气温不受最低气温的影响,两个变量之间不具有相关关系;
(3)企业生产的一种商品的销量除了受其广告费用的影响外,还受其他因素的影响,比如商品的质量等,因此这两个变量之间具有相关关系;
(4)谷物的价格不受牛肉的价格影响,两个变量之间不具有相关关系;
(5)在公式LW=12中,给定L一个值,W有唯一确定的值与之对应,是函数关系,不具有相关关系.
【跟踪训练】
下列散点图中,变量x,y不具有相关关系的是( )
【解析】选D.由变量相关关系定义,如果散点大部分分布在一条曲线附近,就说两变量具有相关关系,选项D的散点没有这一特征,故不具有相关关系.
探究点二 样本相关系数的求解
【典例2】某化工厂为预测产品的回收率y,需要研究它和原料有效成分含量x之间的相关关系,现收集了4组对照数据.
x 3 4 5 6
y 2.5 3 4 4.5
请根据相关系数r的大小,判断回收率y与x之间是否存在高度线性相关关系.
参考数据:r=
【思维导引】根据公式计算出r的值,判定出相关关系.
【解析】根据样本相关系数的定义,
r==, ①
又=4.5,=3.5,xiyi=66.5,=86,=51.5,
代入①式得,r==≈0.99,
所以y与x之间存在高度线性相关关系.
【类题通法】利用相关系数判断变量间相关关系的方法
首先根据样本相关系数的计算公式计算r的值,然后根据|r|的大小判断两变量的相关关系.
当|r|越接近于1时,成对数据的线性相关程度越强;
当|r|越接近于0时,成对数据的线性相关程度越弱.
【定向训练】
已知某产品产量与产品单位成本之间的线性相关系数为-0.97,这说明二者之间的线性相关程度 (填“较高”或“较低”).
【解析】由|-0.97|比较接近1知,二者之间的线性相关程度较高.
答案:较高
课堂素养达标
1.观察下列四个散点图,两变量具有线性相关关系的是 ( )
【解析】选A.直接根据相关关系的定义判断,显然只有A正确.
2.相关系数是度量 ( )
A.两个变量之间线性相关关系的强度
B.散点图是否显示有意义的模型
C.两个变量之间是否存在因果关系
D.两个变量之间是否存在关系
【解析】选A.相关系数是度量两个变量相关性关系强弱的一个量,当r的绝对值越接近于1,相关性越强;反之,相关性越弱.
3.已知数据点(xi,yi)(i=1,2,3,…,n)在一条直线上,则相关系数r= .
【解析】由题易知,相关系数r=±1.
答案:±1(共50张PPT)
8.2 一元线性回归模型及其应用
第八章
新课程标准 素养风向标
了解一元线性回归模型及其简单应用. 1.了解一元线性回归模型.(数学抽象)
2.能利用最小二乘估计求出线性回归直线方程,并能利用回归直线方程解决有关问题.(数学运算)
3.了解非线性回归模型转化为线性回归模型的方法.(数学建模)
基础预习初探
主题1 一元线性回归模型
某商场近5个月的销售额和利润额如表所示:
销售额x/千万元 3 5 6 7 9
利润额Y/百万元 1 3 3 4 5
(1)两变量x与Y是否具有函数关系
提示:销售额x与利润额Y之间不是函数关系.
(2)两变量x与Y是否具有相关关系
提示:作出散点图如图所示:
由图可知两个变量具有线性相关关系.
结论:一元线性回归模型
为Y关于x的一元线性回归模型.其中Y称为因变量或响应变量;x称为自变量或解释变量;a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
【对点练】
1.在线性回归模型Y=bx+a+e中,下列说法正确的是 ( )
A.Y=bx+a+e是一次函数
B.因变量Y是由自变量x唯一确定的
C.因变量Y除了受自变量x的影响外,可能还受到其他因素的影响,这些因素会导致随机误差e的产生
D.随机误差e是由于计算不准确造成的,可通过精确计算避免随机误差e的产生
【解析】选C.线性回归模型Y=bx+a+e中,方程表示的不是确定性关系,因此不是一次函数,A错误.选项B中,因变量Y不是由自变量x唯一确定的,B错.选项D中,随机误差是不能避免的,只能将误差缩小,但是不能没有误差,因此D错.
2.具有线性相关的两个随机变量x,Y可用线性回归模型Y=bx+a+e表示,通常e是随机变量,称为随机误差,它的均值E(e)= .
【解析】由题意e为随机变量,e称为随机误差.根据随机误差的意义,可得E(e)=0.
答案:0
主题2 经验回归方程的求解
如何对具有线性相关关系的两个变量进行分析
提示:对具有线性相关关系的变量,利用回归分析的方法进行研究.其步骤为画散点图,求经验回归直线方程,并利用经验回归方程对模型刻画数据的效果进行分析,借助残差分析对模型进行改进,使我们能够根据改进模型作出符合实际的预测和决策.
核心互动探究
探究点一 求经验回归方程
【典例1】一台还可以用的机器由于使用的时间较长,它按不同的转速生产出来的某机械零件有一些会有缺陷,每小时生产有缺陷零件的多少随机器运转的速度而变化,如表为抽样试验结果:
转速x/(转/秒) 16 14 12 8
每小时生产有缺陷的零件数Y/件 11 9 8 5
(1)画出散点图;
(2)如果Y与x有线性相关的关系,求经验回归方程.
【延伸探究】
本题条件不变,求:若实际生产中,允许每小时生产的产品中有缺陷的零件最多为10个,那么机器的运转速度应控制在什么范围内
【解析】要使Y≤10,
则0.728 6x-0.857 5≤10,x≤14.901 9.
故机器的转速应控制在14.9转/秒以下.
【类题通法】求回归直线方程的步骤
(1)画散点图:由样本点是否呈条状分布来判断两个量是否具有线性相关关系.
(2)求回归系数:若存在线性相关关系,则求回归系数.
(3)写方程:写出回归直线方程,并利用回归直线方程进行预测.
【定向训练】
击鼓传花,也称传彩球,是中国民间游戏.某单位组织团建活动,9人一组,共10组,玩击鼓传花,前5组组号x与组内女性人数Y统计结果如表:
x 1 2 3 4 5
Y 2 2 3 3 4
(1)女性人数Y与组号x具有线性相关关系,求Y关于x的经验回归方程;
(2)预测从第几组开始女性人数不低于男性人数.
参考数据:xiyi=47,=55.
使用年限x 2 3 4 5 6
维修费用Y 2.2 3.8 5.5 6.5 7.0
【思维导引】(1)利用回归系数计算公式求解;
(2)先求残差,再求平方和;
(3)代入公式求解;
(4)将x=10代入经验回归方程求 的值.
【类题通法】建立线性回归模型的基本步骤
(1)确定研究对象,明确解释变量和响应变量;
(2)画出解释变量和响应变量的散点图,观察它们之间的关系(如是否存在线性关系等);
(3)由经验确定回归方程的类型;
(4)按一定的规则估计回归方程的参数;
(5)对所建立的模型进行残差分析,判断拟合效果.
【定向训练】
1.已知一系列样本点(xi,yi)(i=1,2,3,…,n)的经验回归方程为 =2x+a,若样本点(r,1)
与(1,s)的残差相同,则有 ( )
A.r=s B.s=2r
C.s=-2r+3 D.s=2r+1
【解析】选C.样本点(r,1)的残差为1-2r-a,样本点(1,s)的残差为s-a-2,依题意得1-2r-
a=s-a-2,故s=-2r+3.
【解析】(1)由折线图中的数据得,
=4,(ti-)2=28,(yi-)2=18,
所以r=≈0.94.
因为Y与t的相关系数近似为0.94,说明Y与t的线性相关程度相当大,所以可以用线性回归模型拟合Y与t的关系.
【跟踪训练】
某山区为研究居民家庭月人均生活费支出和月人均收入的相关关系,随机抽取10户进行调查,其结果如表:
试预测月人均收入为1 100元和月人均收入为1 200元的两个家庭的月人均生活费,并进行残差分析.
编号 月人均收入x/元 月人均生活费Y/元
1 300 255
2 390 324
3 420 335
4 520 360
5 570 450
6 700 520
7 760 580
8 800 600
9 850 630
10 1 080 750
探究点三 非线性回归模型的问题
【典例3】某公司为了确定下一年度投入某种产品的宣传费用,需了解年宣传费x(单位:万元)对年销售量Y(单位:吨)和年利润(单位:万元)的影响.对近6年宣传费xi和年销售量yi(i=1,2,3,4,5,6)的数据作了初步统计,得到如表数据:
年份 2016 2017 2018 2019 2020 2021
年宣传费x/万元 38 48 58 68 78 88
年销售量Y/吨 16.8 18.8 20.7 22.4 24.0 25.5
经电脑模拟,发现年宣传费x(万元)与年销售量Y(吨)之间近似满足关系式y=a·xb(a>0,b>0),即ln y=bln x+ln a,对上述数据作了初步处理,得到相关的值如表:
75.3 24.6 18.3 101.4
(1)从表中所给出的6年年销售量数据中任选两年作年销售量的调研,求所选数据中至多有一年年销售量低于20吨的概率.
(2)根据所给数据,求Y关于x的经验回归方程.
【思维导引】(1)利用组合知识,根据古典概型概率公式可得结果;
(2)令ui=lnxi,vi=lnyi得v=ln a+bu,根据所给的数据,求出变量u,v的平均数,求出最小二乘法所需要的数据,可得回归直线方程的系数b,再根据样本中心点一定在回归直线方程上,求出a的值,写出回归方程;
(3)设该公司的年利润为f,由利润=销售收入-总成本,求得f的解析式,由二次函数的性质求得x=100时,取最大值,从而可得结果.
【解析】(1)记事件A表示“至多有一年年销售量低于20吨”,由表中数据可知6年中有两年的年销售量低于20吨,
故P==.
(2)令ui=ln xi,vi=ln yi得v=ln a+bu,
由题中数据得:==4.1,==3.05,
=(ln xi·ln yi)=75.3,==101.4,
【类题通法】非线性回归的模型
(1)当两个变量已明显呈线性相关关系时,则无需作散点图,就可直接求回归直线方程,否则要先判定相关性再求回归方程.
(2)非线性回归方程的求法.
①根据原始数据(x,y)画出散点图;
②根据散点图,选择恰当的拟合函数;
③作恰当变换,将其转化成线性函数;
④求线性回归方程;
⑤在④的基础上通过相应的变换,即可得非线性回归方程.
【变式训练】
1.某生物兴趣小组为研究一种红铃虫的产卵数y与温度x(单位:℃)的关系.现收集了7组观测数据(xi,yi)(i=1,2,…,7)得到散点图:
由此散点图,在20℃至36℃之间,下面四个回
归方程类型中最适宜作为红铃虫产卵数y和
温度x的回归方程类型的是 ( )
A.y=a+bx B.y=a+
C.y=a+bex D.y=a+bln x
【解析】选C.由题中散点图可以看出红铃虫产卵数y随着温度x的增长增速越来越快,所以y=a+bex最适宜作为红铃虫产卵数y和温度x的回归方程类型.
2.爱心蔬菜超市为确定某种蔬菜的日进货量,需了解日销量Y(单位:kg)随上市天数x的变化规律.工作人员记录了该蔬菜上市10天来的日销量yi与上市天数xi(i=1,2,…,10)的对应数据,并对数据做了初步处理,得到如图的散点图及一些统计量的值:
表中ti=ln xi(i=1,2,…,10).
55 155.5 15.1 82.5 4.84 94.9 24.2
课堂素养达标
1.两个变量的散点图如图,Y关于x的经验回归方程可能是( )
A.y=1.22+1.32ln x B.y=2.31ex+0.25
C.y=-1.23x+1.21 D.y=1.25x-0.42
【解析】选D.因为散点图由左下方向右上方呈带状分布,所以回归方程是线性,且经验回归方程斜率为正数,排除A,B,C.由于散点图的带状区域经过y轴的负半轴,故经验回归方程的截距为负数,故D是可能的.(共35张PPT)
8.3 列联表与独立性检验
第八章
新课程标准 素养风向标
通过典例的探究了解独立性检验的基本思想、方法及初步应用,了解独立性检验的常用方法. 1.了解独立性检验的基本思想、方法及简单应用.(数学抽象)
2.理解判断两个随机事件是否有关系的常用方法,独立性检验中χ2的含义及实施步骤.(数学运算)
3.经历由实际问题建立数学模型的过程,体会其基本方法.(数学建模)
基础预习初探
主题1 分类变量与列联表
某班主任对全班50名学生进行了作业量的调查,了解男生、女生对作业量大小的看法是否存在差异,得到的数据如下:
性别 作业量 合计
认为作业量大(Y=1) 认为作业量小(Y=0) 男生(X=1) 18 9 27
女生(X=0) 8 15 23
合计 26 24 50
则认为作业量的大小与性别有关吗
提示:P(Y=1|X=1)===≈0.667,P(Y=1|X=0)==≈0.348,所以认为作业量的大小与性别有很大的关系,男生更认为作业量大.
结论:
1.分类变量:使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.
2.2×2列联表:
分类变量X,Y的抽样数据列联表
X Y 合计
Y=0 Y=1 X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
【对点练】
下面是一个2×2列联表:
其中a,b处填的值分别为 .
X Y 合计
Y=0 Y=1 X=0 35 a 70
X=1 15 15 30
合计 50 b 100
【解析】由a+35=70,得a=35,a+15=b,
得b=50.
答案:35,50
主题2 独立性检验
依据小概率值α=0.01的χ2独立性检验,分析主题1中的抽样数据,能否据此推断认为作业量的大小与性别有关
提示:零假设为:
H0:分类变量X与Y相互独立,即作业量的大小与性别无关.
根据表中的数据,计算得到:
χ2=≈5.059<6.635=x0.01,根据小概率值α=0.01的χ2独立性检验,没有充分证据推断出H0不成立,因此可以认为H0成立,即认为作业量大小与性别没有联系.
结论:
(1)公式:χ2=.
(2)独立性检验:利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验.
读作:“卡方独立性检验”,简称独立性检验.
【对点练】
独立性检验,适用于检查 变量之间的关系 ( )
A.线性 B.非线性
C.解释与预报 D.分类
【解析】选D.根据实际问题中的情况,独立性检验,适用于检查分类变量之间的关系,而不是线性变量、非线性变量和解释与预报变量之间的关系,故正确.
【跟踪训练】
某研究性学习小组调查研究学生使
用智能手机对学习的影响,部分统计数据如
表:
根据小概率值α的独立性检验在犯错误的概
率不超过 的前提下,认为使用智能
手机对学习有影响.
成绩 智能手机 合计
使用智能 手机 不使用智 能手机 成绩优秀 4 8 12
成绩不优秀 16 2 18
合计 20 10 30
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
【解析】依题意χ2==10>7.879=x0.005.
答案:0.005
核心互动探究
探究点一 列联表与χ2的计算
【典例1】(1)假设2个分类变量X和Y的2×2列联表如下:
X Y 合计
y1 y2 x1 a 10 a+10
x2 c 30 c+30
合计 a+c 40 100
对于同一样本,以下数据能说明X和Y有关系的可能性最大的一组是 ( )
A.a=40,c=20 B.a=45,c=15 C.a=35,c=25 D.a=30,c=30
(2)考察某班学生数学、外语成绩得到2×2列联表如下:
类 别 数学优 数学差 合 计
外语优 34 17 51
外语差 15 19 34
合 计 49 36 85
那么,χ2等于 ( )
A.10.3 B.8 C.4.25 D.9.3
【思维导引】(1)根据题意b,d一定时,a,c相差越大,与相差就越大,χ2的值就越大,由此能说明X和Y有关系的可能性越大.
(2)根据公式计算即可.注意分子括号中先提公因数再作减法,先算除法再算乘法,可有效减少运算量.
【解析】(1)选B.χ2==n,
根据2×2列联表和独立性检验的相关知识得,当b,d一定时,a,c相差越大,与相差就越大,χ2就越大,即X和Y有关系的可能性越大,选项B中a-c=30与其他选项相比相差最大.
(2)选C.χ2====
=≈4.25.
【类题通法】独立性检验的两个关注点
(1)独立性检验的关键是正确列出2×2列联表,并计算出χ2的值.
(2)弄清判断两变量有关的把握性与犯错误概率的关系,根据题目要求进行正确回答.
【定向训练】
1.下列是关于出生男婴与女婴(与时间的关系)调查的列联表,那么A= ,B= ,C= ,D= ,E= .
性别 时间 合计
白天 晚上 男婴 45 A B
女婴 E 35 C
合计 98 D 180
【解析】由题意,45+E=98,A+35=D,45+A=B,E+35=C,B+C=180,
所以A=47,B=92,C=88,D=82,E=53.
答案:47 92 88 82 53
2.某学生对其亲属30人的饮食习惯进行了一次调查,得到2×2列联表:
年龄 食品类型 合计
主食蔬菜 主食肉类 50岁以下 4 8 12
50岁以上 16 2 18
合计 20 10 30
则χ2= .
附:χ2=.
【解析】由2×2列联表得a=4,b=8,c=16,d=2,n=30,代入公式得χ2==10.
答案:10
探究点二 判断是否有把握
【典例2】茶树根据其茶叶产量可分为优质茶树和非优质茶树,某茶叶种植研究小组选取了甲、乙两块试验田来检验某种茶树在不同的环境条件下的生长情况.研究人员将100株该种茶树幼苗在甲、乙两块试验田中进行种植,成熟后统计每株茶树的茶叶产量,将所得数据整理如表所示:
优质茶树 非优质茶树
甲试验田 a 25
乙试验田 10 b
已知甲试验田优质茶树的比例为50%.
(1)求表中a,b的值;
(2)试根据小概率值α=0.01的独立性检验,分析甲、乙两块试验田的环境差异对茶树的生长是否有影响.
附:χ2=,其中n=a+b+c+d.
α 0.1 0.05 0.01
xα 2.706 3.841 6.635
【思维导引】(1)根据=50%即可求出a,从而可得到b;
(2)根据独立性检验的基本思想求出χ2,与6.635比较,即可判断.
【解析】(1)甲试验田优质茶树的比例为50%,即=50%,解得a=25.
b=100-25-25-10=40.
(2)零假设为
H0:甲、乙两块试验田的环境差异对茶树的生长没有影响.
根据题中的数据,计算得
χ2==≈9.890,因为9.890>6.635,
故根据小概率值α=0.01的独立性检验,我们推断H0不成立,即甲、乙两块试验田的环境差异对茶树的生长有影响.
【类题通法】判断是否有把握题型的解题策略
(1)列出2×2列联表.
(2)利用公式,计算χ2.
(3)将χ2与小概率值α对应的临界值xα比较.
(4)作出判断:①若χ2≥xα,则根据小概率值α的独立性检验,认为两个分类变量有关,犯错误的概率不超过α.②若χ2【定向训练】
1.为了解学生的课外阅读时间情况,某学校随机抽取了50人进行统计分析,把这50人每天阅读的时间(单位:分钟)绘制成频数分布表,如下表所示:
阅读 时间 [0, 20) [20, 40) [40, 60) [60, 80) [80, 100) [100,
120]
人数 8 10 12 11 7 2
若把每天阅读时间在60分钟以上(含60分钟)的同学称
为“阅读达人”,根据统计结果中男女生阅读达人的数据,
制作出如图所示的等高条形图:
(1)根据已知条件完成2×2列联表:
阅读达人 性别 合计
男生 女生 阅读达人
非阅读达人
合计
(2)试根据小概率值α=0.01的独立性检验,分析“阅读达人”跟性别是否有关.
附:参考公式χ2=,其中n=a+b+c+d.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
【解析】(1)由频数分布表得,“阅读达人”的人数是11+7+2=20(人),
根据等高条形图填充2×2列联表如下:
阅读达人 性别 合计
男生 女生 阅读达人 6 14 20
非阅读达人 18 12 30
合计 24 26 50
(2)计算χ2==≈4.327,
由于4.327<6.635=x0.01,因此根据小概率值α=0.01的独立性检验,没有充分的证据推断“阅读达人”跟性别是有关的.
2.为了了解一个智力游戏是否与性别有关,从某地区抽取男女游戏玩家各200人,其中游戏水平分为高级和非高级两种.
根据题意完善下列2×2列联表,根据小概率值α=0.05的独立性检验,分析智力游戏水平的高低与性别是否有关.
附表:χ2=,其中n=a+b+c+d.
性别 级别 合计
高级 非高级 女 40
男 140
合计
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
【解析】
性别 级别 合计
高级 非高级 女 40 160 200
男 60 140 200
合计 100 300 400
零假设为H0:智力游戏水平的高低与性别无关,
χ2=≈5.333>3.841=x0.05,
根据小概率值α=0.05的独立性检验,我们推断H0不成立,即认为智力游戏水平的高低与性别有关,此推断犯错误的概率不大于0.05.
课堂素养达标
1.以下关于独立性检验的说法中,错误的是 ( )
A.独立性检验依据小概率原理
B.独立性检验得到的结论一定正确
C.样本不同,独立性检验的结论可能有差异
D.独立性检验不是判定两分类变量是否相关的唯一方法
【解析】选B.根据独立性检验的原理可知得到的结论是错误的情况是小概率事件,但并不一定是正确的.
2.给出以下变量:①吸烟,②性别,③宗教信仰,④国籍.其中属于分类变量的有 .(填序号)
【解析】①因为吸烟不是分类变量,是否吸烟才是分类变量,②③④符合分类变量的定义,属于分类变量.
答案:②③④
3.为研究某地区中学生的性别与阅读量的关系,运用2×2列联表进行独立性检验,经计算χ2=6.705,根据小概率值α的独立性检验,认为阅读量与性别有关系,此推断犯错误的概率不大于 .
附表:
α 0.1 0.05 0.01 0.001
xα 2.706 3.841 6.635 10.828
【解析】因为χ2=6.705>6.635,
所以根据小概率值α=0.01的独立性检验,认为“该地区中学生的性别与阅读量有关系”,此推断犯错误的概率不大于0.01.
答案:0.01
4.为考查某种疫苗预防疾病的效果,进行动物试验,得到统计数据如表:
现从所有试验动物中任取一只,取到“注射疫苗”
动物的概率为.
(1)求2×2列联表中的数据x,y,A,B的值;
(2)依据小概率值α=0.001的独立性检验,分析疫
苗是否会减轻发病的风险.
(参考公式χ2=,n=a+b+c+d)
疫苗 发病 合计
未发病 发病 未注射疫苗 20 x A
注射疫苗 30 y B
合计 50 50 100
α 0.05 0.01 0.005 0.001
xα 3.841 6.635 7.879 10.828
【解析】(1)设“从所有试验动物中任取一只,取到‘注射疫苗’动物”为事件E,由已知得P(E)==,所以y=10,B=40,x=40,A=60.
(2)零假设为Ho:疫苗不会减轻发病的风险, χ2==≈16.667>10.828=x0.001.
根据小概率值α=0.001的独立性检验,我们推断H0不成立,即认为疫苗会减轻发病的风险.(共11张PPT)
第三课 成对数据的统计分析
阶段复习课
网络体系构建
【答案速填】
①负相关
②
③
④-
⑤
⑥
易错案例警示
易错点1:忽视线性相关的分析致错
【案例1】在一次抽样调查中测得变量x与Y的一组样本数据如下表:
x 0.25 0.5 1 2 4
Y 16 12 5 2 1
试建立Y与x之间的回归方程.
【解析】根据收集的数据作散点图(如图(1)所示).
由图可知样本点分布在某一条反比例函数曲线的附近,令t=,则原数据变为
t 4 2 1 0.5 0.25
Y 16 12 5 2 1
由散点图(如图(2)所示)可以看出Y与t呈近似的线性相关关系.
列表如下:
i ti yi tiyi
1 4 16 64 16
2 2 12 24 4
3 1 5 5 1
4 0.5 2 1 0.25
5 0.25 1 0.25 0.062 5
7.75 36 94.25 21.312 5
【易错分析】直接取已知数据求回归方程,没有画出散点图或求相关系数r进行相关性检验,两个变量恰好不具有线性相关关系.根据散点图可以发现样本点分布在某一条反比例函数曲线附近,易知Y与呈线性相关关系.
【避错警示】在解决回归分析的问题时,首先要对两个变量间的相关性进行分析,一要看它们是否相关,二要看它们是否是线性相关,如果它们不具有相关关系或不具有线性相关关系,即使求出回归直线方程,也没有任何意义.
易错点2:对独立性检验的方法不理解致错
【案例2】新高考3+3最大的特点就是取消文理分科,除语文、数学、外语之外,从物理、化学、生物、政治、历史、地理这6科中自由选择三门科目作为选考科目.某研究机构为了了解学生对全文(选择政治、历史、地理)的选择是否与性别有关,从某学校高一年级的1 000名学生中随机抽取男生、女生各25人进行模拟选科.经统计,选择全文的人数比不选全文的人数少10人.
(1)估计在男生中,选择全文的概率.
(2)请完成下面的2×2列联表,估计有多大把握认为选择全文与性别有关,并说明理由.
性别 选科 合计
选择全文 不选择全文 男生 5
女生
合计
附:χ2=,其中n=a+b+c+d.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
【解析】(1)由题中数据可知,男生总共25人,选择全文的5人,
故选择全文的概率为=.
(2)因为选择全文的人数比不选全文的人数少
10人,男生、女生共有50人,所以选择全文的有
20人,不选全文的有30人,由此完成2×2列联表:
因为χ2==≈8.333>7.879=x0.005,
所以在犯错误的概率不大于0.005的前提下,推
断选择全文与性别有关联.
性别 选科 合计
选择全文 不选择全文 男生 5 20 25
女生 15 10 25
合计 20 30 50
【易错分析】对独立性检验中P(χ2≥xα)的意义不理解,在回答结论时出错.
【避错警示】充分理解独立性检验的意义:给定一个α,可以找到满足P(χ2≥xα)=α的数xα,当χ2≥xα成立,则称在犯错误的概率不超过α的前提下,认为A与B有关;或说有1-α的把握认为A与B有关.若χ2