8.1 成对数据的统计相关性
课标解读
1.理解两个变量的相关关系的概念.
2.会作散点图,并利用散点图判断两个变量之间是否具有相关关系.
3.会根据相关系数判断两个变量的相关程度.
新知初探·课前预习——突出基础性
教 材 要 点
要点一 变量的相关关系
1.相关关系:两个变量有关系,但又没有确切到可由其中的一个去________决定另一个的程度,这种关系称为相关关系 .
2.散点图:将样本中的每一个序号下的成对数据用____________中的点表示出来得到的统计图.
3.正相关与负相关
正相关 负相关
当一个变量的值增加时,另一个变量的相应值也呈现________的趋势 当一个变量的值增加时,另一个变量的相应值呈现________的趋势
4.线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在________附近,则称这两个变量线性相关 .
要点二 样本的相关系数
1.相关系数:r==.我们称r为变量x和变量y的样本相关系数.
2.样本相关系数r是一个描述成对样本数据的数字特征,它的正负和绝对值的大小可以反映成对数据的变化特征:
(1)当r>0时,称成对样本数据________相关;
(2)当r<0时,称成对样本数据________相关.
3.样本相关系数r 的取值范围为________,样本相关系数r的绝对值大小可以反映成对数据之间线性相关的程度:
(1)当|r|越接近1时,成对数据的线性相关程度越强;
(2)当|r|越接近0时,成对数据的线性相关程度越弱.
助 学 批 注
批注 相关关系中两个变量间是一种不确定的关系,若两个变量间具有确定性关系,即因果关系,则称之为函数关系.
批注 如果两个变量具有相关性,但不是线性相关,那我们称这两个变量非线性相关或曲线相关.
批注 样本相关系数r有时也称样本线性相关系数,|r|刻画了样本点集中于某条直线的程度.当r=0时,只表明成对样本数据间没有线性相关关系,但不排除它们之间有其它相关关系.
夯 实 双 基
1.判断正误(正确的画“√”,错误的画“×”)
(1)两个变量之间产生相关关系的原因受许多不确定的随机因素的影响.( )
(2)样本的容量对用样本相关系数估计两个变量的相关系数的效果没有影响.( )
(3)两个变量的相关系数越大,它们的相关程度越强.( )
(4)若相关系数r=0,则两变量x,y之间没有关系.( )
2.下列两个量之间的关系是相关关系的是( )
A.匀速直线运动中时间与位移的关系
B.学生的成绩和身高
C.儿童的年龄与体重
D.物体的体积和质量
3.若变量y与x之间的样本相关系数r=-0.983 2,则变量y与x之间( )
A.具有很弱的线性相关关系
B.具有较强的线性相关关系
C.它们的线性相关关系还需要进一步确定
D.不确定
4.如图所示的两个变量具有相关关系的是________(填序号).
题型探究·课堂解透——强化创新性
题型 1 相关关系的判断
例1 (多选)下列变量之间的关系是相关关系的是( )
A.二次函数y=ax2+bx+c中,a,c是已知常数,取b为自变量,因变量是判别式Δ=b2-4ac
B.光照时间和果树亩产量
C.降雪量和交通事故发生率
D.每亩田施肥量和粮食亩产量
方法归纳
函数关系是一种确定的关系,而相关关系是非随机变量与随机变量的关系.函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
巩固训练1 下列两个变量之间的关系是相关关系的是( )
A.正方体的棱长和体积
B.单位圆中角的度数和所对弧长
C.亩产量为常数时,土地面积和总产量
D.日照时间与水稻的亩产量
题型 2 线性相关关系的判断
例2 某零售店近5个月的销售额和利润额资料如下表所示:
商店名称 A B C D E
销售额x/千万元 3 5 6 7 9
利润额y/百万元 2 3 3 4 5
(1)根据上表数据作出散点图;
(2)观察散点图判断利润额y关于销售额x是否具有线性相关关系.如果具有线性相关关系,那么是正相关还是负相关?
方法归纳
由散点图判断两个变量正、负相关的方法
当散点图中的点散布在平面直角坐标系中从左下角到右上角的区域时,两个变量正相关;当散点图中的点散布在平面直角坐标系中从左上角到右下角的区域时,两个变量负相关.
巩固训练2 对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图如图(1);对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图如图(2).由这两个散点图可以判断( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
题型 3 样本相关系数的应用
例3 互联网使我们的生活日益便捷,网络外卖也开始成为不少人日常生活中不可或缺的一部分,某市一调查机构针对该市市场占有率较高的甲、乙两家网络外卖企业(以下称外卖甲、外卖乙)的经营情况进行了调查,调查结果如下表:
日期 1日 2日 3日 4日 5日
外卖甲日接单:x(百单) 5 2 9 8 11
外卖乙日接单:y(百单) 2 3 10 5 15
据统计表明,y与x之间具有线性相关关系,请用样本相关系数r对y与x之间的相关性强弱进行判断.(若|r|>0.8,则可认为y与x有较强的线性相关关系)
参考数据:(xi-)(yi-)=66,
≈77.
参考公式:
相关系数r=.
方法归纳
线性相关系数是从数值上来判断变量间的线性相关程度,是定量的方法.与散点图相比较,线性相关系数要精细得多,需要注意的是线性相关系数r的绝对值小,只是说明线性相关程度低,但不一定不相关,可能是非线性相关.
巩固训练3 [2022·广东潮州高二期末]对四组数据进行统计,获得如图所示的散点图,关于其相关系数的关系,正确的有( )
A.r1C.r3>0 D.r4>0
8.1 成对数据的统计相关性
新知初探·课前预习
[教材要点]
要点一
1.精确地
2.直角坐标系
3.增加 减少
4.一条直线
要点二
2.(1)正 (2)负
3.[-1,1]
[夯实双基]
1.(1)√ (2)× (3)× (4)×
2.解析:A、D是函数关系;B是不相关关系;C是相关关系,故选C.
答案:C
3.解析:变量y与x之间的样本相关系数r=-0.983 2,|r|=0.983 2,接近1,样本相关系数的绝对值越大,相关性越强,
∴变量y与x之间有较强的线性相关关系,故选B.
答案:B
4.解析:①是确定的函数关系;②中的点大都分布在一条曲线周围;③中的点大都分布在一条直线周围;④中点的分布没有任何规律可言,x,y不具有相关关系.
答案:②③
题型探究·课堂解透
例1 解析:在A中,由于取b为自变量,因变量是判别式Δ=b2-4ac,判别式与b是函数关系,两者不是相关关系;一般来说,光照时间越长,果树亩产量越高;降雪量越大,交通事故发生率越高;施肥量越多,粮食亩产量越高,所以B,C,D是相关关系.故选BCD.
答案:BCD
巩固训练1 解析:不确定性是相关关系的一个重要特征.故选D.
答案:D
例2 解析:(1)散点图如图所示:
(2)由散点图可知,所有散点接近一条直线排列,
所以利润额与销售额是线性相关关系,
由图可知当销售额增加时,利润额呈现增加的趋势,所以是正相关.
巩固训练2 解析:由两个散点图的形状判断,x与y负相关,u与v是正相关.故选C.
答案:C
例3 解析:由题意知,==7,==7.
样本相关系数r==≈0.857>0.8.
故可认为y与x有较强的线性相关关系.
巩固训练3 解析:由图形特征可知r1,r4都是负相关,都是负数,r1比r4的相关系数更强,所以r1答案:AC8.2 一元线性回归模型及其应用
课标解读
1.结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义.
2.了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件.
3.针对实际问题,会用一元线性回归模型进行预测.
新知初探·课前预习——突出基础性
教 材 要 点
要点一 一元线性回归模型
我们称为Y关于x的一元线性回归模型 ,其中Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为________参数,b称为________参数;e是Y与bx+a之间的________.
要点二 线性回归方程与最小二乘法
将=________称为Y关于x的经验回归方程 ,也称经验回归函数或经验回归公式,其图形称为经验回归直线 .这种求经验回归方程的方法叫做最小二乘法,求得的叫做b,a的最小二乘估计.
要点三 残差
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,________减去________称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
要点四 用R2比较模型的拟合效果
用R2来比较两个模型的拟合效果,R2的计算公式为R2=1-. R2越大,意味着残差平方和(yi-i)2越小,即模型的拟合效果________;R2越小,残差平方和越大,即模型的拟合效果________.
助 学 批 注
批注 由于所有的样本点不共线,而只是散布在某条直线的附近,因此一元线性回归模型反映了表示成对样本数据的点散布于直线y=bx+a附近的线性相关关系.
批注 在经验回归方程=x+中,是经验回归直线的斜率,是截距.一般地,当回归系数>0时,说明两个变量呈正相关关系,它的意义是当每增大一个单位时,平均增大个单位;当<0时,说明两个变量呈负相关关系,它的意义是当x每增大一个单位时,平均减小||个单位.
批注 经验回归直线一定过点(),点()通常称为样本点的中心.
夯 实 双 基
1.判断正误(正确的画“√”,错误的画“×”)
(1)经验回归方程适用于一切样本和总体.( )
(2)经验回归方程一般都有局限性.( )
(3)样本取值的范围会影响经验回归方程的适用范围.( )
(4)经验回归方程得到的预测值是预测变量的精确值.( )
2.某商品销售量y(件)与销售价格x(元/件)负相关,则其经验回归方程可能是( )
A.=-10x+200 B.=10x+200
C.=-10x-200 D.=10x-200
3.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的R2分别如下表:
甲 乙 丙 丁
R2 0.98 0.78 0.50 0.85
哪位同学建立的回归模型拟合效果最好?( )
A.甲 B.乙
C.丙 D.丁
4.为了解某社区居民的家庭年收入x与年支出y的关系,随机调查了该社区5户家庭,依据统计数据得到回归直线方程=0.76x+0.4,据此估计,该社区一户收入为15万元家庭年支出为________万元.
题型探究·课堂解透——强化创新性
题型 1 经验回归方程
例1 [2022·江苏苏州实验中学高二期中]对于数据组:
x 2 3 4 5
y 1.9 4.1 6.1 7.9
(1)作散点图,你能直观上得到什么结论?
(2)求线性回归方程.
方法归纳
求经验回归方程的一般步骤
巩固训练1 (1)为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:
父亲身高x/cm 174 176 176 176 178
儿子身高y/cm 175 175 176 177 177
则y对x的经验回归方程为( )
A.=x-1 B.=x+1
C.=88+x D.=176
(2)[2022·河北沧州高二期末]已知x与y的数据如表所示,根据表中数据,利用最小二乘法求得y关于x的经验回归方程为=0.7x+1.05,则m的值是( )
x 2 3 4 5
y 2.5 3.0 m 4.5
A.3.8 B.3.9
C.4.0 D.4.1
题型 2利用经验回归方程对总体进行估计
例2 [2022·河北张家口高二期末]某市统计了近7年的实际利用外资金额y(单位:亿元)的数据,得到下面的表格:
年份 2015 2016 2017 2018 2019 2020 2021
年份代号x 1 2 3 4 5 6 7
实际利用外资金额 y(单位:亿元) 25 41 50 58 64 78 89
由表中数据,求得变量x,y的相关系数r≈0.993 1,可判定变量x,y线性相关关系较强.
(1)建立y关于x的经验回归方程;
(2)根据(1)的结果,预测该市实际利用外资金额首次超过150亿元的年份.
参考数据:=405,=1 900.
方法归纳
解决此类问题的关键是准确求出经验回归方程,再根据题意代入数据求出预测值.
巩固训练2 [2022·山东济宁高二期末]2021年9月,山东省政府办公厅印发《山东省电动自行车管理办法》(以下简称《办法》),自2022年5月1日起施行.《办法》的第十九条第三款规定:驾乘电动自行车人员规范佩戴安全头盔.佩戴头盔是一项对家庭与社会负责的行为.某市为贯彻《办法》精神,加强对市民的安全教育,自2022年5月1日起,在该市某主干路口连续监控5周,每周抓拍到驾乘电动自行车人员未规范佩戴安全头盔的统计数据如下表:
周数 第1周 第2周 第3周 第4周 第5周
周数序号x 1 2 3 4 5
未规范佩戴 头盔人数y 1 150 1 000 900 750 600
(1)请利用所给数据求未规范佩戴头盔人数y与周数序号x之间的经验回归方程=x+;
(2)利用(1)中建立的经验回归方程估算该路口第6周未规范佩戴头盔的人数.
参考数据:=11 850,=4 400
题型 3经验回归分析
例3 共享单车进驻城市,绿色出行引领时尚,某市有统计数据显示,某站点6天的使用单车用户的数据如下,用两种模型①y=bx+a;②y=b+a分别进行拟合,得到相应的回归方程=10.7x+3.4,=35.5-22.8,进行残差分析得到如表所示的残差值及一些统计量的值:
日期x(天) 1 2 3 4 5 6 =3.5 =41 =1 049 =91
用户y(人) 13 22 43 45 55 68
模型①的 残差值 -1.1 -2.8 7.5 -1.2 -1.9 0.4
模型②的 残差值 0.3 -5.4 4.3 -3.2 -1.6 3.8
(1)残差值的绝对值之和越小说明模型拟合效果越好,根据残差,比较模型①,②的拟合效果,应选择哪一个模型?并说明理由;
(2)残差绝对值大于3的数据认为是异常数据,需要剔除,剔除异常数据后,重新求出(1)中所选模型的回归方程.
方法归纳
刻画回归效果的三种方法
巩固训练3 某种农作物可以生长在滩涂和盐碱地,它的灌溉方式是将海水稀释后进行灌溉.某实验基地为了研究海水浓度x(%)对亩产量y(t)的影响,通过在试验田的种植实验,测得了该农作物的亩产量与海水浓度的数据如下表
海水浓度x(%) 3 4 5 6 7
亩产量y(t) 0.56 0.52 0.46 0.35 0.31
残差 -0.02 0.01 m n 0.01
绘制散点图发现,可以用线性回归模型拟合亩产量y(t)与海水浓度x(%)之间的相关关系,用最小二乘法计算得y与x之间的线性回归方程为=-0.07x+.
(1)求,m,n的值;
(2)统计学中常用相关指数R2来刻画回归效果,R2越大,回归效果越好,如假设R2=0.85,就说明预报变量y的差异有85%是解释变量x引起的.请计算相关指数R2(精确到0.01),并指出亩产量的变化多大程度上是由浇灌海水浓度引起的?
附:残差i=yi-i,相关指数R2=1-,其中(yi-)2=0.046 2
8.2 一元线性回归模型及其应用
新知初探·课前预习
[教材要点]
要点一
截距 斜率 随机误差
要点二
x+
要点三
观测值 预测值
要点四
越好 越差
[夯实双基]
1.(1)× (2)√ (3)√ (4)×
2.解析:∵y与x负相关,∴排除B,D,又∵C项中x>0时,<0不合题意,∴C错.故选A.
答案:A
3.解析:R2越大,表示回归模型的拟合效果越好.故选A.
答案:A
4.解析:令x=15,所以=0.76×15+0.4=11.8.
答案:11.8
题型探究·课堂解透
例1 解析:(1)
由图知:两个变量呈线性相关关系且正相关.
(2)由数据知:==3.5,
==5,
=2×1.9+3×4.1+4×6.1+5×7.9=80,=54,
所以===2,
令y=x+,则=5-2×3.5=-2,
综上,回归直线方程为y=2x-2.
巩固训练1 解析:(1)由题意得==176(cm),
==176(cm),
由于()一定满足经验回归方程,经验证知选C.
(2)因为=×(2+3+4+5)==×(2.5+3.0+m+4.5)=,所以样本中心为(),将其代入回归方程=0.7x+1.05,得=0.7×+1.05,解得m=4.故选C.
答案:(1)C (2)C
例2 解析:(1)由表格数据和参考数据,得==4,==,
=12+22+32+42+52+62+72=140,
则===10,==-10×4=,
所以y关于x的经验回归方程为=10x+.
(2)由(1)可知,10x+>150,解得x>,
所以首次超过150亿元的年份代号为14,
故预测2028年该市实际利用外资金额首次超过150亿元.
巩固训练2 解析:(1)由表中数据知,==3,
===880,
=12+22+32+42+52=55,
所以===-135,
所以==880-(-135)×3=1 285,
故所求经验回归方程为=-135x+1 285.
(2)令x=6,则=-135×6+1 285=475人,
预计该路口第6周未规范佩戴头盔的人数为475人.
例3 解析:(1)应该选择模型①,
模型①的残差值的绝对值之和为1.1+2.8+7.5+1.2+1.9+0.4=14.9;
模型②的残差值的绝对值之和为0.3+5.4+4.3+3.2+1.6+3.8=18.6.
∵14.9<18.6,∴模型①的拟合效果较好,应该选模型①.
(2)剔除异常数据,即剔除第3天的数据后,
得=(3.5×6-3)=3.6,=(41×6-43)=40.6,
=1 049-3×43=920,=91-32=82.
∴====11,
==40.6-11×3.6=1.
∴y关于x的回归方程为y=11x+1.
巩固训练3 解析:(1)由题设,==5,==0.44,
所以0.44=-0.07×5+,可得=0.79,
m=0.46+0.07×5-0.79=0.02,
n=0.35+0.07×6-0.79=-0.02.
(2)由(1)知:(yi-i)2=0.000 4×3+0.000 1×2=0.001 4,(yi-)2=0.046 2,
所以R2=1-=≈0.97,
故亩产量的变化有97%是由浇灌海水浓度引起的.8.3 列联表与独立性检验
课标解读
1.通过实例,理解2×2列联表的统计意义.
2.通过实例,了解2×2列联表独立性检验及其应用.
新知初探·课前预习——突出基础性
教 材 要 点
要点一 分类变量与列联表
1.分类变量:区别不同的现象或性质的________称为分类变量 .
2.2×2列联表
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
y1 y2 合计
x1 a b a+b
x2 c d ________
合计 ________ b+d ________
要点二 独立性检验
1.独立性检验:利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验 ,读作“卡方独立性检验”,简称独立性检验.
2.χ2=,其中n=a+b+c+d.
助 学 批 注
批注 (1)分类变量的取值一定是离散的.(2)分类变量是大量存在的,如是否吸烟,商品的等级等.
批注 能清晰给出成对分类变量数据的交叉分类频数,是传统的调查研究中最常用的表格之一.
批注 (1)卡方越小,独立性越强,相关性越弱;卡方越大,独立性越弱,相关性越强.
(2)当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立.
夯 实 双 基
1.判断正误(正确的画“√”,错误的画“×”)
(1)列联表中的数据是两个分类变量的频数.( )
(2)事件A与B的独立性检验无关,即两个事件互不影响.( )
(3)χ2的大小是判断事件A与B是否相关的统计量.( )
(4)独立性检验的方法和数学上的反证法是一样的.( )
2.为调查中学生近视情况,测得某校150名男生中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )
A.回归分析 B.均值与方差
C.独立性检验 D.概率
3.在吸烟与患肺病是否有关的研究中,下列属于两个分类变量的是( )
A.吸烟,不吸烟 B.患病,不患病
C.是否吸烟,是否患病 D.以上都不对
4.下面是一个2×2列联表,则表中a处的值为________.
y1 y2 合计
x1 a b 73
x2 2 25 c
合计 d 46
题型探究·课堂解透——强化创新性
题型 1 用2×2列联表判断两个分类变量间的
关联关系例1 [2022·河北石家庄高二期末]在下列两个分类变量X,Y的样本频数列联表中,可以判断X、Y之间有无关系的是( )
y1 y2 总计
x1 a b a+b
x2 c d c+d
总计 a+c b+d a+b+c+d
A.B.
C. D.
方法归纳
用2×2列联表判断两个分类变量间的关联关系
巩固训练1 在调查的480名男性中有38名患有色盲,520名女性中有6名患有色盲,请根据题目的条件列出2×2列联表并由列联表估计色盲与性别是否有关.
题型 2 独立性检验思想的基本应用
例2 [2022·山东菏泽高二期末]为加强素质教育,提升学生综合素养,立德中学为高一年级提供了“书法”和“剪纸”两门选修课.为了了解选择“书法”或“剪纸”是否与性别有关,调查了高一年级1 500名学生的选择倾向,随机抽取了100人,统计选择两门课程人数如下表:
(1)补全2×2列联表;
选书法 选剪纸 共计
男生 40 50
女生
共计 30
(2)依据小概率值α=0.05的独立性检验,能否认为选择“书法”或“剪纸”与性别有关?
参考附表:
α 0.100 0.050 0.025
x0 2.706 3.841 5.024
方法归纳
利用独立性检验思想解题的一般步骤
巩固训练2 [2022·辽宁抚顺·高二期末]食品安全问题越来越受到大家的关注,某组织随机调查询问了500名消费者在购买食品时是否查看营养成分表和生产日期,得到如下列联表数据.
查看 不查看 总计
男性消费者 60
女性消费者 260
总计 150 500
(1)将列联表中数据填写完整;
(2)判断能否有99.5%的把握认为消费者是否查看营养成分表和生产日期与性别有关.
题型 3 独立性检验的综合应用
例3 [2022·湖北武汉高二期末]某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的甲,乙两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用甲种生产方式,第二组工人用乙种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下表格:
完成任务工作时间 (60,70] (70,80] (80,90] (90,100]
甲种生产方式 2人 3人 10人 5人
乙种生产方式 5人 10人 4人 1人
(1)将完成生产任务所需时间超过80 min和不超过80 min的工人数填入下面列联表:
生产方式 工作时间 合计
超过80 min 不超过80 min
甲
乙
合计
(2)根据(1)中的列联表,依据小概率值α=0.01的独立性检验,能否认为甲,乙两种生产方式的效率有差异?
(3)若从完成生产任务所需的工作时间在(60,70]的工人中选取3人去参加培训,设X为选出的3人中采用甲种生产方式的人数,求随机变量X的分布列和数学期望.
方法归纳
独立性检验解答题常与概率、分层抽样、频率直方图、计数原理、经验回归方程、正态分布等知识结合考查.解决此类问题的关键是正确应用各个知识点,注意参考公式和数据.
巩固训练3 [2022·河北保定高二期末]某校举办数学竞赛,竞赛分为初赛和决赛.现从通过初赛的学生中选拔男生30名,女生30名参加决赛,根据决赛得分情况,按[50,60),[60,70),[70,80),[80,90),[90,100]分成5组,得到如图所示的频率分布直方图,若规定得分不低于80分者在本次竞赛中表现优秀,其中表现优秀的女学生有5名.
(1)求学生得分的平均值(各组数据以该组数据的中点值作代表);
(2)请完成下面的2×2列联表,并依据α=0.1的独立性检验,能否认为是否在数学竞赛中表现优秀与性别有关?
性别 是否表现优秀 合计
优秀 不优秀
男生
女生 5
合计 60
8.3 列联表与独立性检验
新知初探·课前预习
[教材要点]
要点一
1.随机变量
2.c+d a+c a+b+c+d
[夯实双基]
1.(1)√ (2)× (3)√ (4)×
2.解析:分析已知条件,易得如下表格:
男生 女生 合计
近视 80 70 150
不近视 70 70 140
合计 150 140 290
根据列联表可得:χ2,再根据与临界值比较,检验这些中学生眼睛近视是否与性别有关,故利用独立性检验的方法最有说服力.故选C.
答案:C
3.解析:“是否吸烟”是分类变量,它的两个不同取值:吸烟和不吸烟.
“是否患病”是分类变量,它的两个不同取值:患病和不患病.
可知A、B都是一个分类变量所取的两个不同值.故选C.
答案:C
4.解析:依题意得b=46-25=21,a=73-b=52.
答案:52
题型探究·课堂解透
例1 解析:∵χ2=,
则分类变量X和Y有关系时,ad与bc差距会比较大,
由==,
故与的值相差应该大,
即的大小可以判断X、Y之间有无关系.故选D.
答案:D
巩固训练1 解析:根据题目所给的数据列出如下列联表:
色盲 不色盲 合计
男 38 442 480
女 6 514 520
合计 44 956 1 000
∵====,
显然>,且两个比例的值相差较大,故可以粗略估计患不患色盲与性别有关.
例2 解析:(1)根据题意补全2×2列联表,如下:
选书法 选剪纸 共计
男生 40 10 50
女生 30 20 50
共计 70 30 100
(2)先假设H0:选择“书法”或“剪纸”与性别无关.
根据列联表中数据,得χ2=≈4.762>3.841,
根据小概率α=0.050的独立性检验,推断H0不成立,即有95%的把握认为选“书法”或“剪纸”与性别有关.
巩固训练2 解析:(1)
查看 不查看 总计
男性消费者 60 90 150
女性消费者 90 260 350
总计 150 350 500
(2)由题可知χ2=≈10.204.
又因为查表可得P(χ2≥7.879)=0.005,
且10.204>7.879,所以有99.5%的把握认为消费者是否查看营养成分表和生产日期与性别有关.
例3 解析:(1)根据已知数据可得列联表如下:
生产方式 工作时间 合计
超过80 min 不超过80 min
甲 15 5 20
乙 5 15 20
合计 20 20 40
(2)设H0:甲,乙两种生产方式的效率无差异,
根据(1)中列联表中的数据,经计算得χ2==10>6.635,
依据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为甲,乙两种生产方式的效率有差异,此推断犯错误的概率不大于0.01.
(3)由题意知,随机变量X的所有可能取值为0,1,2,
P(X=0)==,P(X=1)==,
P(X=2)==,
所以X的分布列为
X 0 1 2
P
所以E(X)=0×+1×+2×=.
巩固训练3 解析:(1)由频率分布直方图可得(0.015+n+0.035+0.015+0.01)×10=1,解得n=0.025.
则学生得分的平均值=55×0.15+65×0.25+75×0.35+85×0.15+95×0.1=73(分).
(2)由频率分布直方图可知表现优秀的人数为60×(0.015+0.01)×10=15,
则表现优秀的男学生人数为15-5=10.
女学生中表现不优秀的人数为30-5=25,男学生中表现不优秀的人数为30-10=20.
先假设H0:是否在数学竞赛中表现优秀与性别无关.
得到2×2列联表如下:
性别 是否表现优秀 合计
优秀 不优秀
男生 10 20 30
女生 5 25 30
合计 15 45 60
则χ2==≈2.222<2.706.
根据小概率值α=0.1的独立性检验,我们推断H0成立,即认为是否在数学竞赛中表现优秀与性别没有关联,此推断犯错误的概率不大于0.1.专项培优3章末复习课
·
·
考点一 一元线性回归模型及其应用
1.该知识点是具有线性相关关系的两变量的一种拟合应用,目的是借助函数的思想对实际问题做出预测和分析.
2.通过对一元线性回归模型及其应用的考查,提升学生的数学建模、数据分析核心素养.
例1 [2022·全国乙卷]某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截面积xi 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量yi 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
并计算得=0.038,=1.615 8,iyi=0.247 4.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数r=,≈1.377.
例2 [2022·湖北武汉高二期末]为了了解A地区足球特色学校的发展状况,某调查机构得到如下统计数据:
年份x 2014 2015 2016 2017 2018
足球特色学校y(百个) 0.30 0.60 1.00 1.40 1.70
(1)根据上表数据,计算y与x的相关系数r,并说明y与x的线性相关性强弱.(已知:0.75≤|r|≤1,则认为y与x线性相关性很强;0.3≤|r|<0.75,则认为y与x线性相关性一般;|r|≤0.3,则认为y与x线性相关性较弱.)
(2)求y关于x的线性回归方程,并预测A地区2023年足球特色学校的个数(精确到个位).
参考公式:r=,(xi-)2=10,(yi-)2=1.3,≈3.605 6,=,=-.
考点二 独立性检验的应用
1.独立性检验研究的问题是有多大把握认为两个分类变量之间有关系.为此需先列出2×2列联表,从表格中可以直观地得到两个分类变量是否有关系.独立性检验的思想是:可以先假设二者无关系,求统计量χ2的值,若χ2大于临界值,则拒绝假设,否则,接受假设.
2.通过对独立性检验的应用的考查,提升学生的数学运算、数据分析核心素养.
例3 [2022·新高考Ⅰ卷节选]一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:
不够良好 良好
病例组 40 60
对照组 10 90
能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
附:K2=,
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
例4 [2022·全国甲卷]甲、乙两城之间的长途客车均由A和B两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
准点班次数 未准点班次数
A 240 20
B 210 30
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
附:K2=,
P(K2≥k) 0.100 0.050 0.010
k 2.706 3.841 6.635
章末复习课
考点聚焦·分类突破
例1 解析:(1)该林区这种树木平均一棵的根部横截面积==0.06(m2),
平均一棵的材积量==0.39(m3).
(2)由题意,得==0.038-10×0.062=0.002,
==1.615 8-10×0.392=0.094 8,
==0.247 4-10×0.06×0.39=0.013 4,
所以相关系数r==≈≈0.97.
(3)因为树木的材积量与其根部横截面积近似成正比,所以比例系数k===6.5,
所以该林区这种树木的总材积量的估计值为186×6.5=1 209(m3).
例2 解析:(1)因为=×(2 014+2 015+2 016+2 017+2 018)=2 016,
=×(0.30+0.60+1.00+1.40+1.70)=1,
=(2 014-2 016)(0.30-1)+(2 015-2 016)(0.60-1)+(2 016-2 016)(1.00-1)+(2 017-2 016)(1.40-1)+(2 018-2 016)(1.70-1)=3.6,
所以r===≈0.9984>0.75,
∴y与x线性相关性很强.
(2)因为===0.36,
==1-2 016×0.36=-724.76,
所以y关于x的线性回归方程是=0.36x-724.76.
当x=2 023时,=0.36×2 023-724.76=3.52
预测A地区2023年足球特色学校的个数为352.
例3 解析:由题意,得K2==24>6.635,
∴有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.
例4 解析:(1)A公司一共调查了260个班次,其中有240个班次准点,故A公司甲、乙两城之间的长途客车准点的概率是=.
B公司一共调查了240个班次,其中有210个班次准点,故B公司甲、乙两城之间的长途客车准点的概率是=.
(2)因为K2==≈3.205>2.706,
所以有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.