第59讲 成对数据的统计分析
● 课前基础巩固
【知识聚焦】
一、1.(2)增加 减小 (3)一条直线
(4)(ii)①正相关 负相关 ②强 弱
2.(2)(i)小 (ii)横轴 窄 (iii)大
二、2.(1)χ2 独立
【对点演练】
1.r20,r2<0,r3>0,r4<0.又图①②中的散点近似在一条直线上,则图①②中的样本数据的线性相关程度比较高.图③④中的散点比较分散,故图③④中的样本数据的线性相关程度比较低,即|r1|与|r2|比较大,|r4|与|r3|比较小,∴r22.6.1 [解析] 由表格数据知=4,设污损的数据为a,则=,∴=1.03×4+1.13,解得a=6.1,即污损的数据为6.1.
3.88 [解析] 因为样本中志愿者的总人数为100,所以a+b+d+12=100,解得a+b+d=88.
4.④ [解析] 根据y关于x的经验回归方程=0.85x-85.71,可知y与x具有正的线性相关关系,①中结论正确;经验回归直线过点(,),②中结论正确;由经验回归方程知,若该大学某女生身高增加1 cm,则其体重约增加0.85 kg,故③中结论正确;若该大学某女生身高为170 cm,则可预测其体重为58.79 kg,不可断定其体重必为58.79 kg,故④中结论不正确.
5.① [解析] 因为χ2≈3.918>3.841=x0.05,所以认为“这种血清能起到预防感冒的作用”,这种推断犯错误的概率不超过0.05,故①正确;我们检验的是假设是否成立,与某人患感冒的可能性及该血清预防感冒的有效率没有关系,不是同一个问题,故②③④错误.
6.有关联 0.01 [解析] ∵χ2≈7.63>6.635=x0.01,∴判断打鼾与患心脏病是有关联的,该推断犯错误的概率不超过0.01.
● 课堂考点探究
例1 [思路点拨] (1)去掉离群点后成对样本数据的线性相关程度更强,新的经验回归方程的拟合效果更好.(2)根据经验回归方程判断选项A;写出女性平均受教育年限z与总和生育率y的关系式,从而判断选项B;根据散点图中点的分布判断选项C;由经验回归方程可预测未来的趋势,但实际值不一定会继续降低,从而判断选项D.
(1)AD (2)AB [解析] (1)去掉离群点后成对样本数据的线性相关程度更强,拟合效果更好,且由题意可知,成对样本数据正相关,所以r1(2)由经验回归方程=7.54+0.33x可知,人均GDP和女性平均受教育年限正相关,A正确.因为=7.54+0.33x,=2.89-0.21x,所以=2.89-0.21×,所以女性平均受教育年限和总和生育率负相关,B正确.由散点图可知,数据(xi,yi)的线性相关程度比数据(xi,zi)的线性相关程度弱,所以|r1|<|r2|,C错误.根据经验回归方程=2.89-0.21x可知,未来三年总和生育率有降低的趋势,但不一定继续降低,D错误.故选AB.
变式题 (1)C (2)D [解析] (1)因为r1=0.837,r2=-0.957,所以变量X与Y正相关,变量U与V负相关,且X与Y之间的线性相关程度弱于U与V之间的线性相关程度.故选C.
(2)由题中图可以看出D(10,2)距离其他点较远,且其他点大致分布在一条斜率为正数的直线附近,所以去掉D后,成对样本数据的线性相关程度变强.因为成对样本数据正相关,所以去掉D后,样本相关系数r变大,A,B错误.去掉D后,成对样本数据的线性相关程度变强,所以残差平方和变小,解释变量x与响应变量y的线性相关程度变强,故C错误,D正确.故选D.
例2 [思路点拨] (1)利用所提供数据求,,(xi-)2,(yi-)2,代入参考公式求r即可;
(2)结合公式求,,由此可得经验回归方程,再利用经验回归方程进行预测.
解:(1)==
2021,==
1.10,(xi-)2=(-2)2+(-1)2+02+12+22=10,(yi-)2=(-0.7)2+(-0.4)2+02+0.42+0.72=1.3,所以r=
=
≈≈0.998.
(2)由(1)知===0.36,=-=1.10-2021×0.36=-726.46,所以y关于x的经验回归方程是=0.36x-726.46,当x=2025时,=0.36×2025-726.46=2.54,所以预测该地区2025年新能源汽车购买数量为2.54万辆.
变式题 (1)AD [解析] 因为经验回归直线=x+经过点(10,m),所以m=10+,5m=11+10+m+6+5,因为相对于点(11,5)的残差为0.2,所以5-(11+)=0.2,所以m=8,=-3.2,=40,故A正确,B错误,C错误;=-3.2x+40,当x=9时,=-3.2×9+40=11.2,当x=9.5时,=-3.2×9.5+40=9.6,当x=10时,=-3.2×10+40=8,当x=10.5时,=-3.2×10.5+40=6.4,当x=11时,=-3.2×11+40=4.8,所以残差和为11-11.2+10-9.6+8-8+6-6.4+5-4.8=0,故D正确.故选AD.
(2)解:①设利润y关于原材料投入x的经验回归方程为=x+,由已知得=×(82+84+85+86+88)=85,=×(770+800+830+850+900)=830,(xi-)(yi-)=(-3)×(-60)+(-1)×(-30)+0+1×20+3×70=440,(xi-)2=9+1+0+1+9=20,所以==22,=-=830-22×85=-1040,
所以利润y关于原材料投入x的经验回归方程为=22x-1040.
②由(1)知,当x=100时,=22×100-1040=1160,
所以当原材料投入为100万元时,预测该产品的利润为1160万元.
例3 [思路点拨] (1)分别将表中数据代入样本相关系数公式求出r1,r2,比较大小即可判断.
(2)(i)由y=eλx+t两边取对数,换元得v=t+λx,由表中数据分别求和,得经验回归方程=0.02x+3.84,利用指数式和对数式的互化,即得=e0.02x+3.84;
(ii)将y=80代入经验回归方程即可预测下一年的研发资金投入量.
解:(1)由题意知r1====0.86,
r2===≈0.91.
因为0.86<0.91,
所以|r1|<|r2|,
故从样本相关系数的角度,模型y=eλx+t中y与x的相关性较强.
(2)(i)由y=eλx+t,得ln y=t+λx,
即v=t+λx.
因为==≈0.02,所以=-=4.20-×20≈3.84,故v关于x的经验回归方程为=0.02x+3.84,即ln =0.02x+3.84,所以=e0.02x+3.84.
(ii)将y=80代入=e0.02x+3.84,得80=e0.02x+3.84,又e4.382≈80,所以0.02x+3.84≈4.382,解得x≈27.1,故预测下一年的研发资金投入量约为27.1亿元.
变式题 (1)B [解析] 将u= ln y,v=(x-4)2代入经验回归方程=-0.5v+2得ln =-0.5(x-4)2+2,即=.当x=4时,-0.5(x-4)2+2取得最大值2,则此时取得最大值e2.故选B.
(2)解:①因为=×(4+6+8+10+12)=8,=×(27+42+55+56+60)=48,所以(xi-)2=(4-8)2+(6-8)2+(8-8)2+(10-8)2+(12-8)2=40,(yi-)2=(27-48)2+(42-48)2+(55-48)2+(56-48)2+(60-48)2=734,(xi-)(yi-)=(4-8)×(27-48)+(6-8)×(42-48)+(8-8)×(55-48)+(10-8)×(56-48)+(12-8)×(60-48)=160.模型(i)中,样本相关系数r==
≈≈0.93.
②因为r≈0.93<0.95,所以选择模型(ii).令vi=,先建立y关于v的经验回归方程,由于=
≈≈22.49,=-≈48-22.49×2.78≈-14.52,所以y关于v的经验回归方程为=-14.52+22.49v,即=-14.52+22.49,当x=16时,=-14.52+22.49=75.44,所以当x=16时,y的预测值为75.44.
例4 [思路点拨] (1)利用频率分布表估算平均数的方法列式计算即得t的值,再补全频率分布表.(2)由(1)补全列联表,计算χ2的观测值,即可回答结论.
解:(1)(400,600]组的频率为1-0.20-0.15-t=0.65-t,
估计学生与最近食堂间的平均距离=100×0.20+300t+500(0.65-t)+700×0.15=450-200t=370,解得t=0.40,所以补全频率分布表如下:
学生与最近食堂间的 距离d(m) (0,200] (200,400] (400,600] (600,800] 合计
在食堂就餐频率 0.15 0.20 0.10 0.05 0.50
点外卖频率 0.05 0.20 0.15 0.10 0.50
合计 0.20 0.40 0.25 0.15 1.00
(2)由(1)知,2000名学生中距最近食堂较近的有2000×0.6=1200(名),其中在食堂就餐的有2000×0.35=700(名),
距最近食堂较远的学生中,在食堂就餐的有2000×0.15=300(名).
因此补全2×2列联表如下:
单位:名
用餐方式 学生距最近食堂的远近 合计
学生距最近 食堂较近 学生距最近 食堂较远
在食堂就餐 700 300 1000
点外卖 500 500 1000
合计 1200 800 2000
零假设为H0:学生中午的用餐方式与学生距最近食堂的远近无关联,则χ2==>10.828=x0.001,根据小概率值α=0.001的独立性检验,我们推断H0不成立,
即认为学生中午的用餐方式与学生距最近食堂的远近有关联,此推断犯错误的概率不大于0.001.
变式题 (1)有 [解析] 由等高堆积条形图可以看出,喜欢篮球运动的男生比例比喜欢篮球运动的女生比例大很多,因此可以判断性别与对篮球运动的态度有关联.
(2)解:①将表格补充完整为
优级品 非优级品
甲车间 26 24
乙车间 70 30
K2的观测值k=
≈4.688.
因为4.688>3.841,所以有95%的把握认为甲、乙两车间产品的优级品率存在差异.因为4.688<6.635,所以没有99%的把握认为甲、乙两车间产品的优级品率存在差异.
②由题意可知,生产线智能化升级改造后,该工厂产品的优级品的频率为=0.64,用频率估计概率可得=0.64.
又因为升级改造前该工厂产品的优级品率p=0.5,所以p+1.65=0.5+1.65≈0.5+1.65×≈0.567,
可知>p+1.65,
所以可以认为生产线智能化升级改造后,该工厂产品的优级品率提高了.第59讲 成对数据的统计分析
1.C [解析] 若r为正,则两个变量正相关,若r为负,则两个变量负相关.|r|越接近1,表明两个变量线性相关程度越强,|r|越接近0,表明两个变量线性相关程度越弱.故选C.
2.A [解析] 由题意可得解得所以a,b的值分别为52,54.故选A.
3.D [解析] 残差平方和越小,说明模型的拟合效果越好,显然D选项的拟合效果最好.故选D.
4.A [解析] 由题知χ2=
≈7.822.因为7.822<10.828=x0.001,所以根据小概率值α=0.001的独立性检验,可以认为是否爱好跳绳与性别无关联,故A正确,B错误;因为7.822<7.879=x0.005,所以根据小概率值α=0.005的独立性检验,可以认为是否爱好跳绳与性别无关联,故C错误;因为7.822>6.635=x0.01,所以根据小概率值α=0.01的独立性检验,可以认为是否爱好跳绳与性别有关联,故D错误.故选A.
5.A [解析] 由一次函数、二次函数及指数函数的性质可知,B,C,D不符合散点的变化趋势.由散点图分布可知,散点图分布在一个幂函数的图象附近,因此,最适宜作为雨滴的末速度v与直径d的经验回归方程类型的是v=a+b.故选A.
6.3.968 [解析] 补全列联表:
单位:名
呼吸系统健康状况 工作场所 合计
室外工作 室内工作
有呼吸系统疾病 150 200 350
无呼吸系统疾病 50 100 150
合计 200 300 500
则χ2=≈3.968.
7.0.96 [解析] 令x=175,得=63.04,所以残差为64-63.04=0.96.
8.C [解析] 设被调查的男性人数为x,则女性人数为2x,根据题意可得列联表如下:
单位:人
态度 性别 合计
男 女
喜爱足球
不喜爱足球
合计 x 2x 3x
则χ2==,因为根据小概率值α=0.005的独立性检验,认为是否喜爱足球与性别有关联,所以χ2≥7.879=x0.005,即≥7.879,解得x≥11.818 5,又因为列联表中的所有数据均为整数,所以x的最小值为12.故选C.
9.C [解析] 因为经验回归直线必过点(,),=9,所以=-1.4+20.6=8=,解得a=12,所以选项A错误;由经验回归方程可知,变量x,y负相关,所以选项B错误;样本相关系数r===
-,所以选项C正确,选项D错误.故选C.
10.BCD [解析] 设男生人数为x,则女生人数为x+20,由题得x+x+20=180,解得x=80,即在被调查者中,男生、女生人数分别为80,100,可得到如下2×2列联表.
单位:人
性别 锻炼情况 合计
经常锻炼 不经常锻炼
男 48 32 80
女 40 60 100
合计 88 92 180
对于A,由表可知,A显然错误;对于B,男生中经常锻炼的人数比女生中经常锻炼的人数多48-40=8,B正确;对于C,在经常锻炼者中男生的频率为≈0.545 5,在不经常锻炼者中男生的频率为≈0.347 8,≈1.6,C正确;对于D,零假设为H0:假期中学生是否经常锻炼与性别无关联,则χ2=≈7.115>6.635=x0.01,根据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为假期中学生是否经常锻炼与性别有关联,此推断犯错误的概率不大于0.01,D正确.故选BCD.
11.ABD [解析] 对于A,因为经验回归直线的斜率大于0,所以变量x,y具有正相关关系,故A正确;对于B,因为2.5<3,所以随x值增加相关变量y值的增加速度变小,故B正确;对于C,将=3代入=3x-3得=6,则去掉两个离群点后,得到的新的相关变量的平均值分别为==4,==8,所以重新求得的经验回归方程对应的直线一定过点(4,8),故C错误;对于D,=8-2.5×4=-2,此时的经验回归方程为=2.5x-2,故D正确.故选ABD.
12.35 [解析] 设男生人数为x,则女生人数为3x,所以女生中喜欢羽毛球运动的人数为x,男生中喜欢羽毛球运动的人数为x,所以得到的列联表如下:
单位:人
是否喜欢羽毛球运动 性别 合计
男 女
喜欢 x x x
不喜欢 x x x
合计 x 3x 4x
由χ2==>3.841=x0.05,解得x>31.688 25,又列联表中所有数据均为整数,所以x的最小值为35,故被调查的男生至少有35人.
13.e-2 [解析] 由已知可得,==5,==4,所以有4=1.2×5+,解得=-2,所以=1.2x-2,由z=ln y,得ln =1.2x-2,所以=e1.2x-2=e-2·e1.2x,则c=e-2.
14.解:(1)由频率分布直方图的性质可得0.05+a+b+c+0.35=1,即a+b+c=0.6,因为a,b,c成等差数列,所以2b=a+c,所以b=0.2,
又2c=3b,所以c=0.3,a=0.1,
所以=7.5×0.1+8.5×0.3+9.5×0.35+10.5×0.2+11.5×0.05=9.3.
(2)由甲地试验结果的频率分布直方图可得,抗疲劳次数超过9万次的零件个数为100×(0.35+0.2+0.05)=60,不超过9万次的个数为100-60=40,由乙地试验结果的频数分布表可得,抗疲劳次数超过9万次的零件个数为30+25+20=75,不超过9万次的零件个数为10+15=25,所以补全2×2列联表如下:
单位:个
地点 质量 合计
质量不优秀 质量优秀
甲地 40 60 100
乙地 25 75 100
合计 65 135 200
零假设为H0:零件质量与地点无关联,根据列联表中的数据,得χ2==≈5.128>3.841=x0.05,根据小概率值α=0.05的独立性检验,我们推断H0不成立,即认为零件质量与地点有关联,此推断犯错误的概率不大于0.05.
15.解:(1)由题意得=×(1+2+3+4+5)=3,
=×(10+12+17+20+26)=17,
xiyi=295,=55,(yi-)2=164,所以r=
=
=>0.75,
因此,y与x有较强的线性相关关系.
==
=4,=- =17-4×3=5,所以y关于x的经验回归方程为=4x+5.
(2)由题意知,100位购车车主中,男性车主有70位,女性车主有30位,购置新能源汽车的男性车主有30位,购置新能源汽车的女性车主有15位.
设A=“一位车主购得新能源汽车”,B=“车主是女性”,则一位车主购得新能源汽车,这位车主是女性的概率为P(B|A)===.
16.解:(1)依据散点图可以判断,y=ebx+a更适合作为未佩戴头盔人数y与x日的经验回归方程类型.
(2)由Yi=ln yi,得Y=ln(ebx+a)=bx+a,依题意得===-=-0.3,=-=1.9-(-0.3)×5.5=3.55,所以=-0.3x+3.55,即=e-0.3x+3.55.
(3)零假设为H0:市民骑电动自行车是否佩戴头盔与性别无关联.根据列联表中的数据,得χ2==≈3.636>2.706=x0.1,
根据小概率值α=0.1的独立性检验,我们推断H0不成立,即认为市民骑电动自行车是否佩戴头盔与性别有关联,此推断犯错误的概率不大于0.1.第59讲 成对数据的统计分析
【课标要求】 1.了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系,会通过样本相关系数比较多组成对数据的相关性.
2.了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,会用一元线性回归模型进行预测.
3.理解2×2列联表的统计意义,了解2×2列联表独立性检验及其应用.
一、经验回归分析
1.两个变量相关性的判断
(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
(2)正相关与负相关
从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现 的趋势,则称这两个变量正相关;当一个变量的值增加时,另一个变量的相应值呈现 的趋势,则称这两个变量负相关.
(3)线性相关关系:两个变量的取值呈现正相关或负相关,而且散点落在 附近,则称这两个变量线性相关.
(4)样本相关系数
(i)计算:
r==.
(ii)样本相关系数r的性质
①当r>0时,表明成对样本数据 ;当r<0时,表明成对样本数据 .
②当|r|越接近1时,成对样本数据的线性相关程度越 ;当|r|越接近0时,成对样本数据的线性相关程度越 .
2.一元线性回归模型
(1)线性经验回归方程:利用最小二乘法求得=x+,其中
(2)评价回归模型的优劣:
(i)利用残差平方和:(yi-)2,残差平方和越 ,拟合效果越好.
(ii)利用残差图:残差点分布在以 为对称轴的带状区域内,该区域越 ,拟合效果越好.
(iii)利用决定系数:R2=1-,决定系数越 ,拟合效果越好.
二、独立性检验
1.分类变量X,Y的2×2列联表
X Y 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
记n=a+b+c+d,则随机变量χ2=,χ2读作卡方.
2.独立性检验
(1)定义:利用随机变量 的取值推断两个分类变量X和Y是否 的方法称为独立性检验.
(2)独立性检验的基本步骤
①首先提出零假设H0:分类变量X和Y独立;
②列出分类变量X和Y的抽样数据列联表;
③利用公式计算随机变量χ2的值;
④把计算得到的χ2的值与小概率值α相应的临界值表中的临界值xα比较.
当χ2≥xα时,就推断H0不成立,即认为X与Y不独立,此推断犯错误的概率不大于α;
当χ2题组一 常识题
1.[教材改编] 以下是标号分别为①②③④的四幅散点图,它们的样本相关系数分别为r1,r2,r3,r4,那么样本相关系数的大小关系为 (按由小到大的顺序排列).
2.[教材改编] 某食品研究部门为了解一种酒品的储藏年份与芳香度之间的相关关系,在市场上收集到了一部分不同年份的该酒品,并测定了其芳香度(如下表).
年份x 0 1 4 5 6 8
芳香度y 1.3 1.8 5.6 7.4 9.3
由最小二乘法得到经验回归方程=1.03x+1.13,但不小心在检测后滴到表格上一滴检测液,污损了一个数据,请你推断该数据为 .
3.[教材改编] 第31届世界大学生夏季运动会于2023年7月28日至8月8日在成都举行,组委会安排了一些志愿者担任对外翻译工作.在下面关于志愿者是否会法语与性别的2×2列联表中,a+b+d= .
单位:人
性别 法语 合计
会法语 不会法语
男 a b 40
女 12 d
合计 36 100
题组二 常错题
◆索引:利用经验回归方程分析问题时,将所得的数据误认为是准确值;忽视经验回归直线必过点(,),但可能不过任何一个样本点;对于独立性检验的基本思想理解有误;不会根据小概率值判断两变量是否相互独立,什么时候相互独立.
4.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的经验回归方程为=0.85x-85.71,则下列结论中不正确的是 .(填序号)
①y与x具有正的线性相关关系;
②经验回归直线过点(,);
③若该大学某女生身高增加1 cm,则其体重约增加0.85 kg;
④若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg.
5.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录进行比较,提出零假设H0:这种血清不能起到预防感冒的作用,利用2×2列联表计算得χ2≈3.918,经查临界值表知x0.05=3.841,则下列结论中正确结论的序号是 .
①认为“这种血清能起到预防感冒的作用”犯错误的概率不超过0.05;②若某人未使用该血清,则他在一年中有95%的可能性患感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%.
6.在一项关于打鼾与患心脏病是否有关的调查中,共调查了1671人,经过计算得χ2≈7.63,则判断打鼾与患心脏病是 的(填“有关联”或“无关联”),该推断犯错误的概率不超过 .
下面的临界值表供参考:
α 0.10 0.05 0.010 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
成对数据的统计相关性
例1 (1)(多选题)分析某班学生的身高x(单位:cm)和体重y(单位:kg)的相关性时,随机抽取并测量了8人的身高和体重,数据如下表所示:
编号 1 2 3 4 5 6 7 8
身高x 165 168 170 172 173 174 175 177
体重y 55 89 61 65 67 70 75 75
用最小二乘法得到的经验回归直线l1的方程为=x+,决定系数为,数据的样本相关系数为r1.经过残差分析确定有一个样本点为离群点(对应残差绝对值过大),把它去掉后,再用剩下的7组数据得到的经验回归直线l2的方程为=x+,决定系数为,数据的样本相关系数为r2,则 ( )
A.r1
C.r1>r2 D.<
(2)(多选题)人口问题始终是战略性、全局性的问题.2022年末我国人口比上年末减少85万人,为多年来的首次人口负增长,其中生育率持续降低受到了人们的广泛关注.为促进人口长期均衡发展,国家制定了一系列优化生育政策:2016年正式全面开放二孩;2021年实施三孩生育政策,并配套生育支持措施.为了了解我国人均GDP x(单位:万元)与总和生育率y以及女性平均受教育年限z(单位:年)的关系,采用2013~2022十年来的数据(xi,yi,zi)(i=1,2,…,10)绘制了如图所示的散点图,并得到经验回归方程=7.54+0.33x,=2.89-0.21x,记数据(xi,yi)的样本相关系数为r1,数据(xi,zi)的样本相关系数为r2,则 ( )
A.人均GDP和女性平均受教育年限正相关
B.女性平均受教育年限和总和生育率负相关
C.|r1|>|r2|
D.假设人均GDP持续增长,则未来三年总和生育率一定会继续降低
总结反思
对两个变量的相关关系的判断有两个方法:
1.根据散点图进行判断,具有很强的直观性,直接得出两个变量是正相关或负相关,拟合效果的好坏也可由散点图直接判断;
2.计算样本相关系数法,样本相关系数能比较准确地反映相关程度,样本相关系数的绝对值越接近1,相关性就越强.
变式题 (1)已知r1表示变量X与Y之间的样本相关系数,r2表示变量U与V之间的样本相关系数,且r1=0.837,r2=-0.957,则 ( )
A.变量X与Y正相关,且X与Y之间的线性相关程度强于U与V之间的线性相关程度
B.变量X与Y负相关,且X与Y之间的线性相关程度强于U与V之间的线性相关程度
C.变量U与V负相关,且X与Y之间的线性相关程度弱于U与V之间的线性相关程度
D.变量U与V正相关,且X与Y之间的线性相关程度弱于U与V之间的线性相关程度
(2)[2024·山东新高考质量测评联盟质检] 某兴趣小组研究了光照时长x(单元:h)与向日葵种子发芽数量y(单位:颗)之间的关系,采集到5组数据,作出如图所示的散点图.去掉D(10,2)后,下列说法正确的是 ( )
A.样本相关系数r变小
B.样本相关系数r不变
C.残差平方和变大
D.解释变量x与响应变量y的线性相关程度变强
一元回归模型
角度1 线性回归模型
例2 中国能源生产量和消费量持续攀升,目前已经成为全球第一大能源生产国和消费国,能源安全是关乎国家经济社会发展的全局性、战略性问题,为了助力新形势下中国能源高质量发展和能源安全水平提升,发展和开发新能源是当务之急.近年来我国新能源汽车行业蓬勃发展,新能源汽车不仅对环境保护具有重大的意义,而且还能够减少对不可再生资源的开发,是全球汽车发展的重要方向.在政府和有关企业的努力下,某地区近几年新能源汽车的购买情况如下表所示:
年份x 2019 2020 2021 2022 2023
新能源汽车购买 数量y(万辆) 0.40 0.70 1.10 1.50 1.80
(1)计算样本相关系数r(保留三位小数);
(2)求y关于x的经验回归方程,并预测该地区2025年新能源汽车购买数量.
参考公式:r=, =, =-.
参考数值:≈3.605 6,(xi-)(yi-)=3.6.
总结反思
一元线性回归分析问题的解题步骤:
(1)求经验回归方程.
①根据散点图判断两变量是否线性相关(已知相关时不必再验证).
②利用公式,求出系数.
③利用经验回归直线过点(,)求系数.
(2)利用经验回归方程进行预测,把经验回归方程看作一次函数,求函数值作为预测值.
变式题 (1)(多选题)变量x,y之间的相关数据如下表所示,其经验回归直线=x+经过点(10,m),且相对于点(11,5)的残差为0.2,则 ( )
x 9 9.5 10 10.5 11
y 11 10 m 6 5
A.m=8 B.=-2.8
C.=36 D.残差和为0
(2)某工厂统计了某产品的原材料投入x(单位:万元)与利润y(单位:万元)之间的几组数据如下表:
原材料投入x 82 84 85 86 88
利润y 770 800 830 850 900
①根据经验可知原材料投入x与利润y之间具有线性相关关系,求利润y关于原材料投入x的经验回归方程;
②当原材料投入为100万元时,预测该产品的利润为多少万元
附:=,=-.
角度2 非线性回归模型
例3 某研发团队实现了从单点光谱仪到超光谱成像芯片的跨越.为制定下一年的研发投入计划,该研发团队需要了解年研发资金投入量x(单位:亿元)对年销售额y(单位:亿元)的影响.结合近12年的年研发资金投入量x和年销售额y,该团队建立了两个函数模型:①y=α+βx2,②y=eλx+t,其中α,β,λ,t均为常数,e为自然对数的底数.经对历史数据的初步处理,得到散点图如图.令ui=,vi=ln yi(i=1,2,…,12),计算得到如下数据.
(xi-)2 (yi-)2 (xi-)(vi-)
20 66 770 200 14
(ui-)2 (vi-)2 (ui-)(yi-)
460 4.20 3 125 000 0.308 21 500
(1)设变量u和变量y的样本相关系数为r1,变量x和变量v的样本相关系数为r2,请从样本相关系数的角度,选择一个y与x相关性较强的模型.
(2)(i)根据(1)的选择及表中数据,建立y关于x的经验回归方程(系数精确到0.01);
(ii)若下一年销售额需达到80亿元,预测下一年的研发资金投入量.
附:≈8.944 3,e4.382≈80,样本相关系数r=,经验回归方程=+x,其中=,=-.
总结反思
1.非线性回归分析问题的解题方法:借助散点图,确定合适的非线性回归模型,再通过变换,转化为求线性经验回归方程,最后还原.
2.常见非线性经验回归方程的变换方法:
=+(x-c)2→=+t(令t=(x-c)2);
=+ln(x-c)→=+t(令t=ln(x-c));
=+→=+t(令t=);
=+→=+t;
=·→ln =ln +xln b→=+x,其中
变式题 (1)根据散点图,对两个具有非线性相关关系的变量x,y进行回归分析,设u= ln y,v=(x-4)2,利用最小二乘法得到的经验回归方程为=-0.5v+2,则估计变量y的最大值是 ( )
A.e B.e2 C.ln 2 D.2ln 2
(2)某乡村企业希望通过技术革新增加产品收益,根据市场调研,技术革新投入经费x(单位:万元)和增加收益y(单位:万元)的数据如下表:
x 4 6 8 10 12
y 27 42 55 56 60
为了进一步了解技术革新投入经费x对增加收益y的影响,通过对表中数据进行分析,分别提出了两个回归模型:(i)=x+,(ii)=+.
①根据以上数据,计算模型(i)中y与x的样本相关系数r(结果精确到0.01);
②若0.95≤|r|≤1,则选择模型(i),否则选择模型(ii),根据①的结果,试建立增加收益y关于技术革新投入经费x的回归模型,并预测当x=16时y的值(结果精确到0.01).
附:经验回归方程=x+,其中==, =-,样本相关系数r=.
参考数据:设vi=,≈54.18,≈171.35,≈2.78,(vi-)2≈1.33,(vi-)(yi-)≈29.91.
独立性检验
例4 为了解学生中午的用餐方式(在食堂就餐或点外卖)与最近食堂间的距离的关系,某大学于某日中午随机调查了2000名学生,获得了下面的频率分布表(不完整),并且由该频率分布表可估计学生与最近食堂间的平均距离为370 m(同一组数据以该组数据所在区间的中点值作为代表).
学生与最近食堂间的距离 d(m) (0, 200] (200, 400] (400, 600] (600, 800] 合计
在食堂就餐频率 0.15 0.10 0.50
点外卖频率 0.20 0.50
合计 0.20 t 0.15 1.00
(1)求出t的值并补全频率分布表.
(2)根据频率分布表补全样本容量为2000的2×2列联表(如下表),依据小概率值α=0.001的独立性检验,能否认为学生中午的用餐方式与学生距最近食堂的远近有关联(当学生与最近食堂间的距离不超过400 m时,认为较近,否则认为较远)
单位:名
用餐方式 学生距最近食堂的远近 合计
学生距最近 食堂较近 学生距最近 食堂较远
在食堂就餐
点外卖
合计
附:χ2=,其中n=a+b+c+d.
α 0.1 0.01 0.001
xα 2.706 6.635 10.828
总结反思
独立性检验的一般步骤:
第一步,提出零假设H0:两个分类变量A和B无关联;
第二步,根据2×2列联表和公式计算χ2的值;
第三步,与临界值xα比较,作出判断.
变式题 (1)某校为了了解学生性别与对篮球运动的态度(喜欢或不喜欢)是否有关联,随机抽取200名同学进行了一次调查,其中被调查的男生和女生人数相同,根据调查结果得到如图所示的等高堆积条形图,则可以判断性别与对篮球运动的态度 (“有”或“没有”)关联.
(2)[2024·全国甲卷] 某工厂进行生产线智能化升级改造.升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
优级品 合格品 不合格品 总计
甲车间 26 24 0 50
乙车间 70 28 2 100
总计 96 52 2 150
①填写如下列联表:
优级品 非优级品
甲车间
乙车间
能否有95%的把握认为甲、乙两车间产品的优级品率存在差异 能否有99%的把握认为甲、乙两车间产品的优级品率存在差异
②已知升级改造前该工厂产品的优级品率p=0.5.设为升级改造后抽取的n件产品的优级品率.若>p+1.65,则认为该工厂产品的优级品率提高了.根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了 (≈12.247)
附:K2=,
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828第59讲 成对数据的统计分析
(时间:45分钟)
1.对于样本相关系数r,下列描述正确的是 ( )
A.r>0表明两个变量线性相关程度很强
B.r<0表明两个变量无关
C.|r|越接近1,表明两个变量线性相关程度越强
D.r越小,表明两个变量线性相关程度越弱
2.下面是一个2×2列联表,其中a,b的值分别为 ( )
X Y 合计
y1 y2
x1 a 21 73
x2 2 25 27
合计 b 46 100
A.52,54 B.54,52 C.94,146 D.146,94
3.下列四幅残差图对应的回归模型拟合效果最好的是 ( )
4.通过随机询问某中学110名中学生是否爱好跳绳,得到如下列联表: 单位:人
跳绳 性别 合计
男 女
爱好 40 20 60
不爱好 20 30 50
合计 60 50 110
已知χ2=,n=a+b+c+d.
α 0.05 0.01 0.005 0.001
xα 3.841 6.635 7.879 10.828
则以下结论正确的是 ( )
A.根据小概率值α=0.001的独立性检验,可以认为是否爱好跳绳与性别无关联
B.根据小概率值α=0.001的独立性检验,可以认为是否爱好跳绳与性别有关联
C.根据小概率值α=0.005的独立性检验,可以认为是否爱好跳绳与性别有关联
D.根据小概率值α=0.01的独立性检验,可以认为是否爱好跳绳与性别无关联
5.雨滴在下落过程中,受到的阻力随速度增大而增大,当速度增大到一定程度时,阻力与重力达到平衡,雨滴开始匀速下落,此时雨滴的下落速度称为“末速度”.某学习小组通过试验,得到了雨滴的末速度v(单位:m/s)与直径d(单位:mm)的一组数据,并绘制成如图所示的散点图,则在该试验条件下,下面四个回归方程类型中最适宜作为雨滴的末速度v与直径d的经验回归方程类型的是 ( )
A.v=a+b B.v=a+bd
C.v=a+bd2 D.v=a+bed
6.随着工业化以及城市车辆的增加,城市的空气污染越来越严重,空气质量指数(AQI)一直居高不下,对人体的呼吸系统造成了严重的影响.现调查了某市500名居民的工作场所和呼吸系统健康状况,得到2×2列联表如下,则χ2≈ .(结果精确到0.001)
单位:名
呼吸系统健康状况 工作场所 合计
室外工作 室内工作
有呼吸系统疾病 150
无呼吸系统疾病 100
合计 200
7.从某大学中随机选取8名女大学生,其身高x(单位:cm)与体重y(单位:kg)的数据如下表:
x 165 165 157 170 175 165 155 170
y 48 57 50 54 64 61 43 59
若已知y关于x的经验回归方程为=0.85x-85.71,那么选取的女大学生身高为175 cm时,相应的残差为 .
8.足球是一项大众喜爱的运动,某机构为了解是否喜爱足球是否与性别有关联,随机抽取了若干人进行调查,已知抽取的女性人数是男性的2倍,男性中喜爱足球的人数占男性人数的,女性中喜爱足球的人数占女性人数的.若本次调查得出“根据小概率值α=0.005的独立性检验,认为是否喜爱足球与性别有关联”的结论,则被调查的男性人数至少为 ( )
附:χ2=,n=a+b+c+d.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
A.10 B.11 C.12 D.13
9.已知关于变量x,y的一组数据如表所示:
x 6 8 10 12
y a 10 6 4
根据表中数据计算得到y关于x的经验回归方程为=-1.4x+20.6,变量x和变量y的样本相关系数为r,则 ( )
A.a=10 B.变量x,y正相关
C.r=- D.r=-
10.(多选题)[2025·吉林长春模拟] 暑假结束后,为了解假期中学生锻炼身体情况,学生处对所有在校学生做问卷调查,并随机抽取了180人的调查问卷,其中男生比女生少20人,并将调查结果绘制成如图所示的等高堆积条形图.
在被调查者中,下列说法正确的是 ( )
附:χ2=,其中n=a+b+c+d.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
A.男生中不经常锻炼的人数比女生中经常锻炼的人数多
B.男生中经常锻炼的人数比女生中经常锻炼的人数多8
C.经常锻炼者中男生的频率小于不经常锻炼者中男生的频率的2倍
D.根据小概率值α=0.01的独立性检验,可以认为假期中学生是否经常锻炼与性别有关联
11.(多选题)已知一组样本数据(xi,yi)(i=1,2,3,…,8),得到的经验回归方程为=3x-3,且=3,去除两个离群点(-1,3)和(1,-3)后,得到的新的经验回归方程中=2.5,则下列说法正确的是 ( )
A.变量x,y具有正相关关系
B.去除两个离群点后,随x值增加相关变量y值的增加速度变小
C.去除两个离群点后,重新求得的经验回归方程对应的直线一定过点(3,6)
D.去除两个离群点后,重新求得的经验回归方程为=2.5x-2
12.某校高二年级羽毛球社团为了解是否喜欢羽毛球运动是否与性别有关联,随机在高二年级抽取了若干人进行调查.已知抽取的女生人数是男生人数的3倍,女生中喜欢羽毛球运动的人数占女生人数的,男生中喜欢羽毛球运动的人数占男生人数的.若本次调查得出“在犯错误的概率不大于0.05的前提下,认为是否喜欢羽毛球运动与性别有关联”的结论,则被调查的男生至少有 人.
附:χ2=,n=a+b+c+d.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
13.某池塘中水生植物覆盖水塘的面积x(单位:dm2)与水生植物的株数y(单位:株)之间有相关关系,收集了4组数据,用模型y=cekx(c>0)去拟合x与y的关系,设z=ln y,x与z的数据如表格所示:
x 3 4 6 7
z 2 2.5 4.5 7
得到z关于x的经验回归方程为=1.2x+,则c= .
14.某专业机械生产厂为甲、乙两地(两地仅气候条件差异较大,其他条件相同)的两个不同机器生产厂配套生产同一种零件,在甲、乙两地分别任意选取100个零件进行抗疲劳破坏性试验,统计每个零件的抗疲劳次数(抗疲劳次数是指从开始试验到零件磨损至无法正常使用时的循环加载次数),将甲、乙两地的试验结果,即每个零件的抗疲劳次数(单位:万次)分别按[7,8],(8,9],(9,10],(10,11],(11,12]分组进行统计,甲地的试验结果整理为如图所示的频率分布直方图(其中a,b,c成等差数列,且2c=3b),乙地的统计结果整理为如下的频数分布表.
抗疲劳次数(单位:万次) [7,8] (8,9] (9,10] (10,11] (11,12]
频数 10 15 30 25 20
(1)求a,b,c的值并计算甲地试验结果的平均数;
(2)若零件抗疲劳次数超过9万次,则认为零件质量优秀,完成下列2×2列联表:
单位:个
地点 质量 合计
质量不优秀 质量优秀
甲地
乙地
合计
试根据上面完成的2×2列联表,依据小概率值α=0.05的独立性检验,分析零件质量是否与地点有关联.
附:χ2=,n=a+b+c+d.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
15.[2024·山东淄博二模] 我国近几年着重强调可持续发展,加大新能源项目的支持力度,积极推动新能源汽车产业迅速发展.某汽车制造企业对某地区新能源汽车的销售情况进行调查,得到如下的统计表:
年份t 2019 2020 2021 2022 2023
年份代码x(x=t-2018) 1 2 3 4 5
销量y(万辆) 10 12 17 20 26
(1)计算销量y关于年份代码x的样本相关系数r,并判断是否可以认为y与x有较强的线性相关关系(若|r|≥0.75,则认为有较强的线性相关关系) 若是,求出y关于x的经验回归方程;若不是,说明理由.
(2)为了解购车车主的性别与购车种类(分为新能源汽车与传统燃油汽车)的情况,该企业又随机调查了该地区100位购车车主的购车情况,假设一位车主只购一辆车.男性车主中购置传统燃油汽车的有40位,购置新能源汽车的有30位;女性车主中有一半购置新能源汽车.将频率视为概率,已知一位车主购得新能源汽车,求这位车主是女性的概率.
附:样本相关系数r=
=
;经验回归方程=x+中,==,=-.
16.[2024·湖南邵阳三模] 某市开展“安全随我行”活动,交警部门在某个交通路口增设电子抓拍眼,并记录了某月该路口1日至10日连续10天骑电动自行车未佩戴头盔的人数y与x日的情况,对统计得到的样本数据(xi,yi)(i=1,2,…,10)作了初步处理,得到下面的散点图及一些统计量的值.
xiyi xiYi
5.5 8.7 1.9 301 385 79.75
表中Yi=ln yi,=Yi.
(1)依据散点图推断y=bx+a与y=ebx+a哪一个更适合作为未佩戴头盔人数y与x日的经验回归方程类型 (给出判断即可,不必说明理由)
(2)依据(1)的结果和上表中的数据求出y关于x的经验回归方程.
(3)为了解佩戴头盔情况与性别的关联性,交警对该路口骑电动自行车的市民进行抽查,得到如下列联表:
单位:人
性别 佩戴头盔情况 合计
不佩戴 佩戴
女性 8 12 20
男性 14 6 20
合计 22 18 40
依据小概率值α=0.1的独立性检验,能否认为市民骑电动自行车是否佩戴头盔与性别有关联
附:=,=-,χ2=,其中n=a+b+c+d.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828(共151张PPT)
第59讲 成对数据的统计分析
课前基础巩固
课堂考点探究
教师备用习题
作业手册
答案核查【听】
答案核查【作】
【课标要求】 1.了解样本相关系数的统计含义,了解样本相关系数与
标准化数据向量夹角的关系,会通过样本相关系数比较多组成对数据
的相关性.
2.了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小
二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,会用一元
线性回归模型进行预测.
3.理解列联表的统计意义,了解 列联表独立性检验及其应用.
◆ 知识聚焦 ◆
一、经验回归分析
1.两个变量相关性的判断
(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个
去精确地决定另一个的程度,这种关系称为相关关系.
(2)正相关与负相关
从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现
______的趋势,则称这两个变量正相关;当一个变量的值增加时,另一
个变量的相应值呈现______的趋势,则称这两个变量负相关.
增加
减小
(3)线性相关关系:两个变量的取值呈现正相关或负相关,而且散点
落在__________附近,则称这两个变量线性相关.
一条直线
(4)样本相关系数
(ⅰ)计算:
.
(ⅱ)样本相关系数 的性质
①当时,表明成对样本数据________;当 时,表明成对样本数
据________.
②当越接近1时,成对样本数据的线性相关程度越____;当 越接近
0时,成对样本数据的线性相关程度越____.
正相关
负相关
强
弱
2.一元线性回归模型
(1)线性经验回归方程:利用最小二乘法求得 ,其中
(2)评价回归模型的优劣:
(ⅰ)利用残差平方和: ,残差平方和越____,拟合效果
越好.
(ⅱ)利用残差图:残差点分布在以______为对称轴的带状区域内,
该区域越____,拟合效果越好.
(ⅲ)利用决定系数: ,决定系数越____,拟合
效果越好.
小
横轴
窄
大
二、独立性检验
1.分类变量,的列联表
合计
合计
记,则随机变量, 读作卡方.
2.独立性检验
(1)定义:利用随机变量____的取值推断两个分类变量和 是否
______的方法称为独立性检验.
(2)独立性检验的基本步骤
①首先提出零假设分类变量和 独立;
②列出分类变量和 的抽样数据列联表;
③利用公式计算随机变量 的值;
④把计算得到的的值与小概率值 相应的临界值表中的临界值
比较.
独立
当 时,就推断不成立,即认为与 不独立,此推断犯错
误的概率不大于 ;
当 时,没有充分证据推断不成立,可以认为 成立,即
认为与 独立.
◆ 对点演练 ◆
题组一 常识题
1.[教材改编] 以下是标号分别为①②③④的四幅散点图,它们的
样本相关系数分别为,,, ,那么样本相关系数的大小关系为
________________(按由小到大的顺序排列).
[解析] 根据散点图可知,图①③中的样本数据正相关,图②④中的
样本数据负相关,,,, .
又图①②中的散点近似在一条直线上,则图①②中的样本数据的线
性相关程度比较高.
图③④中的散点比较分散,故图③④中的样本数据的线性相关程度比
较低,即与比较大,与比较小, .
2.[教材改编] 某食品研究部门为了解一种酒品的储藏年份与芳香
度之间的相关关系,在市场上收集到了一部分不同年份的该酒品,
并测定了其芳香度(如下表).
年份 0 1 4 5 6 8
芳香度 1.3 1.8 5.6 __________________________ 7.4 9.3
由最小二乘法得到经验回归方程 ,但不小心在检测
后滴到表格上一滴检测液,污损了一个数据,请你推断该数据为____.
6.1
[解析] 由表格数据知,设污损的数据为,则 ,
,解得 ,即污损的数据为6.1.
3.[教材改编] 第31届世界大学生夏季运动会于2023年7月28日至8
月8日在成都举行,组委会安排了一些志愿者担任对外翻译工作.在下
面关于志愿者是否会法语与性别的列联表中, ____.
单位:人
性别 法语 合计
会法语 不会法语
男 40
女 12
合计 36 100
88
[解析] 因为样本中志愿者的总人数为100,所以
,解得 .
题组二 常错题
◆ 索引:利用经验回归方程分析问题时,将所得的数据误认为是准确
值;忽视经验回归直线必过点 ,但可能不过任何一个样本点;对
于独立性检验的基本思想理解有误;不会根据小概率值判断两变量
是否相互独立,什么时候相互独立.
4.设某大学的女生体重(单位:)与身高(单位: )具有线
性相关关系,根据一组样本数据 ,用最小二乘
法建立的经验回归方程为 ,则下列结论中不正确
的是____.(填序号)
与 具有正的线性相关关系;
②经验回归直线过点 ;
③若该大学某女生身高增加,则其体重约增加 ;
④若该大学某女生身高为,则可断定其体重必为 .
④
[解析] 根据关于的经验回归方程,可知与 具
有正的线性相关关系,①中结论正确;
经验回归直线过点 ,②中结论正确;
由经验回归方程知,若该大学某女生身高增加 ,则其体重约增
加 ,故③中结论正确;
若该大学某女生身高为,则可预测其体重为,不可
断定其体重必为 ,故④中结论不正确.
5.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血
清的人与另外500名未使用血清的人一年中的感冒记录进行比较,提
出零假设这种血清不能起到预防感冒的作用,利用 列联表
计算得,经查临界值表知 ,则下列结论中正
确结论的序号是____.
①认为“这种血清能起到预防感冒的作用”犯错误的概率不超过0.05;
②若某人未使用该血清,则他在一年中有 的可能性患感冒;
③这种血清预防感冒的有效率为 ;
④这种血清预防感冒的有效率为 .
①
[解析] 因为 ,所以认为“这种血清能起到
预防感冒的作用”,这种推断犯错误的概率不超过 ,故①正确;
我们检验的是假设是否成立,与某人患感冒的可能性及该血清预防
感冒的有效率没有关系,不是同一个问题,故②③④错误.
6.在一项关于打鼾与患心脏病是否有关的调查中,共调查了1671人,
经过计算得 ,则判断打鼾与患心脏病是________的
(填“有关联”或“无关联”),该推断犯错误的概率不超过_____.
下面的临界值表供参考:
0.10 0.05 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
有关联
0.01
[解析] , 判断打鼾与患心脏病是有关
联的,该推断犯错误的概率不超过0.01.
探究点一 成对数据的统计相关性
例1(1)(多选题)分析某班学生的身高(单位:)和体重
(单位: )的相关性时,随机抽取并测量了8人的身高和体重,数
据如下表所示:
编号 1 2 3 4 5 6 7 8
身高 165 168 170 172 173 174 175 177
体重 55 89 61 65 67 70 75 75
用最小二乘法得到的经验回归直线的方程为 ,决定系
数为,数据的样本相关系数为 .经过残差分析确定有一个样本点
为离群点(对应残差绝对值过大),把它去掉后,再用剩下的7组数
据得到的经验回归直线的方程为,决定系数为 ,数
据的样本相关系数为 ,则( )
A. B. C. D.
√
√
[思路点拨]去掉离群点后成对样本数据的线性相关程度更强,新
的经验回归方程的拟合效果更好.
[解析] 去掉离群点后成对样本数据的线性相关程度更强,拟合效果
更好,且由题意可知,成对样本数据正相关,所以, .
A,D正确,故选 .
(2)(多选题)人口问题始终是战略性、全局性的问题.2022年末我
国人口比上年末减少85万人,为多年来的首次人口负增长,其中生
育率持续降低受到了人们的广泛关注.为促进人口长期均衡发展,国
家制定了一系列优化生育政策:2016年正式全面开放二孩;2021年
实施三孩生育政策,并配套生育支持措施.为了了解我国人均
(单位:万元)与总和生育率以及女性平均受教育年限
(单位:年)的关系,采用 十年来的数据
绘制了如图所示的散点图,并得到经验回归
方程,,记数据 的样本相关
系数为,数据的样本相关系数为 ,则( )
A.人均 和女性平均受教育年限正相关
B.女性平均受教育年限和总和生育率负相关
C.
D.假设人均 持续增长,则未来三年总和生育率一定会继续降低
√
√
[思路点拨]根据经验回归方程判断选项A;写出女性平均受教育年
限与总和生育率 的关系式,从而判断选项B;根据散点图中点的分
布判断选项C;由经验回归方程可预测未来的趋势,但实际值不一定
会继续降低,从而判断选项D.
因为, ,所以
,所以女性平均受教育
年限和总和生育率负相关,B正确.
由散点图可知,数据 的线性相关程度比数据的线性相关程
度弱,所以 ,C错误.
根据经验回归方程 可知,未来三年总和生育率有降低
的趋势,但不一定继续降低,D错误.故选 .
[解析] 由经验回归方程 可知,
人均 和女性平均受教育年限正相关,A正确.
[总结反思]
对两个变量的相关关系的判断有两个方法:
1.根据散点图进行判断,具有很强的直观性,直接得出两个变量是正相
关或负相关,拟合效果的好坏也可由散点图直接判断;
2.计算样本相关系数法,样本相关系数能比较准确地反映相关程度,样
本相关系数的绝对值越接近1,相关性就越强.
变式题(1)已知表示变量与之间的样本相关系数, 表示变量
与之间的样本相关系数,且, ,则( )
A.变量与正相关,且与之间的线性相关程度强于与 之间的
线性相关程度
B.变量与负相关,且与之间的线性相关程度强于与 之间的
线性相关程度
C.变量与负相关,且与之间的线性相关程度弱于与 之间的
线性相关程度
D.变量与正相关,且与之间的线性相关程度弱于与 之间的
线性相关程度
√
[解析] 因为,,所以变量与 正相关,变量
与负相关,且与之间的线性相关程度弱于与 之间的线性相
关程度.故选C.
(2)[2024·山东新高考质量测评联盟质检]某兴趣小组研究了光照时
长(单元:)与向日葵种子发芽数量 (单位:颗)之间的关系,
采集到5组数据,作出如图所示的散点图.去掉 后,下列说
法正确的是( )
A.样本相关系数 变小
B.样本相关系数 不变
C.残差平方和变大
D.解释变量与响应变量 的线性相关程度
变强
√
[解析] 由题中图可以看出 距离其他
点较远,且其他点大致分布在一条斜率为
正数的直线附近,所以去掉 后,成对样
本数据的线性相关程度变强.因为成对样本
数据正相关,所以去掉 后,样本相关系
数变大,A,B错误.
去掉 后,成对样本数据的线性相关程度变强,所以残差平方和变小,
解释变量 与响应变量 的线性相关程度变强,故C错误,D正确.
故选D.
探究点二 一元回归模型
角度1 线性回归模型
例2 中国能源生产量和消费量持续攀升,目前已经成为全球第一大能
源生产国和消费国,能源安全是关乎国家经济社会发展的全局性、战
略性问题,为了助力新形势下中国能源高质量发展和能源安全水平提
升,发展和开发新能源是当务之急.近年来我国新能源汽车行业蓬勃发
展,新能源汽车不仅对环境保护具有重大的意义,而且还能够减少对
不可再生资源的开发,是全球汽车发展的重要方向.在政府和有关企业
的努力下,某地区近几年新能源汽车的购买情况如下表所示:
年份 2019 2020 2021 2022 2023
新能源汽车购买数量 (万辆) 0.40 0.70 1.10 1.50 1.80
(1)计算样本相关系数 (保留三位小数);
[思路点拨]利用所提供数据求,,, ,
代入参考公式求 即可;
解: 2021,
,
,
,
所以 .
(2)求关于 的经验回归方程,并预测该地区2025年新能源汽车购
买数量.
参考公式:,, .
参考数值:, .
[思路点拨]结合公式求, ,由此可得经验回归方程,再利用经
验回归方程进行预测.
解:由(1)知 ,
,
所以关于 的经验回归方程是,
当 时, ,
所以预测该地区2025年新能源汽车购买数量为2.54万辆.
[总结反思]
一元线性回归分析问题的解题步骤:
(1)求经验回归方程.
①根据散点图判断两变量是否线性相关(已知相关时不必再验证).
②利用公式,求出系数.
③利用经验回归直线过点求系数.
(2)利用经验回归方程进行预测,把经验回归方程看作一次函数,求
函数值作为预测值.
变式题(1)(多选题)变量, 之间的相关数据如下表所示,其经
验回归直线经过点,且相对于点 的残差为
,则( )
9 9.5 10 10.5 11
11 10 6 5
A. B. C. D.残差和为0
√
√
[解析] 因为经验回归直线经过点 ,所以,
因为相对于点 的残差为所以
所以 ,故A正确,B错误,C错误;
,当 时,,
当时, ,
当时,,
当 时,,
当 时, ,
所以残差和为 ,
故D正确.故选 .
(2)某工厂统计了某产品的原材料投入(单位:万元)与利润
(单位:万元)之间的几组数据如下表:
原材料投入 82 84 85 86 88
利润 770 800 830 850 900
①根据经验可知原材料投入与利润 之间具有线性相关关系,求利
润关于原材料投入 的经验回归方程;
解:设利润关于原材料投入的经验回归方程为 ,
由已知得 ,
, ,
,
所以 ,
所以利润关于原材料投入的经验回归方程为 .
②当原材料投入为100万元时,预测该产品的利润为多少万元?
附:, .
解:由(1)知,当时, ,
所以当原材料投入为100万元时,预测该产品的利润为1160万元.
角度2 非线性回归模型
例3 某研发团队实现了从单点光谱仪到超光谱成
像芯片的跨越.为制定下一年的研发投入计划,
该研发团队需要了解年研发资金投入量
(单位:亿元)对年销售额 (单位:亿元)的
影响.结合近12年的年研发资金投入量和年销售额 ,该团队建立了两
个函数模型:,,其中 , , , 均为常数,
为自然对数的底数.经对历史数据的初步处理,得到散点图如图.令
, ,计算得到如下数据.
20 66 770 200 14
460 4.20 3 125 000 0.308 21 500
(1)设变量和变量的样本相关系数为,变
量和变量 的样本相关系数为,请从样本相关
系数的角度,选择一个与 相关性较强的模型.
解:由题意知 ,
.
[思路点拨]分别将表中数据代入样本相关系数公式求出, ,比
较大小即可判断.
因为 ,所以 ,
故从样本相关系数的角度,模型中 与 的相关性较强.
(2)(ⅰ)根据(1)的选择及表中数据,建立关于 的经验回归方程
(系数精确到 );
[思路点拨]由两边取对数,换元得 ,由表中数
据分别求和,得经验回归方程 ,利用指数式和对
数式的互化,即得 ;
解:由,得 ,即 .
因为 ,
所以,
故关于 的经验回归方程为,即,
所以 .
(ⅱ)若下一年销售额需达到80亿元,预测下一年的研发资金投入量.
附:, ,样本相关系数,
经验回归方程 ,其中, .
[思路点拨]将 代入经验回归方程即可预测下一年的研发资
金投入量.
解:将代入,得 ,
又,所以,解得 ,
故预测下一年的研发资金投入量约为27.1亿元.
[总结反思]
1.非线性回归分析问题的解题方法:借助散点图,确定合适的非线性
回归模型,再通过变换,转化为求线性经验回归方程,最后还原.
2.常见非线性经验回归方程的变换方法:
(令 );
(令 );
(令 );
;
,其中
变式题(1)根据散点图,对两个具有非线性相关关系的变量, 进
行回归分析,设, ,利用最小二乘法得到的经
验回归方程为,则估计变量 的最大值是( )
A. B. C. D.
[解析] 将,代入经验回归方程 得
,即.
当 时,取得最大值2,则此时取得最大值 .
故选B.
√
(2)某乡村企业希望通过技术革新增加产品收益,根据市场调研,
技术革新投入经费(单位:万元)和增加收益 (单位:万元)的
数据如下表:
4 6 8 10 12
27 42 55 56 60
为了进一步了解技术革新投入经费对增加收益 的影响,通过对表
中数据进行分析,分别提出了两个回归模型: ,
.
①根据以上数据,计算模型中与的样本相关系数 (结果精确到
);
解:因为 ,
,
所以 ,
,
.
模型中,样本相关系数 .
②若,则选择模型,否则选择模型 ,根据①的结
果,试建立增加收益关于技术革新投入经费 的回归模型,并预测
当时的值(结果精确到 ).
附:经验回归方程 ,其中,
,样本相关系数 .
参考数据:设,, ,
,, .
解:因为,所以选择模型.
令,先建立 关于的经验回归方程,
由于 ,
,
所以关于 的经验回归方程为,
即,
当 时,,
所以当时, 的预测值为75.44.
探究点三 独立性检验
例4 为了解学生中午的用餐方式(在食堂就餐或点外卖)与最近食堂间的
距离的关系,某大学于某日中午随机调查了2000名学生,获得了下面的
频率分布表(不完整),并且由该频率分布表可估计学生与最近食堂间的
平均距离为 (同一组数据以该组数据所在区间的中点值作为代表).
学生与最近食堂间的距离 合计
在食堂就餐频率 0.15 0.10 0.50
点外卖频率 0.20 0.50
合计 0.20 0.15 1.00
(1)求出 的值并补全频率分布表.
解:组的频率为 ,
估计学生与最近食堂间的平均距离
,解得 ,所以补全频率分布表如下:
[思路点拨]利用频率分布表估算平均数的方法列式计算即得 的值,
再补全频率分布表.
学生与最近食堂间的距离 合计
在食堂就餐频率 0.15 0.20 0.10 0.05 0.50
点外卖频率 0.05 0.20 0.15 0.10 0.50
合计 0.20 0.40 0.25 0.15 1.00
(2)根据频率分布表补全样本容量为2000的 列联表
(如下表),依据小概率值 的独立性检验,能否认为学生
中午的用餐方式与学生距最近食堂的远近有关联(当学生与最近食
堂间的距离不超过 时,认为较近,否则认为较远)?
单位:名
用餐方式 学生距最近食堂的远近 合计
学生距最近食堂较近 学生距最近食堂较远
在食堂就餐
点外卖
合计
附:,其中 .
0.1 0.01 0.001
2.706 6.635 10.828
[思路点拨]由(1)补全列联表,计算 的观测值,即可回答结论.
解:由(1)知,2000名学生中距最近食堂较近的有
(名),其中在食堂就餐的有 (名),
距最近食堂较远的学生中,在食堂就餐的有 (名).
因此补全 列联表如下:
单位:名
用餐方式 学生距最近食堂的远近 合计
学生距最近食堂较近 学生距最近食堂较远
在食堂就餐 700 300 1000
点外卖 500 500 1000
合计 1200 800 2000
零假设为 学生中午的用餐方式与学生距最近食堂的远近无关联,
则 ,
根据小概率值的独立性检验,我们推断 不成立,
即认为学生中午的用餐方式与学生距最近食堂的远近有关联,此推
断犯错误的概率不大于0.001.
[总结反思]
独立性检验的一般步骤:
第一步,提出零假设两个分类变量和无关联;
第二步,根据列联表和公式计算的值;
第三步,与临界值 比较,作出判断.
变式题(1)某校为了了解学生性别与对篮球运动的态度(喜欢或
不喜欢)是否有关联,随机抽取200名同学进行了一次调查,其中
被调查的男生和女生人数相同,根据调查结果得到如图所示的等高
堆积条形图,则可以判断性别与对篮球运动的态度____(“有”或“没
有”)关联.
有
[解析] 由等高堆积条形图可以看
出,喜欢篮球运动的男生比例比
喜欢篮球运动的女生比例大很多,
因此可以判断性别与对篮球运动
的态度有关联.
(2)[2024·全国甲卷] 某工厂进行生产线智能化升级改造.升级改造
后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数
据如下:
优级品 合格品 不合格品 总计
甲车间 26 24 0 50
乙车间 70 28 2 100
总计 96 52 2 150
①填写如下列联表:
优级品 非优级品
甲车间
乙车间
能否有 的把握认为甲、乙两车间产品的优级品率存在差异?能
否有 的把握认为甲、乙两车间产品的优级品率存在差异?
解:将表格补充完整为
优级品 非优级品
甲车间 26 24
乙车间 70 30
的观测值 .
因为,所以有 的把握认为甲、乙两车间产品的优
级品率存在差异.
因为,
所以没有 的把握认为甲、乙两车间产品的优级品率存在差异.
②已知升级改造前该工厂产品的优级品率.设 为升级改造后
抽取的件产品的优级品率.若 ,则认为该工厂产
品的优级品率提高了.根据抽取的150件产品的数据,能否认为生产线
智能化升级改造后,该工厂产品的优级品率提高了?
附: ,
0.050 0.010 0.001
3.841 6.635 10.828
解:由题意可知,生产线智能化升级改造后,该工厂产品的优级品
的频率为,用频率估计概率可得 .
又因为升级改造前该工厂产品的优级品率 ,所以
,
可知 ,
所以可以认为生产线智能化升级改造后,该工厂产品的优级品率提
高了.
【备选理由】例1是成对数据的统计相关性判断及应用;
例1 [配例1使用] (多选题)[2024·长春模拟] 已知变量和变量
的一组成对样本数据 的散点落在一条直线附
近,,,样本相关系数为 ,经验回归方程为
,则( )
参考公式:, .
A.当 越大时,成对样本数据的线性相关程度越强
B.当时,
C.当, 时,成对样本数据
的样本相关系数满足
D.当, 时,成对样本数据
的经验回归方程满足
√
√
√
[解析] 对于A,当 越接近1时,成对样本数据的线性相关程度越强,
故A错误;
对于B,当 时,成对样本数据正相关,样本相关系数与符号
相同,则,故B正确;
对于C,当, 时,将这组数据添加后,, 不变,故
样本相关系数的表达式中的分子和分母均不变,故,故C正确;
对于D,当 ,时,将这组数据添加后,, 不变,故
经验回归方程中的斜率的表达式中的分子和分母均不变,所以,
故D正确.故选 .
例2 [配例2使用] 为调查某地区植被覆盖面积 (单位:公顷)与
野生动物数量 的关系,某研究小组将该地区等面积划分为200个区
块,从中随机抽取20个区块,得到样本数据 ,
部分数据如下:
… 2.7 3.6 3.2 …
… 57.8 64.7 62.6 …
经计算得,, ,
.
【备选理由】例2是线性回归分析问题;
(1)利用最小二乘法建立关于 的经验回归方程.
解:由题意可知, ,
, ,
故关于的经验回归方程为 .
(2)记关于的经验回归直线为,该小组又利用这组数据建立了
关于的经验回归方程,记关于的经验回归直线为 ,并把这两条
拟合直线画在同一坐标系中,横坐标,纵坐标 的意义与植被
覆盖面积和野生动物数量 一致.
比较与 的斜率大小,并说明理由;
求这两条直线的公共点坐标.
附:关于的经验回归方程中, ,
,样本相关系数 .
解:设,的斜率分别为, ,
关于的经验回归方程为,则 ,
, .
,理由如下.
,, ,, ,
假设,则,即 恒成立,
将表格中的一对数据代入上式得 ,与
恒成立矛盾,故假设不成立,
则 .
解根据经验回归直线的求解过程可知两条直线都过点 ,
又 ,故这两条直线的公共点坐标为,即 .
求这两条直线的公共点坐标.
例3 [配例3使用] 某大型现代化农
场在种植某种大棚有机无公害的蔬菜
时,为创造更大价值,提高亩产量,
积极开展技术创新活动.该农场采用了
延长光照时间的方案,该农场选取了
20间大棚(每间一亩)进行试点,得
到各间大棚产量数据并绘制成散点图. 光照时长为 (单位:小时),大
棚蔬菜产量为(单位:千斤每亩),记 .
【备选理由】例3是非线性回归分析问题;
290 102.4 52 4870 540.28 137 1578.2 272.1
参考数据:
参考公式:关于的经验回归方程中, ,
.
(1)根据散点图判断, 与 哪一个更适宜作
为该种大棚蔬菜产量关于光照时长 的回归方程类型(给出判断即
可,不必说明理由);
解: 更适宜作为该种大棚蔬菜产量关于光照时长 的
回归方程类型.
(2)根据(1)的判断结果及表中数据,建
立关于 的经验回归方程(结果保留小数点
后两位);
解:因为,,
所以 .
, ,
,
,
所以 ,即 .
(3)根据实际种植情况,发现上述经验回归方程在光照时长位于6
小时 小时内时拟合程度良好,利用(2)中所求方程估计当光照
时长为小时时( 为自然对数的底数),该种大棚蔬菜亩产量为多少.
解:当时, ,
即估计该种大棚蔬菜亩产量为3.16千斤.
例4 [配例2、例4使用] 小家电一般指除大功率、大体积家用电器
(如冰箱、洗衣机、空调等)以外的家用电器,其应用场景比较广
泛,近年来随着科技发展,智能小家电市场规模呈持续发展趋势,
下表为连续5年中国智能小家电市场规模(单位:千亿元)与年份代
码的一组数据.
年份代码 1 2 3 4 5
市场规模 0.9 1.2 1.5 1.4 1.6
【备选理由】例4是独立性检验与线性回归分析的综合问题.
(1)由上表数据可知,可用线性回归模型拟合与 的关系,请用样
本相关系数加以说明(设样本相关系数为,若 ,则说明两
变量间的线性相关程度较高);
解:由已知得, ,
, ,
,
所以 .
因为,所以与 的线性相关程度较高,可以用线性回归
模型拟合与 的关系.
(2)建立关于 的经验回归方程;
解:由题意得 ,
又由(1)得 ,
所以 ,
,
故关于的经验回归方程为 .
(3)某传媒公司为了了解中国智能小家电消费者的年龄分布,随机
调查了200名消费者,统计这200名消费者的年龄,按照青少年与中
老年分为两组,得到如下 列联表:
单位:人
购买智能小家电 年龄 合计
青少年 中老年
喜欢 80
不喜欢 60
合计 110 200
依据小概率值 的独立性检验,能否认为是否喜欢购买智能
小家电与年龄有关联?
参考数据:,,, .
参考公式:样本相关系数 ,经验回归直线
的斜率和截距的最小二乘估计分别为 ,
.
, .
附:
0.1 0.01 0.001
2.706 6.635 10.828
解:由题意可得 列联表如下,
单位:人
购买智能小家电 年龄 合计
青少年 中老年
喜欢 80 30 110
不喜欢 30 60 90
合计 110 90 200
零假设为 是否喜欢购买智能小家电与年龄无关联.
由表中数据可得 ,
依据小概率值的独立性检验,我们推断 不成立,即认为是否喜
欢购买智能小家电与年龄有关联,此推断犯错误的概率不大于0.001.
作业手册
◆ 基础热身 ◆
1.对于样本相关系数 ,下列描述正确的是( )
A. 表明两个变量线性相关程度很强
B. 表明两个变量无关
C. 越接近1,表明两个变量线性相关程度越强
D. 越小,表明两个变量线性相关程度越弱
[解析] 若为正,则两个变量正相关,若为负,则两个变量负相关. 越
接近1,表明两个变量线性相关程度越强, 越接近0,表明两个变量线
性相关程度越弱.故选C.
√
2.下面是一个列联表,其中, 的值分别为( )
合计
21 73
2 25 27
合计 46 100
A.52,54 B.54,52 C.94,146 D.146,94
[解析] 由题意可得解得所以, 的值分别为
52,54.故选A.
√
3.下列四幅残差图对应的回归模型拟合效果最好的是( )
A. B.
C. D.
√
[解析] 残差平方和越小,说明模型的拟合效果越好,显然D选项的
拟合效果最好.故选D.
4.通过随机询问某中学110名中学生是否爱好跳绳,得到如下列联表:
单位:人
跳绳 性别 合计
男 女
爱好 40 20 60
不爱好 20 30 50
合计 60 50 110
已知, .
0.05 0.01 0.005 0.001
3.841 6.635 7.879 10.828
则以下结论正确的是( )
A.根据小概率值 的独立性检验,可以认为是否爱好跳绳与
性别无关联
B.根据小概率值 的独立性检验,可以认为是否爱好跳绳与
性别有关联
C.根据小概率值 的独立性检验,可以认为是否爱好跳绳与
性别有关联
D.根据小概率值 的独立性检验,可以认为是否爱好跳绳与
性别无关联
√
[解析] 由题知 .因为
,所以根据小概率值 的独立性检验,可以认为是否
爱好跳绳与性别无关联,故A正确,B错误;
因为 ,所以根据小概率值 的独立性
检验,可以认为是否爱好跳绳与性别无关联,故C错误;
因为 ,所以根据小概率值 的独立性检
验,可以认为是否爱好跳绳与性别有关联,故D错误.
故选A.
5.雨滴在下落过程中,受到的阻力随速度增大
而增大,当速度增大到一定程度时,阻力与重
力达到平衡,雨滴开始匀速下落,此时雨滴的
下落速度称为“末速度”.某学习小组通过试验,
得到了雨滴的末速度(单位:)与直径
(单位: )的一组数据,并绘制成如图所示的散点图,则在该试
验条件下,下面四个回归方程类型中最适宜作为雨滴的末速度与直
径 的经验回归方程类型的是( )
A. B. C. D.
√
[解析] 由一次函数、二次函数及指数函数的性质可知,B,C,D不
符合散点的变化趋势.
由散点图分布可知,散点图分布在一个幂函数的图象附近,因此,最
适宜作为雨滴的末速度与直径 的经验回归方程类型的是 .
故选A.
6.随着工业化以及城市车辆的增加,城市的空气污染越来越严重,空
气质量指数 一直居高不下,对人体的呼吸系统造成了严重的影
响.现调查了某市500名居民的工作场所和呼吸系统健康状况,得到
列联表如下,则 ______.(结果精确到 )
单位:名
呼吸系统健康状况 工作场所 合计
室外工作 室内工作
有呼吸系统疾病 150
无呼吸系统疾病 100
合计 200
3.968
[解析] 补全列联表:
单位:名
呼吸系统健康状况 工作场所 合计
室外工作 室内工作
有呼吸系统疾病 150 200 350
无呼吸系统疾病 50 100 150
合计 200 300 500
则 .
7.从某大学中随机选取8名女大学生,其身高(单位:)与体重
(单位: )的数据如下表:
165 165 157 170 175 165 155 170
48 57 50 54 64 61 43 59
若已知关于的经验回归方程为 ,那么选取的女
大学生身高为 时,相应的残差为_____.
0.96
[解析] 令,得,所以残差为 .
综合提升
8.足球是一项大众喜爱的运动,某机构为了解是否喜爱足球是否与性别有关
联,随机抽取了若干人进行调查,已知抽取的女性人数是男性的2倍, 男性中
喜爱足球的人数占男性人数的,女性中喜爱足球的人数占女性人数的 .若
本次调查得出“根据小概率值 的独立性检验,认为是否喜爱足球
与性别有关联”的结论,则被调查的男性人数至少为 ( )
附:, .
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
A.10 B.11 C.12 D.13
√
[解析] 设被调查的男性人数为,则女性人数为 ,根据题意可得列联
表如下:
单位:人
态度 性别 合计
男 女
喜爱足球
不喜爱足球
合计
则,因为根据小概率值 的独立性检验,
认为是否喜爱足球与性别有关联,所以 ,即
,解得 ,又因为列联表中的所有数据均为整数,
所以 的最小值为12.故选C.
9.已知关于变量, 的一组数据如表所示:
6 8 10 12
10 6 4
根据表中数据计算得到关于的经验回归方程为 ,
变量和变量的样本相关系数为 ,则( )
A. B.变量, 正相关
C. D.
√
[解析] 因为经验回归直线必过点, ,所以
,解得 ,所以选项A错误;
由经验回归方程可知,变量, 负相关,所以选项B错误;
样本相关系数
,所以选项C正确,选项D错误.故选C.
10.(多选题)[2025·吉林长春模拟] 暑假结束后,为了解假期中学
生锻炼身体情况,学生处对所有在校学生做问卷调查,并随机抽取
了180人的调查问卷,其中男生比女生少20人,并将调查结果绘制
成如图所示的等高堆积条形图.在被调查者中,下列说法正确的是
( )
A.男生中不经常锻炼的人数比女生中经常锻炼的人数多
B.男生中经常锻炼的人数比女生中经常锻炼的人数多8
C.经常锻炼者中男生的频率小于不经常锻炼者中男生的频率的2倍
D.根据小概率值 的独立性检验,可以认为假期中学生是否
经常锻炼与性别有关联
√
√
√
附:,其中 .
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
[解析] 设男生人数为 ,则女生人数为
,由题得 ,解
得 ,即在被调查者中,男生、
女生人数分别为80,100,可得到如下 列联表.
单位:人
性别 锻炼情况 合计
经常锻炼 不经常锻炼
男 48 32 80
女 40 60 100
合计 88 92 180
对于A,由表可知,A显然错误;
对于B,男生中经常锻炼的人数比女生
中经常锻炼的人数多 ,B正确;
对于C,在经常锻炼者中男生的频率为
,在不经常锻炼者中男生的频率为 ,C正确;
对于D,零假设为 假期中学生是否经常锻炼与性别无关联,则
,根据小概率值
的独立性检验,我们推断 不成立,即认为假期中学生是否经常锻炼与性别有关联,此推断犯错误的概率不大于,D正确.
故选 .
11.(多选题)已知一组样本数据 ,得到的经
验回归方程为,且,去除两个离群点 和
后,得到的新的经验回归方程中 ,则下列说法正确的
是( )
A.变量, 具有正相关关系
B.去除两个离群点后,随值增加相关变量 值的增加速度变小
C.去除两个离群点后,重新求得的经验回归方程对应的直线一定过
点
D.去除两个离群点后,重新求得的经验回归方程为
√
√
√
[解析] 对于A,因为经验回归直线的斜率大于0,所以变量, 具有
正相关关系,故A正确;
对于B,因为,所以随 值增加相关变量值的增加速度变小,
故B正确;
对于C,将 代入得 ,则去掉两个离群点后,得
到的新的相关变量的平均值分别为, ,所以重
新求得的经验回归方程对应的直线一定过点 ,故C错误;
对于D,,此时的经验回归方程为 ,
故D正确.故选 .
12.某校高二年级羽毛球社团为了解是否喜欢羽毛球运动是否与性别
有关联,随机在高二年级抽取了若干人进行调查.已知抽取的女生人
数是男生人数的3倍,女生中喜欢羽毛球运动的人数占女生人数的 ,
男生中喜欢羽毛球运动的人数占男生人数的 .若本次调查得出“在犯
错误的概率不大于0.05的前提下,认为是否喜欢羽毛球运动与性别有
关联”的结论,则被调查的男生至少有____人.
附:, .
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
35
[解析] 设男生人数为,则女生人数为 ,所以女生中喜欢羽毛球
运动的人数为,男生中喜欢羽毛球运动的人数为 ,所以得到的
列联表如下:
单位:人
是否喜欢羽毛球 运动 性别 合计
男 女
喜欢
不喜欢
合计
由,解得 ,
又列联表中所有数据均为整数,所以 的最小值为35,故被调查的男生
至少有35人.
13.某池塘中水生植物覆盖水塘的面积(单位: )与水生植物的
株数 (单位:株)之间有相关关系,收集了4组数据,用模型
去拟合与的关系,设,与 的数据如表格所示:
3 4 6 7
2 2.5 4.5 7
得到关于的经验回归方程为,则 ____.
[解析] 由已知可得,, ,所以有
,解得,所以,
由 ,得,所以,则 .
14.某专业机械生产厂为甲、乙两地
(两地仅气候条件差异较大,其他条
件相同)的两个不同机器生产厂配套
生产同一种零件,在甲、乙两地分别
任意选取100个零件进行抗疲劳破坏性
试验,统计每个零件的抗疲劳次数
(抗疲劳次数是指从开始试验到零件磨损至无法正常使用时的循环加载
次数),将甲、乙两地的试验结果,即每个零件的抗疲劳次数
(单位:万次)分别按, ,
,, 分组进行统计,
甲地的试验结果整理为如图所示的频
率分布直方图(其中,, 成等差数列,
且 ),乙地的统计结果整理为
如下的频数分布表.
抗疲劳次数(单位:万次)
频数 10 15 30 25 20
(1)求,, 的值并计算甲地试验结果的平
均数 ;
解:由频率分布直方图的性质可得
,即
,因为,, 成等差数列,
所以,所以 ,
又,所以, ,
所以 .
(2)若零件抗疲劳次数超过9万次,则认为零件质量优秀,完成下
列 列联表:
单位:个
地点 质量 合计
质量不优秀 质量优秀
甲地
乙地
合计
试根据上面完成的列联表,依据小概率值 的独立性检
验,分析零件质量是否与地点有关联.
附:, .
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
解:由甲地试验结果的频率分布直方图可得,抗疲劳次数超过9万次
的零件个数为 ,不超过9万次的个数
为 ,由乙地试验结果的频数分布表可得,抗疲劳次数
超过9万次的零件个数为 ,不超过9万次的零件个
数为,所以补全 列联表如下:
单位:个
地点 质量 合计
质量不优秀 质量优秀
甲地 40 60 100
乙地 25 75 100
合计 65 135 200
零假设为 零件质量与地点无关联,根据列联表中的数据,得
,根据小概率
值的独立性检验,我们推断 不成立,即认为零件质量与
地点有关联,此推断犯错误的概率不大于0.05.
15.[2024·山东淄博二模] 我国近几年着重强调可持续发展,加大新能
源项目的支持力度,积极推动新能源汽车产业迅速发展.某汽车制造企
业对某地区新能源汽车的销售情况进行调查,得到如下的统计表:
年份 2019 2020 2021 2022 2023
年份代码 1 2 3 4 5
销量 (万辆) 10 12 17 20 26
(1)计算销量关于年份代码的样本相关系数 ,并判断是否可以认
为与有较强的线性相关关系(若 ,则认为有较强的线性
相关关系)?若是,求出关于 的经验回归方程;若不是,说明理由.
解:由题意得 ,
,
,, ,所以
,
因此,与 有较强的线性相关关系.
, ,
所以关于的经验回归方程为 .
(2)为了解购车车主的性别与购车种类(分为新能源汽车与传统燃
油汽车)的情况,该企业又随机调查了该地区100位购车车主的购车
情况,假设一位车主只购一辆车.男性车主中购置传统燃油汽车的有
40位,购置新能源汽车的有30位;女性车主中有一半购置新能源汽
车.将频率视为概率,已知一位车主购得新能源汽车,求这位车主是
女性的概率.
附:样本相关系数 ;
经验回归方程中, ,
.
解:由题意知,100位购车车主中,男性车主有70位,女性车主有30
位,购置新能源汽车的男性车主有30位,购置新能源汽车的女性车
主有15位.
设“一位车主购得新能源汽车”, “车主是女性”,则一位车主
购得新能源汽车,这位车主是女性的概率为
.
能力拓展
16.[2024·湖南邵阳三模] 某市开展“安全
随我行”活动,交警部门在某个交通路
口增设电子抓拍眼,并记录了某月该路
口1日至10日连续10天骑电动自行车未
佩戴头盔的人数与 日的情况,对统计
得到的样本数据 作了初步处理,得到下面的散点
图及一些统计量的值.
5.5 8.7 1.9 301 385 79.75
表中, .
(1)依据散点图推断 与
哪一个更适合作为未佩戴头
盔人数与 日的经验回归方程类型?
(给出判断即可,不必说明理由)
解:依据散点图可以判断,
更适合作为未佩戴头盔人数与 日的经
验回归方程类型.
(2)依据(1)的结果和上表中的数据
求出关于 的经验回归方程.
解:由 ,得
,依题意得
, ,所以
,即 .
(3)为了解佩戴头盔情况与性别的关联性,交警对该路口骑电动自
行车的市民进行抽查,得到如下列联表:
单位:人
性别 佩戴头盔情况 合计
不佩戴 佩戴
女性 8 12 20
男性 14 6 20
合计 22 18 40
依据小概率值 的独立性检验,能否认为市民骑电动自行车是
否佩戴头盔与性别有关联?
附:,, ,其中
.
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
解:零假设为 市民骑电动自行车是
否佩戴头盔与性别无关联.根据列联表中
的数据,得
,
根据小概率值 的独立性检验,我
们推断 不成立,即认为市民骑电动自
行车是否佩戴头盔与性别有关联,此推
断犯错误的概率不大于0.1.
【知识聚焦】1一、1.(2)增加 减小 (3)一条直线 (4)(ii)①正相关 负相关 ②强 弱
2.(2)(i)小 (ii)横轴 窄 (iii)大 二、2.(1)χ2 独立
【对点演练】1.r2课堂考点探究
例1(1)AD (2)AB 变式题(1)C (2)D 例2(1)r≈0.998 (2)=0.36x-726.46,预测该地区2025年新能
源汽车购买数量为2.54万辆
变式题(1)AD (2)①=22x-1040 ②1160万元
例3(1)模型y=eλx+t中y与x的相关性较强 (2)(i)=e0.02x+3.84 (ii)27.1亿元
变式题(1)B (2)①r≈0.93 ②选择模型(ii).=-14.52+22.49,当x=16时,y的预测值为75.44
例4(1)表格略 (2) 有关联
变式题(1) 有 (2) ①表格略,有,没有 ②能认为提高了
教师备用习题
例1 BCD 例2(1)=8x+36 (2) (i) l1的斜率小于l2的斜率 (ii)(3,60)
例3 (1) y=c+dln x更适宜 (2)=3.26ln x-3.36 (3) 3.16千斤
例4 (1)r≈0.92>0.75,可以用线性回归模型拟合y与x的关系 (2) =0.16x+0.84 (3) 有关联
基础热身
1.C 2.A 3.D 4.A 5.A 6. 3.968 7. 0.96
综合提升
8.C 9.C 10.BCD 11.ABD 12.35 13.e-2
(1) b=0.2,c=0.3,a=0.1, =9.3 (2)表格略,有关联
15.(1) rx+5 (2)
能力拓展
16.(1) (2)=e-0.3x+3.55 (3) 有关联