9.3 成对数据的统计分析
1.了解样本相关系数的统计含义.
2.了解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题.
1.变量的相关关系
(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
(2)正相关、负相关:从整体上看,当一个变量增加时,另一个变量的相应值也呈现增加的趋势,我们称这两个变量正相关;当一个变量的值增加时,另一个变量的相应值呈现减小的趋势,则称这两个变量负相关.
(3)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关.
2.样本相关系数
(1)r=.
(2)当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.
(3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.
3.一元线性回归模型
(1)我们将=x+称为Y关于x的经验回归方程,其中
(2)残差:观测值减去预测值所得的差称为残差.
4.列联表与独立性检验
(1)关于分类变量X和Y的抽样数据的2×2列联表:
X Y 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
(2)计算随机变量χ2=,其中n=a+b+c+d,利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
教材拓展
1.经验回归直线一定经过点(,).
2.求时,常用公式=.
3.回归分析和独立性检验都是基于成对样本观测数据进行估计或推断,得出的结论都可能犯错误.
1.判断(正确的画“√”,错误的画“×”)
(1)散点图是判断两个变量相关关系的一种重要方法和手段.( √ )
(2)经验回归直线=x+至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.( × )
(3)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.( √ )
(4)若事件X,Y关系越密切,则由观测数据计算得到的χ2的观测值越小.( × )
2.某公司为了解用电量y(单位:kW·h)与气温x(单位:℃)之间的关系,随机统计了4天的用电量与当天气温,并制作了如下对照表:
气温x/℃ 18 13 10 -1
用电量y/(kW·h) 24 34 38 64
已知表中数据的经验回归方程==x+中=-2.试预测当气温为-4 ℃时,用电量约为68 kW·h.
解析:==10,==40,将(10,40)代入=x+,得=40-(-2)×10=60,则经验回归方程为=-2x+60,取x=-4,得y=68.
3.为了比较甲、乙、丙三组数据的线性相关性强弱,某同学分别计算了甲、乙、丙三组数据的样本相关系数,求得数值依次为0.57,-0.93,0.89,则这三组数据中,线性相关性最强的是乙组数据.
解析:根据题意,因为样本相关系数的绝对值越大,线性相关性越强,由甲、乙、丙三组数据的样本相关系数分别为0.57,-0.93,0.89,得|0.57|<|0.89|<|-0.93|,故乙组数据的线性相关性最强.
4.(人教A版选择性必修第三册P135T8改编)下面是一个2×2列联表:
X Y 合计
Y1 Y2
X1 a 21 70
X2 5 c 30
合计 b d 100
则b-d=8,χ2=24.047(保留小数点后三位).
解析:补全2×2列联表:
X Y 合计
Y1 Y2
X1 49 21 70
X2 5 25 30
合计 54 46 100
所以b-d=54-46=8,且χ2=≈24.047.
考点1 成对数据的相关性
【例1】 (1)(2024·天津卷)下列图中,线性相关系数最大的是( A )
【解析】 观察题中4幅图可知,A图散点分布比较集中,且大体接近某一条直线,线性回归模型拟合效果比较好,呈现明显的正相关,|r|值相比于其他3幅图的更接近1.故选A.
(2)(多选)某服装生产商为了解青少年的身高和体重的关系,在15岁的男生中随机抽测了10人的身高和体重,数据如表所示:
编号 1 2 3 4 5 6 7 8 9 10
身高/cm 165 168 170 172 173 174 175 177 179 182
体重/kg 55 89 61 65 67 70 75 75 78 80
由表中数据制作成如图所示的散点图:
由最小二乘法计算得到经验回归直线l1的方程为=1x+1,样本相关系数为r1,决定系数为R;经过残差分析确定(168,89)为离群点(对应残差过大),把它去掉后,再用剩下的9对数据计算得到经验回归直线l2的方程为=2x+2,样本相关系数为r2,决定系数为R.则以下结论中正确的有( AC )
A. >2 B.1>2
C.r1R
【解析】 身高的平均数为×(165+168+170+172+173+174+175+177+179+182)=173.5,因为离群点(168,89)的横坐标168小于平均值173.5,纵坐标89相对过大,所以去掉离群点后经验回归直线的截距变小而斜率变大,所以1>2,1<2,所以A正确,B错误;去掉离群点后成对样本数据的线性相关程度更强,拟合效果会更好,所以r1判定两个变量相关性的方法
(1)画散点图:若点的分布从左下角到右上角,则两个变量正相关;若点的分布从左上角到右下角,则两个变量负相关.
(2)样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近1,相关性越强.
(3)经验回归方程:当>0时,正相关;当<0时,负相关.
【对点训练1】 (1)(2024·四川凉山州三模)调查某校高三学生的身高x和体重y得到如图所示的散点图,其中身高x和体重y的样本相关系数r=0.825 5,则下列说法正确的是( B )
A.学生的身高和体重没有相关性
B.学生的身高和体重呈正相关
C.学生的身高和体重呈负相关
D.若从样本中抽取一部分数据,则这部分数据的样本相关系数一定是0.825 5
解析:由散点图可知,散点的分布集中在一条直线附近,所以学生的身高和体重具有相关性,A不正确;又身高x和体重y的样本相关系数为r=0.825 5,样本相关系数r>0,所以学生的身高和体重呈正相关,B正确,C不正确;从样本中抽取一部分数据,相关性可能变强,也可能变弱,所以这部分数据的样本相关系数不一定是0.825 5,D不正确.故选B.
(2)某校为了解本校高一男生身高和体重的相关关系,在该校高一年级随机抽取了7名男生,测量了他们的身高和体重得下表:
身高x/cm 167 173 175 177 178 180 181
体重y/kg 90 54 59 64 67 72 76
由表格制作成如图所示的散点图:
由最小二乘法计算得到经验回归直线l1的方程为=1x+1,其样本相关系数为r1;经过残差分析,点(167,90)对应残差过大,把它去掉后,再用剩下的6组数据计算得到经验回归直线l2的方程为=2x+2,样本相关系数为r2.则下列选项正确的是( A )
A.1<2,1>2,r1B.1<2,1<2,r1>r2
C.1>2,1<2,r1>r2
D.1>2,1>2,r1解析:身高的平均数为×(167+173+175+177+178+180+181)=≈176,因为离群点(167,90)的横坐标167小于平均值176,纵坐标90相对过大,所以去掉(167,90)后经验回归直线的截距变小而斜率变大,故1<2,1>2,去掉(167,90)后相关性更强,拟合效果也更好,且还是正相关,所以r1考点2 回归模型
命题角度1 一元线性回归模型
【例2】 (2024·江西九江三模)车胎凹槽深度是影响汽车刹车的因素,汽车行驶会导致轮胎胎面磨损.某实验室通过实验测得轿车行驶里程与某品牌轮胎凹槽深度的数据,如下表所示:
行驶里程 x/万千米 0.0 0.4 1.0 1.6 2.4 2.8 3.4 4.4
轮胎凹槽深度 h/毫米 8.0 7.8 7.2 6.2 5.6 4.8 4.4 4.0
ihi=79.68,(xi-)2=16.24,≈16.56.
(1)求该品牌轮胎凹槽深度h与行驶里程x的样本相关系数r,并判断二者之间是否具有很强的线性相关性.(结果保留两位有效数字)
(2)根据我国国家标准规定:轿车轮胎凹槽安全深度为1.6毫米(当凹槽深度低于1.6毫米时刹车距离增大,驾驶风险增加,必须更换新轮胎).某人在保养汽车时将小轿车的轮胎全部更换成了该品牌的新轮胎,请问:在正常行驶情况下,更换新轮胎后继续行驶约多少万千米需对轮胎再次更换?
附:变量x与y的样本相关系数r=;对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其经验回归直线=x+的斜率和截距的最小二乘估计分别为=,=-.
【解】 (1)计算得=×(0.4+1.0+1.6+2.4+2.8+3.4+4.4)=2,
=×(8.0+7.8+7.2+6.2+5.6+4.8+4.4+4.0)=6,
由公式知,
r==≈
≈-0.99,
所以二者之间具有很强的线性相关性.
(2)设轮胎凹槽深度h与行驶里程x的经验回归方程为=+x,
则==
=≈-1,=- =6+1×2=8,所以经验回归方程为=8-x,
令=1.6,得x=6.4,即更换新轮胎后继续行驶约6.4万千米需要对轮胎再次更换.
命题角度2 非线性回归模型
【例3】 (2024·山东济南三模)近年来,我国众多新能源汽车制造企业迅速崛起.某企业着力推进技术革新,利润稳步提高.统计该企业2019年至2023年的利润(单位:亿元),得到如图所示的散点图.其中2019年至2023年对应的年份代码依次为1,2,3,4,5.
(1)根据散点图判断,y=a+bx和y=c+dx2哪一个适宜作为企业利润y(单位:亿元)关于年份代码x的回归方程类型;(给出判断即可,不必说明理由)
(2)根据(1)中的判断结果,建立y关于x的经验回归方程;
(3)根据(2)的结果,估计2024年的企业利润.
参考公式及数据:
=,=-,
=55,=979,i=390,iyi=1 221,yi=4 607.9.
【解】 (1)由散点图的变化趋势知,y=c+dx2适宜作为企业利润y(单位:亿元)关于年份代码x的回归方程类型.
(2)由题意得==11,==
==0.85,
=-×=78-0.85×11=68.65,
所以=68.65+0.85x2.
(3)令x=6,=68.65+0.85×62=99.25,
所以估计2024年的企业利润为99.25亿元.
求经验回归方程的步骤
【对点训练2】 某公司为了解年研发资金x(单位:亿元)对年产值y(单位:亿元)的影响,对公司近8年的年研发资金xi和年产值yi(i∈N,1≤i≤8)的数据对比分析中,选用了两个回归模型,并利用最小二乘法求得相应的y关于x的经验回归方程:
①=13.05x-48.4;②=0.76x2+.
(1)求的值;
(2)已知①中的残差平方和S1≈3 610,②中的残差平方和S2≈658,请根据决定系数选择拟合效果更好的经验回归方程,并利用该经验回归方程预测年研发资金为20亿元时的年产值.
参考数据:i=64,i=448,=684,(yi-)2=32 900.
参考公式:刻画回归模型拟合效果的决定系数
解:(1)根据题意,
==×684=85.5,
=i=×448=56,
将(85.5,56)代入经验回归方程=0.76x2+,得56=0.76×85.5+,解得=-8.98,所以的值为-8.98.
(2)设经验回归方程①的决定系数为R,由S1≈3 610,得R≈1-≈0.89.
设经验回归方程②的决定系数为R,由S2≈658,得R≈1-=0.98.
因为R当x=20时,=0.76×202-8.98=295.02,
所以年研发资金为20亿元时的年产值约为295.02亿元.
考点3 独立性检验
【例4】 (2025·八省联考)为考察某种药物A对预防疾病B的效果,进行了动物试验,得到如下列联表(单位:只):
服药情况 患病情况 合计
未患病 患病
未服用 100 80 s
服用 150 70 220
合计 250 t 400
(1)求s,t;
(2)记未服用药物A的动物患疾病B的概率为P,给出P的估计值;
(3)根据小概率值α=0.01的独立性检验,能否认为药物A对预防疾病B有效?
附: χ2=,其中n=a+b+c+d.
α 0.05 0.01 0.001
xα 3.841 6.635 10.828
【解】 (1)由列联表知s=100+80=180,t=80+70=150.
(2)由列联表知,未服用药物A的动物有180只,未服用药物A且患疾病B的动物有80只,
所以未服用药物A的动物患疾病B的频率为=,
所以未服用药物A的动物患疾病B的概率的估计值为P=.
(3)零假设为H0:药物A对预防疾病B无效.
由列联表得到
χ2==≈6.734>6.635,
根据小概率值α=0.01的独立性检验,推断H0不成立,即认为药物A对预防疾病B有效,该推断犯错误的概率不超过0.01,所以根据小概率值α=0.01的独立性检验,能认为药物A对预防疾病B有效.
独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式χ2=
计算.
(3)比较χ2与临界值的大小关系,作统计推断.
【对点训练3】 在中国的传统医学中,食物和药物一直被认为是相辅相成的.中医食疗是一门利用食物来调理身体和治疗疾病的科学,它将中草药的药效引入食物中,达到治病的目的.为了研究姜汤对治疗感冒是否更有效,进行了临床试验,得到如下数据:抽到服用姜汤的患者40名,其中30名痊愈,10名未痊愈;抽到服用白开水的患者60名,其中35名痊愈,25名未痊愈.
(1)根据上述信息完成下列2×2列联表:
疗法 疗效 合计
痊愈 未痊愈
服用姜汤
服用白开水
合计
(2)依据小概率值α=0.1的独立性检验,能否认为姜汤对治疗感冒更有效果?并解释得到的结论.
参考公式:χ2=,n=a+b+c+d.
α 0.1 0.05 0.01
xα 2.706 3.841 6.635
解:(1)根据题中信息完成2×2列联表如下:
疗法 疗效 合计
痊愈 未痊愈
服用姜汤 30 10 40
服用白开水 35 25 60
合计 65 35 100
(2)零假设为H0:疗法和疗效独立,即两种疗法效果没有差异.
根据列联表中的数据,经计算得到
χ2=≈2.93>2.706=x0.1.
依据小概率值α=0.1的χ2独立性检验,我们推断H0不成立,即认为姜汤对治疗感冒更有效果,此推断犯错误的概率不大于0.1.
课时作业67
1.(5分)在以下4幅散点图中,y和x成正线性相关关系的是( B )
解析:对于A,由于散点图分散,估计y和x没有线性相关关系,故A错误;对于B,根据散点图集中在一条递增的直线附近,说明y和x线性相关且是正相关,故B正确;对于C,根据散点图集中在一条递减的直线附近,说明y和x线性相关且是负相关,故C错误;对于D,根据散点图集中在一条曲线附近,说明y和x非线性相关,故D错误.故选B.
2.(5分)(2024·广东茂名二模)已知变量x和y的统计数据如表:
x 1 2 3 4 5
y 6 6 7 8 8
根据上表可得经验回归方程为=0.6x+,据此可以预测当x=8时,=( D )
A.8.5 B.9
C.9.5 D.10
解析:依题意,==3,==7,将(3,7)代入=0.6x+,得7=0.6×3+,解得=5.2,即=0.6x+5.2,当x=8时,=0.6×8+5.2=10.故选D.
3.(5分)(2024·广东广州二模)根据分类变量X与Y的成对样本数据,计算得到χ2=7.174.依据α=0.005的独立性检验,结论为( A )
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
A.变量X与Y独立
B.变量X与Y独立,这个结论犯错误的概率不超过0.005
C.变量X与Y不独立
D.变量X与Y不独立,这个结论犯错误的概率不超过0.005
解析:因为χ2=7.174<7.879=x0.005,所以依据α=0.005的独立性检验,我们认为变量X与Y独立.故选A.
4.(5分)(2024·江西南昌三模)对两组数据x,y和v,u分别进行回归分析,得到散点图如图所示,并求得经验回归方程分别是=1x+1和u^=2v+2,对变量x,y进行线性相关检验,得到样本相关系数r1,对变量v,u进行线性相关检验,得到样本相关系数r2,则下列判断正确的是( D )
A.b1>0 B.b2<0
C.|r1|<|r2| D.r1+r2<0
解析:由散点图可知,x与y负相关,v与u正相关,则b1<0,b2>0,故A,B错误;图中点(x,y)比(v,u)更加集中在一条直线附近,则|r1|>|r2|,又r1<0,r2>0,得r1+r2<0,故C错误,D正确.故选D.
5.(5分)(2024·四川广安二模)某公司收集了某商品销售收入y(单位:万元)与相应的广告支出x(单位:万元)共10组数据(xi,yi)(i=1,2,3,…,10),绘制出如下散点图,并利用线性回归模型进行拟合.
若将图中10个点中去掉A点后再重新进行线性回归分析,则下列说法正确的是( B )
A.决定系数R2变小
B.残差平方和变小
C.相关系数r的值变小
D.解释变量x与响应变量y相关性变弱
解析:从题图中可以看出A点较其他点偏离直线远,故去掉A点后回归效果更好,故决定系数R2会变大,更接近1,残差平方和变小,相关系数r的绝对值更接近1,由题图可得x与y正相关,故r会更接近1,即相关系数r的值变大,解释变量x与响应变量y相关性变强,故A,C,D错误,B正确.故选B.
6.(5分)(2024·山东枣庄一模)某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回地简单随机抽样的方法对治疗情况进行检查,得到两种疗法治疗数据的列联表:
疗法 疗效 合计
未治愈 治愈
甲 15 52 67
乙 6 63 69
合计 21 115 136
经计算得到χ2≈4.881,根据小概率值α=0.005的独立性检验(已知χ2独立性检验中x0.005=7.879),则可以认为( C )
A.两种疗法的效果存在差异
B.两种疗法的效果存在差异,这种判断犯错误的概率不超过0.005
C.两种疗法的效果没有差异
D.两种疗法的效果没有差异,这种判断犯错误的概率不超过0.005
解析:零假设为H0:疗法与疗效独立,即两种疗法效果没有差异.根据列联表中的数据,χ2≈4.881<7.879=x0.005,根据小概率值α=0.005的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为两种疗法效果没有差异.故选C.
7.(6分)(多选)已知变量x和变量y的一组成对样本数据(xi,yi)(i=1,2,…,n)的散点落在一条直线附近,=i,,样本相关系数为r,经验回归方程为=x+,则( BCD )
参考公式:r=,b^=.
A.当r越大时,成对样本数据的线性相关程度越强
B.当r>0时,>0
C.当xn+1=,yn+1=时,成对样本数据(xi,yi)(i=1,2,…,n,n+1)的样本相关系数r′满足r′=r
D.当xn+1=,yn+1=时,成对样本数据(xi,yi)(i=1,2,…,n,n+1)的经验回归方程=x+满足=
解析:当|r|越接近1时,成对样本数据的线性相关程度越强,故A错误;当r>0时,成对样本数据正相关,相关系数r与符号相同,则>0,故B正确;当xn+1=,yn+1=时,将这组数据添加后,不变,故样本相关系数r的表达式中的分子和分母均不变,故C正确;当xn+1=,yn+1=时,将这组数据添加后,不变,故经验回归方程中的一次项系数的表达式中的分子和分母均不变,所以=,故D正确.故选BCD.
8.(6分)(多选)(2024·江西南昌二模)为了解中学生喜爱足球运动与性别是否有关,甲、乙两校的课题组分别随机抽取了本校部分学生进行调查,得到如下两个表格:
甲校样本
性别 足球运动 合计
喜爱 不喜爱
男性 15 5 20
女性 8 12 20
合计 23 17 40
乙校样本
性别 足球运动 合计
喜爱 不喜爱
男性 70 30 100
女性 45 55 100
合计 115 85 200
参考公式及数据:χ2=, n=a+b+c+d.
α 0.1 0.01 0.001
xα 2.706 6.635 10.828
则下列判断中正确的是( AD )
A.样本中,甲校男学生喜爱足球运动的比例高于乙校男学生喜爱足球运动的比例
B.样本中,甲校女学生喜爱足球运动的比例高于乙校女学生喜爱足球运动的比例
C.根据甲校样本有99%的把握认为中学生喜爱足球运动与性别有关
D.根据乙校样本有99%的把握认为中学生喜爱足球运动与性别有关
解析:甲校男学生喜爱足球运动的比例为=,乙校男学生喜爱足球运动的比例为=<,即甲校男学生喜爱足球运动的比例高于乙校男学生喜爱足球运动的比例,故A正确;甲校女学生喜爱足球运动的比例为=,乙校女学生喜爱足球运动的比例为=>,即甲校女学生喜爱足球运动的比例低于乙校女学生喜爱足球运动的比例,故B错误;甲校中χ2=≈5.013<6.635,所以根据甲校样本没有99%的把握认为中学生喜爱足球运动与性别有关,故C错误;乙校中χ2=≈12.788>6.635,所以根据乙校样本有99%的把握认为中学生喜爱足球运动与性别有关,故D正确.故选AD.
9.(5分)(2024·重庆三模)对具有线性相关关系的变量x,y有一组观测数据(xi,yi)(i=1,2,…,10),=5,=-4,其经验回归方程为=-3.2x+,则在样本点(3,2.9)处的残差为0.5.
解析:将=5,=-4代入=-3.2x+,得-4=-3.2×5+,解得=12,所以=-3.2x+12,故当x=3时,=-3.2×3+12=2.4,所以残差e=2.9-2.4=0.5.
10.(6分)(2025·广东广州一模)某校数学建模兴趣小组收集了一组恒温动物体重W(单位:克)与脉搏率f(单位:心跳次数/分)的对应数据(Wi,fi)(i=1,2,…,8),根据生物学常识和散点图得出f与W近似满足f=cWk(c,k为参数).令xi=ln Wi,yi=ln fi,计算得=8,=5,由最小二乘法得经验回归方程为=x+7.4,则k的值为-0.3;为判断拟合效果,通过经验回归方程求得预测值 (i=1,2,…,8),若残差平方和≈0.28,则决定系数R2≈0.98.参考公式:决定系数R2=1-
解析:因为f=cWk,两边取对数可得ln f=ln c+k ln W,又xi=ln Wi,yi=ln fi,依题意经验回归直线=x+7.4必过点(,),所以5=8+7.4,解得=-0.3,所以k=-0.3,R2=1-=1-≈1-=0.98.
11.(13分)某学校一个生物兴趣小组对学校的人工湖中养殖的某种鱼类进行观测研究,在饲料充足的前提下,兴趣小组对饲养时间x(单位:个月)与这种鱼类的平均体重y(单位:千克)得到一组观测值,如下表:
x 1 2 3 4 5
y 0.5 0.9 1.7 2.1 2.8
(1)求y关于x的经验回归方程=x+;
(2)利用(1)中的经验回归方程,分析饲养1~5个月这种鱼平均体重的变化情况,并预测饲养满12个月时,这种鱼的平均体重(单位:千克).
附:经验回归直线的斜率和截距的最小二乘法估计公式分别为=,=-.
解:(1)由题表数据可得=
=3,==1.6,(xi-)(yi-)=5.8,
(xi-)2=10,
故===0.58,
=-=1.6-0.58×3=-0.14,
故经验回归方程为=0.58x-0.14.
(2)因为=0.58>0,故饲养1~5个月这种鱼平均体重逐月增加,平均增加0.58千克,
当x=12时,=0.58×12-0.14=6.82,
故预测饲养满12个月时,这种鱼的平均体重为6.82千克.
12.(16分)(2024·湖南邵阳三模)某市开展“安全随我行”活动,交警部门在某个交通路口增设电子抓拍眼,并记录了某月该路口连续10日骑电动摩托车未佩戴头盔的人数y与天数x的情况,对统计得到的样本数据(xi,yi)(i=1,2,…,10)作了初步处理,得到下面的散点图及一些统计量的值.
iyi iYi
5.5 8.7 1.9 301 385 79.75
表中Yi=ln yi,=
(1)依据散点图推断,y=bx+a与y=ebx+a哪一个更适合作为未佩戴头盔人数y与天数x的回归方程类型.(给出判断即可,不必说明理由)
(2)依据(1)的结果和上表中的数据求出y关于x的经验回归方程.
(3)为了解佩戴头盔情况与性别的关联性,交警对该路口骑电动摩托车的市民进行调查,得到如下列联表:
佩戴头盔 合计
性别 不佩戴 佩戴
女性 8 12 20
男性 14 6 20
合计 22 18 40
依据小概率值α=0.1的独立性检验,能否认为市民骑电动摩托车佩戴头盔与性别有关联?
参考公式:= 其中n=a+b+c+d.
α 0.1 0.05 0.025 0.01 0.005 0.001
xα 2.706 3.841 5.024 6.635 7.879 10.828
解:(1)依据散点图可以判断,y=ebx+a更适合作为未佩戴头盔人数y与天数x的回归方程类型.
(2)由Yi=ln yi,得Y=ln ebx+a=bx+a,
依题意得===-=-0.3,
=-=1.9-(-0.3)×5.5=3.55,所以=-0.3x+3.55,即=e-0.3x+3.55.
(3)零假设H0:市民佩戴头盔与性别无关联.
根据列联表中的数据计算得
χ2==≈3.636>2.706=x0.1,
依据小概率值α=0.1的独立性检验,我们推断H0不成立,即认为市民佩戴头盔与性别有关联,此推断犯错误的概率不超过0.1.
13.(6分)(2024·黑龙江哈尔滨二模)针对2025年第九届亚冬会在哈尔滨举办,校团委对“是否喜欢冰雪运动与学生性别的关系”进行了一次调查,其中被调查的男、女生人数相同,男生中喜欢冰雪运动的人数占男生人数的,女生中喜欢冰雪运动的人数占女生人数的,若依据α=0.05的独立性检验,认为是否喜欢冰雪运动与学生性别有关,则被调查的学生中男生的人数不可能是( A )
附:χ2=.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
A.48 B.54
C.60 D.66
解析:设男生人数为6n(n∈N*),因为被调查的男、女生人数相同,所以女生人数也为6n(n∈N*),根据题意列出列联表:
是否喜欢冰 雪运动 性别 合计
男生 女生
喜欢 5n 4n 9n
不喜欢 n 2n 3n
合计 6n 6n 12n
则χ2====,因为依据α=0.05的独立性检验,认为是否喜欢冰雪运动与学生性别有关,所以χ2≥3.841,即≥3.841,解得6n≥51.853 5,又n∈N*,所以B,C,D正确,A错误.故选A.
14.(6分)(2024·福建宁德三模)2024海峡两岸各民族欢度“三月三”暨福籽同心爱中华·福建省第十一届“三月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据(i,yi),其中i=1,2,3,4,5,yi为第i次入口人流量数据(单位:百人),由此得到y关于i的经验回归方程=log2(i+1)+5.已知=9,根据经验回归方程(参考数据:log23≈1.6,log25≈2.3),可预测下午4点时入口游客的人流量为( C )
A.9.6 B.11.0
C.11.3 D.12.0
解析:设x=log2(i+1),i=1,2,3,4,5,则=x+5,所以=
=≈=1.9,且=9,则9=×1.9+5,得=,所以=log2(i+1)+5,下午4点对应的i=7,此时预测入口游客的人流量=×log28+5≈11.3.故选C.
15.(6分)(多选)(2024·浙江金华三模)某班主任用下表分析高三前5次考试中本班级在年级中的成绩排名y与考试次数x的相关性时,忘记了第二次和第四次考试排名,但他记得平均排名=6,于是分别用m=6和m=8得到了两个经验回归方程:=1x+1,=2x+2,对应的样本相关系数分别为r1,r2,排名y对应的方差分别为s,s,则( AD )
x 1 2 3 4 5
y 10 m 6 n 2
附:r==
,=
=,=-.
A.sC.1<2 D.1<2
解析:当m=6时,==3,
==6,解得n=6,则iyi=1×10+2×6+3×6+4×6+5×2=74,=12+22+32+42+52=55, =18,(xi-)(yi-)=(1-3)×(10-6)+(2-3)×(6-6)+(3-3)×(6-6)+(4-3)×(6-6)+(5-3)×(2-6)=-16,(xi-)2=(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2=10,(yi-)2=(10-6)2+(6-6)2+(6-6)2+(6-6)2+(2-6)2=32,所以1===-,得1=-1=,
r1===-,
s=(yi-)2=.同理,当m=8时,2=-2,2=12,r2=-1,s=8.
所以r1>r2,s2,1<2.故选AD.