第八章《成对数据的统计分析》章末检测(答案)
一、选择题:本题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的.
1、对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图如图①,对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图如图②.由这两个散点图可以判断( C )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
解:由题图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,则由散点图可判断变量x与y负相关,u与v正相关.
2、下列命题错误的是( D )
A.线性相关系数r越大,两个变量的线性相关性越强;反之,线性相关性越弱
B.抛掷均匀硬币一次,出现正面的次数是随机变量
C.将一组数据中的每个数据都乘以同一个非零常数a后,标准差也变为原来的a倍
D.若回归直线的斜率估计值为0.25,=2,=3,则回归直线的方程为y=0.25x+2.5
解:对于A,线性相关系数|r|越接近于1,则相关性越强,所以A错误;对于B,抛掷均匀硬币一次,出现正面的次数是随机变量,所以B正确;对于C,由标准差的定义可知将一组数据中的每个数据都乘以同一个非零常数a后,标准差也变为原来的a倍,所以C正确;对于D,因为回归直线的斜率估计值为0.25,=2,=3,所以=0.25,=-=3-2×0.25=2.5,则回归直线的方程为y=0.25x+2.5,所以D正确.
3、在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-x+1上,则这组样本数据的样本相关系数为( A )
A.-1 B.0 C.- D.1
解:因为样本点在直线y=-x+1上,呈现完全负相关,样本相关系数为-1.
4、某校为了研究“学生的性别”和“对待某一活动的态度”是否有关,运用2×2列联表进行独立性检验,经计算χ2=7.069,则认为“学生性别与支持某项活动有关系”的犯错误的概率不超过( B )
A.0.1% B.1% C.99% D.99.9%
解:∵χ2=7.069>6.635=x0.01,
∴认为“学生性别与支持某项活动有关系”的犯错误的概率不超过1%.
5、某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:
由此散点图,在10 ℃至40 ℃之间,下面四个经验回归方程类型中最适宜作为发芽率y和温度x的经验回归方程类型的是( D )
A.y=a+bx B.y=a+bx2
C.y=a+bex D.y=a+bln x
解:由散点图可以看出,这些点大致分布在对数型函数的图象附近.
6、已知变量x和y的统计数据如下表:
x 3 4 5 6 7
y 2.5 3 4 4.5 6
根据上表可得线性回归方程为y=x-0.25,据此可以预测当x=8时,y=( C )
A.6.4 B.6.25
C.6.55 D.6.45
解:由题中图表可知,=5,=4,因为回归直线经过样本的中心(,),则4=5-0.25,得=0.85,则线性回归方程为y=0.85x-0.25,再将x=8代入方程,得y=6.55.
7、小波同学为了验证谚语“日落云里走,雨在半夜后”,观察了所在地区A的100天日落和夜晚天气,得到如下2×2列联表,并计算得到χ2≈19.05,下列小波对地区A天气判断不正确的是( D )
日落云里走 夜晚天气 总计
下雨 未下雨
出现 25 5 30
未出现 25 45 70
总计 50 50 100
A.夜晚下雨的概率约为
B.未出现“日落云里走”夜晚下雨的概率约为
C.有99%的把握认为“‘日落云里走’是否出现与当晚是否下雨有关”
D.出现“日落云里走”,则有99%的概率夜晚会下雨
解:据列联表,100天中有50天下雨,50天未下雨,因此下雨的概率约为=,A正确;同样,未出现“日落云里走”夜晚下雨的概率约为=,B正确;因为χ2≈19.05>6.635,所以有99%的把握认为“‘日落云里走’是否出现与当晚是否下雨有关”,C正确;有关只是说可能性,不代表一定下雨,D错误.故选D.
8、针对时下的“抖音热”,某校团委对“学生性别和喜欢抖音是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的,女生喜欢抖音的人数占女生人数,若有95%的把握认为“是否喜欢抖音和性别有关”,则调查人数中男生的人数可能为( D )
附表:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
附:χ2=.
A.25 B.35
C.40 D.60
解:设男生有x人,依题意得女生有x人,可得2×2列联表如下:
性别 是否喜欢抖音 合计
喜欢抖音 不喜欢抖音
男生 x x x
女生 x x x
合计 x x 2x
若有95%的把握认为“是否喜欢抖音和性别有关”,则χ2≥3.841,
即χ2==x≥3.841,解得x≥40.330 5,
由题意知x>0,且x是5的整数倍,所以60满足题意.故选D.
选择题:本题共4小题,每小题5分,共20分.在每小题给出的四个选项中,有多项符合题目要求.全部选对的得5分,部分选对的得2分,有选错的得0分.
9、在统计中,由一组样本数据(x1,y1),(x2,y2),…,(xn,yn)利用最小二乘法得到两个变量的经验回归方程为=x+,那么下列说法正确的是( BCD )
A.相关系数r不可能等于1
B.直线=x+必经过点(,)
C.直线=x+表示最接近y与x之间真实关系的一条直线
D.相关系数为r,且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小
解:相关系数的取值范围是|r|≤1,故A错误;直线=x+必过样本点中心即点(,),故B正确;直线=x+是采用最小二乘法求解出的直线方程,接近真实关系,故C正确;相关系数r的绝对值越接近于1,表示相关程度越强,越接近于0,相关程度越弱,故D正确.
10、已知变量x,y之间的线性经验回归方程为=-0.7x+10.3,且变量x,y之间的一组相关数据如下表所示,则下列说法正确的是( ABD )
x 6 8 10 12
y 6 m 3 2
A.变量x,y之间成负相关关系
B.可以预测,当x=20时,=-3.7
C.m=4
D.该经验回归直线必过点(9,4)
解:由-0.7<0,得变量x,y之间成负相关关系,故A正确;
当x=20时,=-0.7×20+10.3=-3.7,故B正确;
由表格数据可知=×(6+8+10+12)=9,=×(6+m+3+2)=,则=-0.7×9+10.3,解得m=5,故C错误;
由m=5,得==4,所以该回归直线必过点(9,4),故D正确.
11、某大学为了解学生对学校食堂服务的满意度,随机调查了50名男生和50名女生,每位学生对食堂的服务给出满意或不满意的评价,得到如下所示的列联表,经计算χ2≈4.762,则可以推断出( AC )
满意 不满意
男 30 20
女 40 10
α 0.100 0.050 0.010
xα 2.706 3.841 6.635
A.该学校男生对食堂服务满意的概率的估计值为
B.调研结果显示,该学校男生比女生对食堂服务更满意
C.认为男、女生对该食堂服务的评价有差异此推断犯错误的概率不超过0.05
D.认为男、女生对该食堂服务的评价有差异此推断犯错误的概率不超过0.01
解:对于A,该学校男生对食堂服务满意的概率的估计值为=,故A正确;
对于B,该学校女生对食堂服务满意的概率的估计值为=>,故B错误;
因为χ2≈4.762>3.841=x0.05,认为男、女生对该食堂服务的评价有差异,此推断犯错误的概率不超过0.05,故C正确,D错误.
12、进入21世纪以来,全球二氧化碳排放量增长迅速,自2000年至今,全球二氧化碳排放量增加了约40%,我国作为发展中国家,经济发展仍需要大量的煤炭能源消耗.下图是2016—2020年中国二氧化碳排放量的统计图表(以2016年为第1年).利用图表中数据计算可得,采用某非线性回归模型拟合时,R=0.979 8;采用一元线性回归模型拟合时,线性回归方程为=1.58x+91.44,R=0.983 3.则下列说法正确的是( ABD )
A.由图表可知,二氧化碳排放量y与时间x正相关
B.由决定系数可以看出,线性回归模型的拟合程度更好
C.利用线性回归方程计算2019年所对应的样本点的残差为-0.30
D.利用线性回归方程预计2025年中国二氧化碳排放量为107.24亿吨
解:由散点图可得二氧化碳排放量y与时间x正相关,故A正确;
因为R>R,所以线性回归模型的拟合程度更好,故B正确;
当x=4时,=1.58×4+91.44=97.76,
而98.06-97.76=0.30,故C错误;
当x=10时,=1.58×10+91.44=107.24.
即利用线性回归方程预计2025年中国二氧化碳排放量为107.24亿吨,故D正确.
填空题:本题共4小题,每小题5分,共20分.
13、经调查某地若干户家庭的年收入x(万元)和年饮食支出y(万元)具有线性相关关系,并得到y关于x的线性回归方程:y=0.245x+0.321,可知,家庭年收入每增加1万元,年饮食支出平均增加____0.245____万元.
解:x变为x+1,y=0.245(x+1)+0.321=0.245x+0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.
14、某市物价部门对本市的5家商场的某商品一天的销售量及其价格进行调查,5家商场的售价x(元/件)和销售量y(件)的数据如下表所示:
售价x 9 9.5 m 10.5 11
销售量y 11 n 8 6 5
由散点图可知,销售量y与售价x之间有较强的线性相关关系,其经验回归方程是=-3.2x+40,且m+n=20,则其中的n=___10_____.
解: ==8+,
==6+,
回归直线一定经过点(,),
即6+=-3.2+40,即3.2m+n=42.
又m+n=20,所以m=10,n=10.
15、某车间为了提高工作效率,需要测试加工零件所花费的时间,为此进行了5次试验,这5次试验的数据列(个数x,加工时间y)为(10,62),(20,a),(30,75),(40,81),(50,89).若用最小二乘法求得其回归直线方程为=0.67x+54.9,则a的值为____68____.
解: ==30,==.因为(,)在回归直线=0.67x+54.9上,所以=0.67×30+54.9,
解得a=68.
16、某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得χ2≈3.918,经查临界值表知x0.05=3.841.则下列结论中,正确结论的序号是___①_____.
①认为“这种血清能起到预防感冒的作用”犯错误的概率不超过0.05;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%.
解:χ2≈3.918≥3.841=x0.05,所以认为“这种血清能起到预防感冒的作用”,这种推断犯错误的概率不超过0.05.
四、解答题:本题共6小题,共70分.解答应写出文字说明、证明过程或演算步骤.
17、某品牌手机厂商推出新款的旗舰机型,并在某地区跟踪调查得到这款手机上市时间(x个月)和市场占有率(y%)的几组相关对应数据:
x 1 2 3 4 5
y 0.02 0.05 0.1 0.15 0.18
(1)根据上表中的数据,用最小二乘法求出y关于x的线性回归方程;
(2)根据上述线性回归方程,分析该款旗舰机型市场占有率的变化趋势,并预测自上市起经过多少个月,该款旗舰机型市场占有率能超过0.5%(精准到月).
解:(1)根据表中数据,
计算=×(1+2+3+4+5)=3,
=×(0.02+0.05+0.1+0.15+0.18)=0.1,
所以=
=0.042,
所以=0.1-0.042×3=-0.026,
所以线性回归方程为y=0.042x-0.026.
(2)由上面的线性回归方程可知,上市时间与市场占有率正相关,
即上市时间每增加1个月,市场占有率都增加0.042个百分点;
由y=0.042x-0.026>0.5,
解得x≥13;
预计上市13个月时,该款旗舰机型市场占有率能超过0.5%.
18、甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级品 二级品 合计
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)依据小概率值α=0.01的独立性检验分析甲机床的产品质量与乙机床的产品质量有差异.
附:χ2=,
α 0.1 0.05 0.01 0.005
xα 2.706 3.841 6.635 7.879
解 (1)根据题表中数据知,甲机床生产的产品中一级品的频率是=0.75,乙机床生产的产品中一级品的频率是=0.6.
(2)需假设H0为:甲机床的产品质量与乙机床的产品质量无差异.
根据题表中的数据可得
χ2==≈10.256>6.635=x0.01.
根据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为甲机床的产品质量与乙机床的产品质量有差异.
此推断犯错误的概率不大于0.01.
19、随着我国中医学的发展,药用昆虫的使用相应愈来愈多.每年春暖以后至寒冬前,昆虫大量活动与繁殖,易于采集各种药用昆虫.已知一只药用昆虫的产卵数y(单位:个)与一定范围内的温度x(单位:℃)有关,于是科研人员在3月份的31天中随机挑选了5天进行研究,现收集了该种药用昆虫的5组观测数据如下表,
日期 2日 7日 15日 22日 30日
温度x/℃ 10 11 13 12 8
产卵数y/个 23 25 30 26 16
科研人员确定的研究方案是:先从这5组数据中任选2组,用剩下的3组数据建立y关于x的线性回归方程,再对被选取的2组数据进行检验.
(1)若选取的是3月2日与30日这2组的数据,请根据3月7日、15日和22日这3组的数据,求出y关于x的线性回归方程;
(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2个,则认为得到的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠?
附:回归直线的斜率和截距的最小二乘估计公式分别为=,=-.
解:(1)由已知数据得=12,=27,
(xi-)(yi-)=5,
(xi-)2=2.
所以==,
=-=27-×12=-3.
所以y关于x的线性回归方程为y=x-3.
(2)由(1)知,y关于x的线性回归方程为y=x-3.
当x=10时,y=×10-3=22,|22-23|<2,
当x=8时,y=×8-3=17,|17-16|<2.
所以(1)中所得的线性回归直线方程y=x-3是可靠的.
20、武汉热干面既是中国五大名面之一,也是湖北武汉最出名的小吃之一.某热干面店铺连续10天的销售情况如下表:
日期编号 1 2 3 4 5 6 7 8 9 10
套餐一 (单位:份) 120 100 140 140 120 70 150 120 110 130
套餐二 (单位:份) 80 90 90 60 50 90 70 80 90 100
(1)分别求套餐一、套餐二的均值、方差,并判断两种套餐销量的稳定情况;
(2)假设在这连续10天中每位顾客只购买了一份热干面,请填写下面的2×2列联表,并据此判断能否有95%的把握认定顾客性别与套餐选择有关.
套餐一 套餐二 合计
男顾客 400
女顾客 500
合计
附:K2=
P(K2≥k0) 0.10 0.05 0.025 0.010
k0 2.706 3.841 5.024 6.635
解 (1)套餐一:均值为×(120+100+140+140+120+70+150+120+110+130)=120,
方差为×(0+400+400+400+0+2 500+900+0+100+100) =480;
套餐二:均值为×(80+90+90+60+50+90+70+80+90+100)=80,
方差为×(0+100+100+400+900+100+100+0+100+400)=220.
因为220<480,
所以套餐二销量比套餐一销量更加稳定.
(2)2×2列联表如下:
套餐一 套餐二 合计
男顾客 400 300 700
女顾客 800 500 1 300
合计 1 200 800 2 000
因为K2==≈3.663<3.841,
所以没有95%的把握认定顾客性别与套餐选择有关.
21、下表是2022年1月份至4月份某市某主干路口监控设备抓拍到的驾驶员不礼让行人行为统计数据:
月份代码 1 2 3 4
不礼让行人驾驶员人数 125 105 100 90
(1)请利用所给数据求不礼让行人驾驶员人数y与月份代码x之间的回归直线方程=x+,并预测该路口2022年5月份(月份代码为5)不礼让行人驾驶员的人数;
(2)交警从这4个月内通过该路口的驾驶员中随机抽查50人,调查驾驶员不礼让行人行为与驾龄的关系,得到下表,
不礼让行人 礼让行人
驾龄不超过2年 10 20
驾龄为2年以上 8 12
据此判断能否有90%的把握认为是否礼让行人与驾龄有关.
参考公式:回归直线方程=+x中,=,=-.
附表:
α 0.10 0.05 0.025 0.010 0.005
xα 2.706 3.841 5.024 6.635 7.879
χ2=,其中n=a+b+c+d.
解 (1)由表中数据知,==2.5,
==105,
所以===-11,
所以=-=105-(-11)×2.5=132.5,故所求回归直线方程为=-11x+132.5.
令x=5,则=-11×5+132.5≈78.
故预测该路口2022年5月份不礼让行人驾驶员的人数为78.
(2)由表中教据得χ2=≈0.23<2.706,故没有90%的把握认为是否礼让行人与驾龄有关.
22、某电影院统计了某电影连续10场的观众人数,其中每场观众人数y(单位:百人)与场次x的统计数据如下表:
x 1 2 3 4 5 6 7 8 9 10
y 2.77 2 1.92 1.36 1.12 1.09 0.74 0.68 0.62 0.55
通过散点图可以发现y与x之间具有相关性,且满足y=aebx(n>0),设ω=ln y.
(1)利用表格中的前8组数据求相关系数r,并判断x与ω之间是否具有很强的线性相关关系(当相关系数满足|r|≥0.75时,则可认为两个变量具有很强的线性相关关系).
(2)利用x与ω的相关性及表格中的前8组数据求出y与x之间的回归方程(结果保留两位小数).
附:≈6.48, ≈2.45, ≈1.30,e1.17≈3.22.
前8组数据的相关量及公式:
xi=36,yi=11.68,ωi≈2.18,
(xi-)2=42, (yi-)2≈3.61,
(ωi-)2≈1.70, (xi-)(yi-)=-11.83,
(xi-)(ωi-)≈-8.35.
对于一组具有线性相关关系的数据(vi,ui)(i=1,2,3…,n),其回归直线=+v的斜率和截距的最小二乘估计分别为==,=-,
相关系数r=.
解 (1)ω与x的相关系数r=
≈≈-0.99,
所以|r|≈0.99>0.75,所以x与ω之间具有很强的线性相关关系.
(2)对y=aebx两边同时取自然对数得ln y=ln a+bx,
设u=ln a,又ω=ln y,则ω=bx+u.
=≈≈-0.20,
=xi=4.5,=ωi≈0.272 5.
所以u=-=0.272 5+×4.5≈1.17,所以=-0.20x+1.17,
所以y与x之间的回归方程为y=e-0.20x+1.17,
即y=3.22e-0.20x.第八章《成对数据的统计分析》章末检测
一、选择题:本题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的.
1、对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图如图①,对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图如图②.由这两个散点图可以判断( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
2、下列命题错误的是( )
A.线性相关系数r越大,两个变量的线性相关性越强;反之,线性相关性越弱
B.抛掷均匀硬币一次,出现正面的次数是随机变量
C.将一组数据中的每个数据都乘以同一个非零常数a后,标准差也变为原来的a倍
D.若回归直线的斜率估计值为0.25,=2,=3,则回归直线的方程为y=0.25x+2.5
3、在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0 C.- D.1
4、某校为了研究“学生的性别”和“对待某一活动的态度”是否有关,运用2×2列联表进行独立性检验,经计算χ2=7.069,则认为“学生性别与支持某项活动有关系”的犯错误的概率不超过( )
A.0.1% B.1% C.99% D.99.9%
5、某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:
由此散点图,在10 ℃至40 ℃之间,下面四个经验回归方程类型中最适宜作为发芽率y和温度x的经验回归方程类型的是( )
A.y=a+bx B.y=a+bx2
C.y=a+bex D.y=a+bln x
6、已知变量x和y的统计数据如下表:
x 3 4 5 6 7
y 2.5 3 4 4.5 6
根据上表可得线性回归方程为y=x-0.25,据此可以预测当x=8时,y=( )
A.6.4 B.6.25
C.6.55 D.6.45
7、小波同学为了验证谚语“日落云里走,雨在半夜后”,观察了所在地区A的100天日落和夜晚天气,得到如下2×2列联表,并计算得到χ2≈19.05,下列小波对地区A天气判断不正确的是( )
日落云里走 夜晚天气 总计
下雨 未下雨
出现 25 5 30
未出现 25 45 70
总计 50 50 100
A.夜晚下雨的概率约为
B.未出现“日落云里走”夜晚下雨的概率约为
C.有99%的把握认为“‘日落云里走’是否出现与当晚是否下雨有关”
D.出现“日落云里走”,则有99%的概率夜晚会下雨
8、针对时下的“抖音热”,某校团委对“学生性别和喜欢抖音是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的,女生喜欢抖音的人数占女生人数,若有95%的把握认为“是否喜欢抖音和性别有关”,则调查人数中男生的人数可能为( )
附表:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
附:χ2=.
A.25 B.35
C.40 D.60
选择题:本题共4小题,每小题5分,共20分.在每小题给出的四个选项中,有多项符合题目要求.全部选对的得5分,部分选对的得2分,有选错的得0分.
9、在统计中,由一组样本数据(x1,y1),(x2,y2),…,(xn,yn)利用最小二乘法得到两个变量的经验回归方程为=x+,那么下列说法正确的是( )
A.相关系数r不可能等于1
B.直线=x+必经过点(,)
C.直线=x+表示最接近y与x之间真实关系的一条直线
D.相关系数为r,且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小
10、已知变量x,y之间的线性经验回归方程为=-0.7x+10.3,且变量x,y之间的一组相关数据如下表所示,则下列说法正确的是( )
x 6 8 10 12
y 6 m 3 2
A.变量x,y之间成负相关关系
B.可以预测,当x=20时,=-3.7
C.m=4
D.该经验回归直线必过点(9,4)
11、某大学为了解学生对学校食堂服务的满意度,随机调查了50名男生和50名女生,每位学生对食堂的服务给出满意或不满意的评价,得到如下所示的列联表,经计算χ2≈4.762,则可以推断出( )
满意 不满意
男 30 20
女 40 10
α 0.100 0.050 0.010
xα 2.706 3.841 6.635
A.该学校男生对食堂服务满意的概率的估计值为
B.调研结果显示,该学校男生比女生对食堂服务更满意
C.认为男、女生对该食堂服务的评价有差异此推断犯错误的概率不超过0.05
D.认为男、女生对该食堂服务的评价有差异此推断犯错误的概率不超过0.01
12、进入21世纪以来,全球二氧化碳排放量增长迅速,自2000年至今,全球二氧化碳排放量增加了约40%,我国作为发展中国家,经济发展仍需要大量的煤炭能源消耗.下图是2016—2020年中国二氧化碳排放量的统计图表(以2016年为第1年).利用图表中数据计算可得,采用某非线性回归模型拟合时,R=0.979 8;采用一元线性回归模型拟合时,线性回归方程为=1.58x+91.44,R=0.983 3.则下列说法正确的是( )
A.由图表可知,二氧化碳排放量y与时间x正相关
B.由决定系数可以看出,线性回归模型的拟合程度更好
C.利用线性回归方程计算2019年所对应的样本点的残差为-0.30
D.利用线性回归方程预计2025年中国二氧化碳排放量为107.24亿吨
填空题:本题共4小题,每小题5分,共20分.
13、经调查某地若干户家庭的年收入x(万元)和年饮食支出y(万元)具有线性相关关系,并得到y关于x的线性回归方程:y=0.245x+0.321,可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.
14、某市物价部门对本市的5家商场的某商品一天的销售量及其价格进行调查,5家商场的售价x(元/件)和销售量y(件)的数据如下表所示:
售价x 9 9.5 m 10.5 11
销售量y 11 n 8 6 5
由散点图可知,销售量y与售价x之间有较强的线性相关关系,其经验回归方程是=-3.2x+40,且m+n=20,则其中的n=________.
15、某车间为了提高工作效率,需要测试加工零件所花费的时间,为此进行了5次试验,这5次试验的数据列(个数x,加工时间y)为(10,62),(20,a),(30,75),(40,81),(50,89).若用最小二乘法求得其回归直线方程为=0.67x+54.9,则a的值为________.
16、某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得χ2≈3.918,经查临界值表知x0.05=3.841.则下列结论中,正确结论的序号是________.
①认为“这种血清能起到预防感冒的作用”犯错误的概率不超过0.05;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%.
四、解答题:本题共6小题,共70分.解答应写出文字说明、证明过程或演算步骤.
17、某品牌手机厂商推出新款的旗舰机型,并在某地区跟踪调查得到这款手机上市时间(x个月)和市场占有率(y%)的几组相关对应数据:
x 1 2 3 4 5
y 0.02 0.05 0.1 0.15 0.18
(1)根据上表中的数据,用最小二乘法求出y关于x的线性回归方程;
(2)根据上述线性回归方程,分析该款旗舰机型市场占有率的变化趋势,并预测自上市起经过多少个月,该款旗舰机型市场占有率能超过0.5%(精准到月).
18、甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级品 二级品 合计
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)依据小概率值α=0.01的独立性检验分析甲机床的产品质量与乙机床的产品质量有差异.
附:χ2=,
α 0.1 0.05 0.01 0.005
xα 2.706 3.841 6.635 7.879
19、随着我国中医学的发展,药用昆虫的使用相应愈来愈多.每年春暖以后至寒冬前,昆虫大量活动与繁殖,易于采集各种药用昆虫.已知一只药用昆虫的产卵数y(单位:个)与一定范围内的温度x(单位:℃)有关,于是科研人员在3月份的31天中随机挑选了5天进行研究,现收集了该种药用昆虫的5组观测数据如下表,
日期 2日 7日 15日 22日 30日
温度x/℃ 10 11 13 12 8
产卵数y/个 23 25 30 26 16
科研人员确定的研究方案是:先从这5组数据中任选2组,用剩下的3组数据建立y关于x的线性回归方程,再对被选取的2组数据进行检验.
(1)若选取的是3月2日与30日这2组的数据,请根据3月7日、15日和22日这3组的数据,求出y关于x的线性回归方程;
(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2个,则认为得到的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠?
附:回归直线的斜率和截距的最小二乘估计公式分别为=,=-.
20、武汉热干面既是中国五大名面之一,也是湖北武汉最出名的小吃之一.某热干面店铺连续10天的销售情况如下表:
日期编号 1 2 3 4 5 6 7 8 9 10
套餐一 (单位:份) 120 100 140 140 120 70 150 120 110 130
套餐二 (单位:份) 80 90 90 60 50 90 70 80 90 100
(1)分别求套餐一、套餐二的均值、方差,并判断两种套餐销量的稳定情况;
(2)假设在这连续10天中每位顾客只购买了一份热干面,请填写下面的2×2列联表,并据此判断能否有95%的把握认定顾客性别与套餐选择有关.
套餐一 套餐二 合计
男顾客 400
女顾客 500
合计
附:K2=
P(K2≥k0) 0.10 0.05 0.025 0.010
k0 2.706 3.841 5.024 6.635
21、下表是2022年1月份至4月份某市某主干路口监控设备抓拍到的驾驶员不礼让行人行为统计数据:
月份代码 1 2 3 4
不礼让行人驾驶员人数 125 105 100 90
(1)请利用所给数据求不礼让行人驾驶员人数y与月份代码x之间的回归直线方程=x+,并预测该路口2022年5月份(月份代码为5)不礼让行人驾驶员的人数;
(2)交警从这4个月内通过该路口的驾驶员中随机抽查50人,调查驾驶员不礼让行人行为与驾龄的关系,得到下表,
不礼让行人 礼让行人
驾龄不超过2年 10 20
驾龄为2年以上 8 12
据此判断能否有90%的把握认为是否礼让行人与驾龄有关.
参考公式:回归直线方程=+x中,=,=-.
附表:
α 0.10 0.05 0.025 0.010 0.005
xα 2.706 3.841 5.024 6.635 7.879
χ2=,其中n=a+b+c+d.
22、某电影院统计了某电影连续10场的观众人数,其中每场观众人数y(单位:百人)与场次x的统计数据如下表:
x 1 2 3 4 5 6 7 8 9 10
y 2.77 2 1.92 1.36 1.12 1.09 0.74 0.68 0.62 0.55
通过散点图可以发现y与x之间具有相关性,且满足y=aebx(n>0),设ω=ln y.
(1)利用表格中的前8组数据求相关系数r,并判断x与ω之间是否具有很强的线性相关关系(当相关系数满足|r|≥0.75时,则可认为两个变量具有很强的线性相关关系).
(2)利用x与ω的相关性及表格中的前8组数据求出y与x之间的回归方程(结果保留两位小数).
附:≈6.48, ≈2.45, ≈1.30,e1.17≈3.22.
前8组数据的相关量及公式:
xi=36,yi=11.68,ωi≈2.18,
(xi-)2=42, (yi-)2≈3.61,
(ωi-)2≈1.70, (xi-)(yi-)=-11.83,
(xi-)(ωi-)≈-8.35.
对于一组具有线性相关关系的数据(vi,ui)(i=1,2,3…,n),其回归直线=+v的斜率和截距的最小二乘估计分别为==,=-,
相关系数r=.