第八章《成对数据的统计分析》同步单元高分突破必刷卷(培优版)
(时间:120分钟 满分:150分)
单项选择题(本大题共8小题,每小题5分,共40分)
1.在某次独立性检验中,得到如下列联表:
变量B 变量A 合计
A
B 200 800 1000
180 a
合计 380
最后发现,依据的独立性检验,认为A与B无关,则a的值可能是( )
A.600 B.500 C.400 D.300
2.根据最小二乘法,由一组样本点()求得的经验回归方程是,则下列说法正确的是( )
A.至少有一个样本点落在回归直线上
B.回归直线是由样本点()中的两点确定的
C.对所有的变量(),的值一定与有误差
D.若经验回归方程中的,则变量y与x正相关
3.在调查中发现480名男人中有38名患有色盲,520名女人中有6名患有色盲.下列说法正确的是( )
A.男人、女人中患色盲的频率分别为0.038和0.006
B.男、女患色盲的概率分别为,
C.男人中患色盲的比例比女人中患色盲的比例大,可以认为患色盲与性别是有关的
D.调查人数太少,不能说明色盲与性别有关
4.给出下列有关线性回归分析的四个命题:
①线性回归直线未必过样本数据点的中心;
②回归直线就是散点图中经过样本数据点最多的那条直线;
③当相关系数时,两个变量正相关;
④如果两个变量的相关性越强,则相关系数就越接近于.
其中真命题的个数为( )
A. B. C. D.
5.一组样本数据:,,,,,由最小二乘法求得线性回归方程为,
若,则实数m的值为( )
A.5 B.6 C.7 D.8
6.某公交公司推出扫码支付乘车优惠活动,活动为期两周,活动的前五天数据如下表:
第天 1 2 3 4 5
使用人数() 15 173 457 842 1333
由表中数据可得y关于x的回归方程为,则据此回归模型相应于点(2,173)的残差为( )
A. B. C.3 D.2
7.某同学在研究性学习中,收集到某制药厂今年前5个月甲胶囊生产产量(单位:万盒)的数据如下表所示:
(月份) 1 2 3 4 5
(万盒) 5 5 6 6 8
若,线性相关,线性回归方程为,则以下判断正确的是( )A.增加1个单位长度,则一定增加个单位长度
B.减少1个单位长度,则必减少个单位长
C.当时,的预测值为万盒
D.线性回归直线,经过点
8.设两个相关变量和分别满足,,,2,…,6,若相关变量和可拟合为非线性回归方程,则当时,的估计值为( )
A.32 B.63 C.64 D.128
多项选择题(本大题共4小题,每小题5分,共20分.全部选对的得5分,部分选对的得3分,有选错的得0分)
9.下列关于回归分析与独立性检验的说法不正确的是( )
A.回归分析和独立性检验没有什么区别
B.回归分析是对两个变量准确关系的分析,而独立性检验是分析两个变量之间的不确定关系
C.回归分析研究两个变量之间的相关关系,独立性检验是对两个变量是否具有某种关系的一种检验
D.独立性检验可以100%确定两个变量之间是否具有某种关系
10.某校计划在课外活动中新增攀岩项目,为了解学生对攀岩的喜好和性别是否有关,面向学生开展了一次随机调查,其中参加调查的男、女生人数相同,并绘制如图所示的等高堆积条形图,则( )
A.参与调查的学生中喜欢攀岩的男生人数比喜欢攀岩的女生人数多
B.参与调查的女生中喜欢攀岩的人数比不喜欢攀岩的人数多
C.若参与调查的男、女生人数均为100,依据的独立性检验,认为对攀岩的喜好和性别有关
D.无论参与调查的男、女生人数为多少,依据的独立性检验,认为对攀岩的喜好和性别有关
11.下列说法正确的是( )
A.若随机变量,,则
B.若随机变量,则
C.以模型去拟合一组数据时,为了求出回归方程,设,将其变换后得到线性方程,则c,k的值分别是,0.5
D.从10名男生,5名女生中随机选取4人,则其中至少有一名女生的概率为
12.下列说法正确的是( )
A.对于独立性检验,随机变量的观测值值越小,判定“两变量有关系”犯错误的概率越小
B.在回归分析中,相关指数越大,说明回归模型拟合的效果越好
C.随机变量,若,,则
D.以拟合一组数据时,经代换后的线性回归方程为,则,
填空题(本大题共4小题,每小题5分,共20分)
13.某驾驶员培训学校为对比了解“科目二”的培训过程采用大密度集中培训与周末分散培训两种方式的效果,调查了105名学员,统计结果为:接受大密度集中培训的55名学员中有50名学员一次考试通过,接受周末分散培训的学员一次考试通过的有30名.根据统计结果,认为“能否一次考试通过与是否集中培训有关”犯错误的概率不超过______.
14.根据如下样本数据
3 4 5 6 7
4.0 2.5 -0.5 0.5 -2
得到的回归方程为若,则的值为___________.
15.某驾驶员培训学校为对比了解“科目二”的培训过程采用大密度集中培训与周末分散培训两种方式的效果,调查了105名学员,统计结果为:接受大密度集中培训的55名学员中有45名学员一次考试通过,接受周末分散培训的学员一次考试通过的有30名.根据统计结果,认为“能否一次考试通过与是否集中培训有关”犯错误的概率不超过______.
16.有两个分类变量和,其中一组观测值为如下的2×2列联表:
总计
15
50
总计 20 45 65
其中,均为大于5的整数,则__________时,在犯错误的概率不超过的前提下为“和之间有关系”.附:
四、解答题(本大题共6小题,共70分)
17.近日,为进一步做好新冠肺炎疫情防控工作,某社区以网上调查问卷形式对辖区内部分居民做了新冠疫苗免费接种的宣传和调查.调查数据如下:共95份有效问卷,40名男性中有10名不愿意接种疫苗,55名女性中有5名不愿意接种疫苗.
(1)根据所给数据,完成下面的2×2列联表,并根据列联表,根据小概率值α=0.050的独立性检验,判断是否有95%的把握认为是否愿意接种疫苗与性别有关
愿意接种 不愿意接种 合计
男
女
合计
(2)从不愿意接种的15份调查问卷中得到拒绝接种新冠疫苗的原因:有3份身体原因不能接种;有2份认为新冠肺炎已得到控制,无需接种;有4份担心疫苗的有效性;有6份担心疫苗的安全性.求从这15份问卷中随机选出2份,在已知至少有一份担心疫苗安全性的条件下,另一份是担心疫苗有效性的概率.
附:
0.050 0.010 0.005
3.841 6.635 7.879
18.某航空公司规定:国内航班(不构成国际运输的国内航段)托运行李每件重量上限为50kg,每件尺寸限制为40cm×60cm×100cm,其中头等舱乘客免费行李额为40kg,经济舱乘客免费行李额为20kg.某调研小组随机抽取了100位国内航班旅客进行调查,得到如下数据:
托运行李重量/kg
头等舱乘客人数 8 33 12 2
经济舱乘客人数 37 5 3 0
合计 45 38 15 2
(1)请完成如下的2×2列联表,依据的独立性检验,能否认为托运行李重量与乘客乘坐的机舱等级有关?
单位:人
机舱等级 托运行李重量 合计
免费 超额
头等舱
经济舱
合计
(2)调研小组为感谢参与调查的旅客,决定从托运行李重量超出免费行李额且不超出10kg的旅客中(其中女性旅客4人)随机抽取4人,对其中的女性旅客赠送“100元超额行李补助券”,记赠送的补助券总金额为X元,求X的分布列与均值.
附:
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
参考公式:,.
19.新生儿的某种疾病要接种三次疫苗进行免疫,假设三次接种之间互不影响,每人每次接种成功的概率相等.为了解新生儿该疫苗接种剂量与接种成功之间的关系,现进行了两种接种方案的临床试验:10∕次剂量组与20∕次剂量组,接种三次后的试验结果如下:
单位:人
接种方案 结果 合计
接种成功 接种不成功
10∕次剂量组 900 100 1000
20∕次剂量组 973 27 1000
合计 1873 127 2000
(1)根据数据说明哪种接种方案效果好,并依据的独立性检验,判断能否认为该疫苗是否接种成功与接种方案有关;
(2)以频率代替概率,若选用接种效果好的方案,参与该试验的1000人此剂量接种三次的成功人数比只接种一次的成功人数平均提高多少?
20.如今我们的互联网生活日益丰富,除了可以很方便地网购,网络外卖也开始成为不少人日常生活中不可或缺的一部分.某市一调查机构针对该市市场占有率最高的甲、乙两家网络外卖企业(以下简称外卖甲、外卖乙)的经营情况进行了调查,调查结果如下表:
日期 1 2 3 4 5
外卖甲日接单量x/百单 5 2 9 8 11
外卖乙日接单量y/百单 2.2 2.3 10 5 15
(1)据统计表明y与x之间具有线性相关关系.
(i)请用样本相关系数r加以说明;(若,则可认为y与x有较强的线性相关关系)
(ii)经计算求得y与x之间的经验回归方程为,假定每单外卖企业平均能获纯利润3元,试预测当外卖乙日接单量不低于2500单时,外卖甲所获取的日纯利润的最小值.(结果精确到0.01)
(2)试根据表格中这五天的日接单量情况,从平均值和方差角度说明这两家外卖企业的经营状况.
参考数据:,.
21.【阅读材料1】
我们在研究两个变量之间的相关关系时,往往先选取若干个样本点(),(),……,(),将样本点画在平面直角坐标系内,就得到样本的散点图.观察散点图,如果所有样本点都落在某一条直线附近,变量之间就具有线性相关关系,如果所有的样本点都落在某一非线性函数图象附近,变量之间就有非线性相关关系.在统计学中经常选择线性或非线性(函数)回归模型来刻画相关关系,并且可以用适当的方法求出回归模型的方程,还常用相关指数R2来刻画回归的效果,相关指数R2的计算公式为:
当R2越大时,回归方程的拟合效果越好;当R2越小时,回归方程的拟合效果越差,R2是常用的选择模型的指标之一,在实际应用中应该尽量选择R2较大的回归模型.
【阅读材料2】
2021年6月17日9时22分,我国酒泉卫星发射中心用长征二号F遥十二运载火箭,成功将神舟十二号载人飞船送入预定轨道,顺利将聂海胜、刘伯明、汤洪胺3名航天员送入太空,发射取得圆满成功,这标志着中国人首次进人自己的空间站.某公司负责生产的A型材料是神舟十二号的重要零件,该材料应用前景十分广泛,该公司为了将A型材料更好地投入商用,拟对A型材料进行应用改造,根据市场调研与模拟,得到应用改造投入x(亿元)与产品的直接收益y(亿元)的数据统计如下:
序号 1 2 3 4 5 6 7 8 9 10 11 12
x 2 3 4 6 8 10 13 21 22 23 24 25
y 15 22 27 40 48 54 60 68.5 68 67.5 66 65
当0模型①:;模型②:;
当x>13时,确定y与x满足的线性回归直线方程为.
根据以上阅读材料,解答以下问题:
(1)根据下列表格中的数据,比较当0回归模型 模型① 模型②
回归方程
79.13 20.2
(2)当应用改造的投入为20亿元时,以回归直线方程为预测依据,计算公司的收益约为多少.
附:①若最小二乘法求得回归直线方程为,则;
②
③,当时,.
22.某统计部门依据《中国统计年鉴——2017》提供的数据,对我国1997-2016年的国内生产总值(GDP)进行统计研究,作出了两张散点图:图1表示1997-2016年我国的国内生产总值(GDP),图2表示2007-2016年我国的国内生产总值(GDP).
(1)用表示第i张图中的年份与GDP的线性相关系数,,依据散点图的特征分别写出的结果;
(2)分别用线性回归模型和指数回归模型对两张散点图进行回归拟合,分别计算出统计数据——相关指数的数值,部分结果如下表所示:
年份 1997-2016 2007-2016
线性回归模型 0.9306
指数回归模型 0.9899 0.978
①将上表中的数据补充完整(结果保留3位小数,直接写在答题卡上);
②若估计2017年的GDP,结合数据说明采用哪张图中的哪种回归模型会更精准一些?若按此回归模型来估计,2020年的GDP能否突破100万亿元?事实上,2020年的GDP刚好突破了100万亿元,估计与事实是否吻合?结合散点图解释说明.
第八章《成对数据的统计分析》同步单元高分突破必刷卷(培优版)
全解全析
1.A
【详解】当时,,
依据的独立性检验,认为A与B无关.
当时,,
依据的独立性检验,认为A与B有关.
当时,,
依据的独立性检验,认为A与B有关.
当时,,
依据的独立性检验,认为A与B有关.
故选:A.
2.D
【详解】对于A,样本点可能全部不在回归直线上,故A错误;
对于B,回归直线不是由两点确定的,故B错误;
对于C,若所有的样本点都在回归直线上,则的值与相等,故C错误;对于D,由经验回归方程的性质知y与x正相关的充要条件是,故D正确.
故选:D.
3.C
【详解】男人中患色盲的比例即频率为=,要比女人中患色盲的比例即频率=大,故A,B错误;
其差值为≈0.067 6,差值较大,故认为患色盲与性别是有关的,故C正确;
调查人数为480,520较多,调查结果具有参考意义,故D错误
故选:C
4.A
【详解】对于①,线性回归直线一定过样本数据点的中心,故①错误;
对于②,回归直线在散点图中可能不经过任何一个样本数据点,故②错误;
对于③,当相关系数时,两个变量正相关,故③正确;
对于④,如果两个变量的相关性越强,则相关性系数就越接近于或,故④错误.
故真命题的个数为1,
故选:A.
5.B
【详解】依题意,,则这个样本的中心点为,因此,,解得,
所以实数m的值为6.
故选:B
6.B
【详解】令,则,
1 4 9 16 25
使用人数() 15 173 457 842 1333
,,
所以,
所以,当时,,所以残差为.故选:B
7.C
【详解】由,得每增(减)一个单位长度,不一定增加(减少)0.7,而是大约增加(减少)0.7个单位长度,故选项A,B错误;由已知表中的数据,可知,则回归直线必过点,故D错误;代入回归直线,解得,即,令,解得万盒,故选:C
8.C
【详解】令,则 ,
,,
所以 ,,
所以,即,所以当时, . 故选:C.
9.ABD
【详解】由回归分析及独立性检验的特点知:
回归分析和独立性检验是两种不同的统计分析,故A错误;
回归分析研究两个变量之间的相关关系,独立性检验是对两个变量是否具有某种关系的一种检验,故B错误,C正确;
独立性检验不能100%确定两个变量之间是否具有某种关系,故D错误
故选:ABD
10.AC
【详解】由题意,设参加调查的男、女生人数均为m人,则关于对攀岩的喜好和性别的抽样数据的列联表如下:
单位:人
性别 攀岩 合计
喜欢 不喜欢
男生 0.8m 0.2m m
女生 0.3m 0.7m m
合计 1.1m 0.9m 2m
所以参与调查的学生中喜欢攀岩的男生人数比喜欢攀岩的女生人数多,参与调查的女生中喜欢攀岩的人数比不喜欢攀岩的人数少,A正确,B错误;,当时,,
所以当参与调查的男、女生人数均为100时,根据的独立性检验,认为对攀岩的喜好和性别有关,C正确,
和有关,当时,,所以D错误.
故选:AC
11.AC
【详解】随机变量,正态曲线关于对称,则,
,即,故正确;
随机变量,则,
故,故错误;
∵,∴两边取对数得,令,
可得,
∵,∴,,∴,故正确;
从10名男生,5名女生中随机选取4人,则其中至少有一名女生的对立事件为选取的4人中没有一名女生,其概率为,则其中至少有一名女生的概率为,
故不正确;
故选:.
12.BD
【详解】选项A:对于独立性检验,随机变量的观测值值越小,判定“两变量有关系”犯错误的概率越大,故选项A错误;
选项B:在回归分析中,相关指数越大,残差平方和越小,说明回归模型拟合的效果越好,故选项B正确;
选项C:随机变量,若,,则,解得:,故选项C错误;
选项D:因为,所以,令,
则,又,所以,,则,,故选项D正确.
故选:BD.
13.0.001
【详解】由题意,可得以下2×2列联表:
考试情况 培训方式 合计
集中培训 分散培训
一次考试通过 50 30 80
一次考试未通过 5 20 25
合计 55 50 105
则,
故认为“能否一次考试通过与是否集中培训有关”犯错误的概率不超过0.001.
故答案为:0.001
14.-1.4
【详解】,
则得到样本中心点为 ,因为样本中心点一定在回归直线上,
故,解得,
故答案为:
15.5%
【详解】由题意,可得以下列联表:
集中培训 分散培训 总计
一次考试通过 45 30 75
一次考试未通过 10 20 30
总计 55 50 105
则,故认为“能否一次考试通过与是否集中培训有关”犯错误的概率不超过5%.
故答案为:5%
16.9
【详解】由题意知:,
则,
解得:或,
因为:且,,
综上得:,,
所以:.
故答案为:9.
17.【详解】(1)
愿意接种 不愿意接种 合计
男 30 10 40
女 50 5 55
合计 80 15 95
根据小概率值α=0.050的独立性检验,有的把握认为是否愿意接种疫苗与性别有关.
(2)设事件A为至少有一份担心疫苗安全性,事件B为另一份担心疫苗有效性,
则,,
所以.
18.【详解】(1)补全2×2列联表如下:单位:人
机舱等级 托运行李重量 合计
免费 超额
头等舱 53 2 55
经济舱 37 8 45
合计 90 10 100
假设为:托运行李重量与乘客乘坐的机舱等级无关.
根据列联表中的数据,经计算得到
,
根据小概率值的独立性检验,我们推断不成立,即在犯错误的概率不超过0.05的前提下,认为托运行李重量与乘客乘坐的机舱等级有关.
(2)根据题意可得,托运行李重量超出免费行李额且不超过10kg的旅客有7人,从中随机抽取4人,则其中女性旅客的人数可能为1,2,3,4,所以X的所有可能取值为100,200,300,400,,,,,
则X的分布列为
X 100 200 300 400
P
故.
19.【详解】(1)由于两种接种方案都是1000人接受临床试验,10∕次剂量组接种成功的人数为900,20∕次剂量组接种成功的人数为973,,所以20∕次剂量组接种方案效果好.
零假设为H0:该疫苗是否接种成功与接种方案无关.由表中数据得,
,
依据小概率值的独立性检验,我们推断不成立,即认为该疫苗是否接种成功与接种方案有关.
(2)设20∕次剂量组临床试验接种一次成功的概率为p,由数据可知,三次接种成功的概率为,不成功的概率为,
由于三次接种之间互不影响,每人每次接种成功的概率相等,
所以,得,
则参与试验的1000人此剂量只接种一次的成功人数为,又,
所以选用20∕次剂量组接种方案,参与该试验的1000人此剂量接种三次的成功人数比只接种一次的成功人数平均提高273.
20.【详解】(1)(i)由,,
得样本相关系数,
所以,可认为y与x之间有较强的线性相关关系.
(ii)由题意y与x之间的经验回归方程为,
由,解得,所以,
所以可预测外卖甲所获取的日纯利润的最小值为6030元.
(2)根据表格中数据,得,,
,
,
从平均值看,甲的平均值大些,即甲的接单量多些;
从方差看,甲的方差小些,即甲的日接单量波动性小些.
21.【详解】(1)对于模型①,
因为,故对应的,
故对应的相关指数,
对于模型②,同理对应的相关指数,
故模型②拟合效果更好.
(2)当时,
后五组的,
由最小二乘法可得,
所以当时,确定y与x满足的线性回归直线方程为
故当投入20亿元时,预测公司的收益约为:(亿元).
22.【详解】(1)
由散点图可知,图2拟合效果更好、相关系数较大,所以,.
(2)①0.996
②由图2中的线性回归模型得到的相关指数为0.996,是所有回归模型的相关指数中数值最大的,而且2017年是最近的年份,因此选择图2中的线性回归模型来估计2017年的GDP,是比较精准的.
按照图2中的线性回归模型来估计(延长回归直线可发现),2020年不能突破100万亿元.
估计与事实不吻合.综合两张图来考虑,我国的GDP随年份的增长整体上呈现指数增长的趋势,而且2020年比2016年又多发展了4年,指数回归趋于明显,因此,按照线性回归模型得到的估计值与实际数据有偏差、不吻合,属于正常现象.