第八章 成对数据的统计分析全章综合测试卷
参考答案与试题解析
一.选择题(共8小题,满分40分,每小题5分)
1.(5分)(22-23高二下·山西运城·期中)下列说法正确的是( )
A.在统计学中,回归分析是检验两个分类变量是否有关系的一种统计方法
B.线性回归方程对应的直线至少经过其样本数据点中的,,
一个点
C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高
D.在回归分析中,相关指数为的模型比相关指数为的模型拟合的效果差
【解题思路】首先对每个选项一一进行分析,需要明确独立性检验是检验两个分类变量是否有关系的一种统计方法,回归直线可能不过任何一个样本数据点,残差图中,残差点分布的带状区域的宽度越狭窄,其模拟精度越高,相关指数越大,拟合效果越好的结论,就可以正确选出结果.
【解答过程】对于A,统计学中,独立性检验是检验两个分类变量是否有关系的一种统计方法,所以A错;
对于B,线性回归方程对应的直线可能不过任何一个样本数据点,所以B错误;
对于C,残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高,所以C正确;
对于D,回归分析中,相关指数为的模型比相关指数为的模型拟合的效果好,所以D错误.
故选C.
2.(5分)(2023·江苏苏州·模拟预测)为研究某地区疫情结束后一段时间内的复工率,用模型(1)和模型(2)模拟复工率y(%)与复工时间x(x的取值为5,10,15,20,25,30天)的回归关系:模型(1),模型(2),设两模型的决定系数依次为和.若两模型的残差图分别如下,则( )
A.< B.=
C.> D.、关系不能确定
【解题思路】根据残差点图分析拟合效果,从而得到答案.
【解答过程】根据残差点图,模型(2)残差点比较均匀地落在水平的带状区域中,带状区域宽度窄,拟合精度较高,所以<,
故选:A.
3.(5分)(2023·四川达州·一模)四川省将从2022年秋季入学的高一年级学生开始实行高考综合改革,高考采用“3+1+2”模式,其中“1”为首选科目,即物理与历史二选一.某校为了解学生的首选意愿,对部分高一学生进行了抽样调查,制作出如下两个等高条形图,根据条形图信息,下列结论正确的是( )
A.样本中选择物理意愿的男生人数少于选择历史意愿的女生人数
B.样本中女生选择历史意愿的人数多于男生选择历史意愿的人数
C.样本中选择物理学科的人数较多
D.样本中男生人数少于女生人数
【解题思路】根据等高条形图的概念结合条件逐项分析即得.
【解答过程】根据等高条形图图1可知样本中选择物理学科的人数较多,故C正确;
根据等高条形图图2可知样本中男生人数多于女生人数,故D错误;
样本中选择物理学科的人数多于选择历史意愿的人数,而选择物理意愿的男生比例高,选择历史意愿的女生比例低,
所以样本中选择物理意愿的男生人数多于选择历史意愿的女生人数,故A错误;
样本中女生选择历史意愿的人数不一定多于男生选择历史意愿的人数,故B错误.
故选:C.
4.(5分)(2024·广西贵港·模拟预测)设两个相关变量和分别满足,,,2,…,6,若相关变量和可拟合为非线性回归方程,则当时,的估计值为( )
A.32 B.63 C.64 D.128
【解题思路】先通过换元把非线性回归方程转化为线性回归直线方程,从而可以利用公式求系数的值,然后把的值代入即可得到答案.
【解答过程】令,则 ,
,,
所以 ,,
所以,即,
所以当时, .
故选:C.
5.(5分)(23-24高一下·河南郑州·阶段练习)已知具有线性相关的五个样本点,,,,,用最小二乘法得到回归直线方程:,过点,的直线方程:,那么下列4个命题中,①,;②直线过点;③;④,正确命题的个数有( )
A.1个 B.2个 C.3个 D.4个
【解题思路】先求出为,直线的方程为,再逐一分析判断每一个命题真假得解.
【解答过程】由题意可得:,,
则,,
所以线性回归方程为,
直线的方程为:,
故,,,,说法①正确;
,则直线过,说法②正确;
,,说法③错误;
,,说法④错误;
综上可得正确命题的个数有2个.
故选:B.
6.(5分)(23-24高二上·全国·单元测试)某学校校医研究温差(℃)与本校当天新增感冒人数y(人)的关系,该医生记录了5天的数据,且样本中心点为.由于保管不善,记录的5天数据中有两个数据
看不清楚,现用代替,已知,,则下列结论正确的是( )
x 5 6 8 9 12
y 17 m 25 n 35
A.在确定的条件下,去掉样本点,则样本的相关系数r增大
B.在确定的条件下,经过拟合,发现基本符合线性回归方程,则
C.在确定的条件下,经过拟合,发现基本符合线性回归方程,则当时,残差为
D.事件“,”发生的概率为
【解题思路】根据题意,结合回归直线方程的特征及应用,以及古典摡型的概率计算公式和相关系数公式,即可求解.
【解答过程】对于A中,因为回归直线方程过数据的样本中心点,
所以在确定的条件下去掉样本点,则相关系数不变,所以A错误;
对于B中,由样本中心点为,可得,解得,所以B错误;
对于C中,由,当,可得,则,
所以C错误;
对于D中,由,则可取,的可取,
则的取值为,
所以,的概率为,所以D正确.
故选:D.
7.(5分)(2024·黑龙江哈尔滨·二模)针对2025年第九届亚冬会在哈尔滨举办,校团委对“是否喜欢冰雪运动与学生性别的关系”进行了一次调查,其中被调查的男、女生人数相同,男生中喜欢冰雪运动的人数占男生人数的,女生中喜欢冰雪运动的人数占女生人数的,若依据的独立性检验,认为是否喜欢冰雪运动与学生性别有关,则被调查的学生中男生的人数不可( )
附:.
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
A.48 B.54 C.60 D.66
【解题思路】根据已知条件设男生人数为 ,结合独立性检验公式得出不等式,根据的取值,即可求解.
【解答过程】设男生人数为 ,因为被调查的男、女生人数相同,
所以女生人数也为 ,根据题意列出列联表:
男生 女生 合计
喜欢冰雪运动
不喜欢冰雪运动
合计
则,
因为依据的独立性检验,认为是否喜欢冰雪运动与学生性别有关,
所以,即,解得,又,
所以B、C、D正确,A错误.
故选:A.
8.(5分)(23-24高二下·河南南阳·阶段练习)疫苗是为预防 控制传染病的发生 流行,用于人体预防接种的预防性生物制品,其前期研发过程中,一般都会进行动物保护测试,为了考察某种疫苗预防效果,在进行动物试验时,得到如下统计数据:
未发病 发病 总计
未注射疫苗 30
注射疫苗 40
总计 70 30 100
附表及公式:
0.05 0.01 0.005 0.001
3.841 6.635 7.879 10.828
,.
现从试验动物中任取一只,取得“注射疫苗”的概率为0.5,则下列判断错误的是( )
A.注射疫苗发病的动物数为10
B.从该试验未注射疫苗的动物中任取一只,发病的概率为
C.能在犯错概率不超过0.05的前提下,认为疫苗有效
D.该疫苗的有效率为
【解题思路】完善列联表判断A,利用古典概型概率判断B,计算卡方利用独立性检验判断C,利用题目数据判断D.
【解答过程】从试验动物中任取一只,取得“注射疫苗”的概率为0.5,
则取得“注射疫苗”的动物为,完善列联表得:
未发病 发病 总计
未注射疫苗 30 20 50
注射疫苗 40 10 50
总计 70 30 100
所以注射疫苗发病的动物数为50-40=10,故选项A正确;
从该试验未注射疫苗的动物中任取一只,发病的概率为,故选项B正确;
又,
所以能在犯错概率不超过0.05的前提下,认为疫苗有效,故选项C正确;
对于选项D,虽说注射疫苗的动物中不发病的频率为,
但是未注射疫苗的动物中也有不发病的情况,错误.
故选:D.
二.多选题(共4小题,满分20分,每小题5分)
9.(5分)(23-24高三上·江苏常州·阶段练习)下列命题正确的是( )
A.若样本数据的方差为2,则数据的方差为7
B.若,则.
C.在一组样本数据,(,,不全相等)的散点图中,若所有样本点都在直线上,则这组样本数据的线性相关系数为
D.以模型去拟合一组数据时,为了求出经验回归方程,设,求得线性回归方程为,则的值分别是和4
【解题思路】利用方差的概念,条件概率公式,线性回归分析等知识分别对每个选项逐一判断即可.
【解答过程】对于选项A:若样本数据的方差为2,则数据的方差为,故A不正确;
对于选项B:若,则
,故B正确;
对于选项C:在一组样本数据,(,,不全相等)的散点图中,若所有样本点都在直线上,其中是线性回归方程的一次项系数,不是相关系数,相关系数是刻画一组数据线性相关程度一个量,范围是[ 1,1],当相关系数为正时呈正相关关系,为负时呈负相关关系,故C不正确;
对于选项D:以模型去拟合一组数据时,为了求出经验回归方程,设,
则,由题线性回归方程为,则,故的值分别是和4,故D正确.
故选:BD.
10.(5分)(22-23高二下·重庆长寿·期末)2022年6月18日,很多商场都在搞促销活动.重庆市物价局派人对5个商场某商品同一天的销售量及其价格进行调查,得到该商品的售价元和销售量件之间的一组数据如下表所示:
90 95 100 105 110
11 10 8 6 5
用最小二乘法求得关于的经验回归直线是,相关系数,则下列说法正确的有( )
A.变量与负相关且相关性较强
B.
C.当时,的估计值为13
D.相应于点的残差为
【解题思路】根据相关性、相关系数判断A,利用样本中心点判断B,将代入回归直线方程判断C,
求得时的估计值,进而求得对应的残差,从而判断D.
【解答过程】对A,由回归直线可得变量,线性负相关,且由相关系数可知相关性强,故A正确;
对B,由题可得,,
故回归直线恒过点,故,即,故B正确;
对C,当时,,故C错误;
对D,相应于点的残差,故D正确.
故选:ABD.
11.(5分)(23-24高三·重庆渝中·阶段练习)小明在家独自用下表分析高三前5次月考中数学的班级排名y与考试次数x的相关性时,忘记了第二次和第四次月考排名,但小明记得平均排名,于是分别用m=6和m=8得到了两条回归直线方程:,,对应的相关系数分别为、,排名y对应的方差分别为、,则下列结论正确的是( )
x 1 2 3 4 5
y 10 m 6 n 2
(附:,)
A. B. C. D.
【解题思路】根据表格中的数据和最小二乘法、相关系数的计算公式分别计算当、时的、相关系数(r)和方差(),进而比较大小即可.
【解答过程】当时,,解得,
则 ,
,,
,
,
所以,
得,
,
;
同理,当时,,,
所以,
故选:BD.
12.(5分)(2023·全国·模拟预测)某校有在校学生900人,其中男生400人,女生500人,为了解该校学生对学校课后延时服务的满意度,随机调查了40名男生和50名女生.每位被调查的学生都对学校的课后延时服务给出了满意或不满意的评价,统计过程中发现随机从这90人中抽取一人,此人评价为满意的概率为.在制定列联表时,由于某些因素缺失了部分数据,而获得如下列联表,下列结论正确的是( )
满意 不满意 合计
男 10
女
合计 90
参考公式与临界值表,其中.
0.100 0.050 0.025 0.010 0.001
2.706 3.841 5.024 6.635 10.828
A.满意度的调查过程采用了分层抽样的抽样方法
B.50名女生中对课后延时服务满意的人数为20
C.的观测值为9
D.根据小概率的独立性检验,不可以认为“对课后延时服务的满意度与性别有关系”
【解题思路】根据题意计算男女比例,即可判断A选项;计算满意的总人数人数,根据男生满意人数即可得女生满意人数判断B选项;由列联表中数据计算的值即可判断C、D选项.
【解答过程】A选项,因为在校学生中有400名男生,500名女生,随机调查了40名男生和50名女生,
男女比例始终是4:5,所以采用了分层抽样的方法,故A正确;
B选项,调查的90人中,对学校课后延时服务满意的人数为,
其中男生满意的人数为,所以女生满意的人数为30,女生不满意的人数为20,故B错误;
C选项,由B选项的分析,补全列联表如下:
满意 不满意 合计
男 30 10 40
女 30 20 50
合计 60 30 90
由列联表可得,故C错误;
D选项,:对课后延时服务的满意度与性别无关,由,
根据小概率的独立性检验,没有充足的证据推断不成立,
即不能认为“对课后延时服务的满意度与性别有关系”,故D正确.
故选:AD.
三.填空题(共4小题,满分20分,每小题5分)
13.(5分)(22-23高二下·黑龙江·期中)已知下列命题:
①在线性回归模型中,相关指数越接近于1,表示回归效果越好;
②两个变量相关性越强,则相关系数r就越接近于1;
③在回归直线方程中,当解释变量每增加一个单位时,预报变量平均减少0.5个单位;
④两个模型中残差平方和越小的模型拟合的效果越好.
⑤回归直线恒过样本点的中心,且至少过一个样本点;
⑥若的观测值满足≥6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;
⑦从统计量中得知有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误. 其中正确命题的序号是 ①③④⑦ .
【解题思路】根据线性回归分析的概念进行分析即可.
【解答过程】在线性回归模型中,相关指数越接近于1,表示回归效果越好,①正确;两个变量相关性越强,则相关系数r的绝对值就越接近于1,②错误;③正确;两个模型中残差平方和越小的模型拟合的效果越好,④正确;回归直线恒过样本点的中心,不一定过样本点,⑤错误;若的观测值满足≥6.635,我们有99%的把握认为吸烟与患肺病有关系,并不能说在100个吸烟的人中必有99人患有肺病,⑥错误;从统计量中得知有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误,⑦正确.
故答案为:①③④⑦.
14.(5分)(22-23高二下·江苏扬州·期末)现调查某地区某种野生动物的数量,将该地区分成面积相近的200个地块,从这些地块中简单随机抽样的方法抽取20个作为样本,调查得到样本数据,其中分别表示第个样本的植物覆盖面积(单位:公顷)和这种野生动物的数量,构造向量,,其中,,并计算得,,,,,由选择性必修二教材中的知识,我们知道对数据的相关系数,则上述数据的相关系数 .
【解题思路】根据题干中相关系数的定义进行计算.
【解答过程】由题干数据,,可得,
根据夹角公式的定义,,而,
根据
,
于是.
故答案为:.
15.(5分)(22-23高三上·江西新余·期末)在新冠疫情政策改变后,某社区统计了核酸检测为阳性的人数,用表示天数,表示每天核酸检测为阳性的人数,统计数据如下表所示:
1 2 3 4 5 6 7
6 11 21 34 66 101 196
根据散点图判断,核酸检测为阳性的人数关于天数的回归方程适合用来表示,则其回归方程为 .
参考数据:设,,,
参考公式:对于一组数据,,….其回归直线的斜率和截距的最小二乘估计公式分别为:,
【解题思路】
由题可得,然后根据最小二乘法即得.
【解答过程】由,可得,
设,则,
因为,,
,
所以,
,
所以,
所以.
故答案为:.
16.(5分)(23-24高三上·宁夏银川·阶段练习)有甲、乙两个班级共计105 人进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:
优秀 非优秀 总计
甲班 10 b
乙班 c 30
附: 其中.
0.10 0.05 0.025 0.010 0.0005 0.001
2.706 3.841 5.024 6.635 7.879 10.828
已知在全部 105人中随机抽取1人,成绩优秀的概率为 ,则下列说法正确的是 ②③ .
①列联表中c的值为30,b的值为35;
②列联表中c的值为20,b的值为 45;
③根据列联表中的数据,若按的可靠性要求,能认为“成绩与班级有关系”;
④根据列联表中的数据,若按的可靠性要求,不能认为“成绩与班级有关系”.
【解题思路】由成绩优秀的概率,可求的成绩优秀的人数,进而求出非优秀人数,得到的值,计算的观测值,对照题目中的表格,即可得到结论.
【解答过程】由题意,在全部的105人中随机抽取1人,成绩优秀的概率为,
所以成绩优秀的人数为人,非优秀的人数为人,
所以,故①错误,②正确;
则,
若按的可靠性要求,能认为“成绩与班级有关系”,故③正确,④错误.
故答案为:②③.
四.解答题(共6小题,满分70分)
17.(10分)(23-24高二·全国·课时练习)近年来,“共享汽车”在我国各城市迅猛发展,为人们的出行提供了便利,但也给城市交通管理带来了一些困难.为了解“共享汽车”在M省的发展情况,M省某调查机构从该省随机拍取了5个城市,分别收集和分析了“共享汽车”的A,B,C三项指标数据,, ,数据如下表所示;
城市编号i 1 2 3 4 5
A指标 4 6 2 8 5
B指标 4 4 3 5 4
C指标 3 6 2 5 4
(1)分别求y与x之间的相关系数及z与x之间的相关系数,并比较y与x,z与x之间相关性的强弱;
(2)利用向量夹角来分析y与x之间及z与x之间的相关关系.
附:相关系数.
参考数据:,,,
,,,.
【解题思路】(1)应用相关系数公式求,并比较大小,即可得结论;
(2)将各数据集中数据减去对应平均数得到数据集对应的向量,应用向量夹角的坐标表示求向量夹角余弦值,根据其符号和绝对值大小,确定结论.
【解答过程】(1)由已知,,,,
所以,
,
所以y与x、z与x正相关,又,则y与x之间的相关性比z与x之间的相关性强.
(2)由(1)知:,,,
将题表中x,y,z的相关数据分别减去,,,
记,
,
,
则,,,
于是,
,
所以y与x、z与x正相关,又,则y与x之间的相关性比z与x之间的相关性强.
18.(12分)(22-23高二下·山西运城·期中)某企业通过调查问卷的形式对本企业900名员工的工作满意程度进行调查,并随机抽取了其中30名员工(16名女工,14名男工)的得分,如下表:
女 47 36 32 48 34 44 43 47 46 41 43 42 50 43 35 49
男 37 35 34 43 46 36 38 40 39 32 48 33 40 34
(1)根据以上数据,估计该企业得分大于45分的员工人数;
(2)现用计算器求得这30名员工的平均得分为40.5分,若规定大于平局得分为 “满意”,否则为 “不满意”,请完成下列表格:
“满意”的人数 “不满意”的人数 合计
女员工 16
男员工 14
合计 30
(3)根据上述表中数据,利用独立性检验的方法判断,能否在犯错误的概率不超过1%的前提下,认为该企业员工“性别”与“工作是否满意”有关?
参考数据:
P(K2K) 0.10 0.050 0.025 0.010 0.001
K 2.706 3.841 5.024 6.635 10.828
【解题思路】第一问首先从表中查找得分大于45分的人数,求得比值即为概率,应用对应的关系式求得相应的人数;第二问按照条件,将男女员工对应的分数分析比较,进行分类,从而将相应的数据填入表中,得到列联表;第三问利用公式求得观测值,判断出结果即可.
【解答过程】(1)从表中可知,30名员工有8名得分大于45分,所以任选一名员工,他(她)的得分大于45分的概率是,所以估计此次调查中,该单位约有名员工的得分大于45分;
(2)依题意,完成列联表如下:
“满意”的人数 “不满意”的人数 合计
女员工 12 4 16
男员工 3 11 14
合计 15 15 30
(3)假设:性别与工作是否满意无关,根据表中数据,求得的观测值:
,
查表得,
能在犯错误的概率不超过1%的前提下,认为性别与工作是否满意有关.
19.(12分)(23-24高三上·山西朔州·开学考试)某校20名学生的数学成绩和知识竞赛成绩如下表:
学生编号i 1 2 3 4 5 6 7 8 9 10
数学成绩 100 99 96 93 90 88 85 83 80 77
知识竞赛成绩 290 160 220 200 65 70 90 100 60 270
学生编号i 11 12 13 14 15 16 17 18 19 20
数学成绩 75 74 72 70 68 66 60 50 39 35
知识竞赛成绩 45 35 40 50 25 30 20 15 10 5
计算可得数学成绩的平均值是,知识竞赛成绩的平均值是,并且,,.
(1)求这组学生的数学成绩和知识竞赛成绩的样本相关系数(精确到0.01);
(2)设,变量和变量的一组样本数据为,其中两两不相同,两两不相同.记在中的排名是第位,在中的排名是第位,.定义变量和变量的“斯皮尔曼相关系数”(记为)为变量的排名和变量的排名的样本相关系数.
(i)记,.证明:;
(ii)用(i)的公式求得这组学生的数学成绩和知识竞赛成绩的“斯皮尔曼相关系数”约为0.91,简述“斯皮
尔曼相关系数”在分析线性相关性时的优势.
注:参考公式与参考数据.
;;.
【解题思路】(1)利用相关系数的公式进行计算即可;
(2)(i)根据题意即相关系数的公式进行计算即可证明;(ii)只要能说出斯皮尔曼相关系数与一般的样本相关系数相比的优势即可.
【解答过程】(1)由题意,这组学生数学成绩和知识竞赛成绩的样本相关系数为
;
(2)
(i)证明:因为和都是1,2,,的一个排列,所以
,
,
从而和的平均数都是.
因此, ,
同理可得,
由于
,
所以.
(ii)这组学生的数学成绩和知识竞赛成绩的斯皮尔曼相关系数是0.91,
答案①:斯皮尔曼相关系数对于异常值不太敏感,如果数据中有明显的异常值,那么用斯皮尔曼相关系数比用样本相关系数更能刻画某种线性关系;
答案②:斯皮尔曼相关系数刻画的是样本数据排名的样本相关系数,与具体的数值无关,只与排名有关.如
果一组数据有异常值,但排名依然符合一定的线性关系,则可以采用斯皮尔曼相关系数刻画线性关系.
20.(12分)(2023·湖南益阳·模拟预测)为了研究学生每天整理数学错题情况,某课题组在某市中学生中随机抽取了100名学生调查了他们期中考试的数学成绩和平时整理数学错题情况,并绘制了下列两个统计图表,图1为学生期中考试数学成绩的频率分布直方图,图2为学生一个星期内整理数学错题天数的扇形图.若本次数学成绩在110分及以上视为优秀,将一个星期有4天及以上整理数学错题视为“经常整理”,少于4天视为“不经常整理”.已知数学成绩优秀的学生中,经常整理错题的学生占.
数学成绩优秀 数学成绩不优秀 合计
经常整理
不经常整理
合计
(1)求图1中的值以及学生期中考试数学成绩的上四分位数;
(2)根据图1、图2中的数据,补全上方列联表,并根据小概率值的独立性检验,分析数学成绩优秀与经常整理数学错题是否有关
(3)用频率估计概率,在全市中学生中按“经常整理错题”与“不经常整理错题”进行分层抽样,随机抽取5名学生,再从这5名学生中随机抽取2人进行座谈.求这2名同学中经常整理错题且数学成绩优秀的人数X的分布列和数学期望.
附:
【解题思路】(1)利用频率分布直方图各个小矩形的面积和为1,求出的值,进而可求出上四分位数;
(2)先求出数学优秀和不优秀的人,常整理错题和不经常整理错题的人,得到列联表,根据列联表求出值,从而得出判断;
(3)先求出的可能取值,并求出相应取值的概率,从而求出分布列和期望.
【解答过程】(1)由题意可得,
解得,
学生期中考试数学成绩的上四分位数为:分;
(2)数学成绩优秀的有人,不优秀的人人,经常整理错题的有人,不经常整理错题的是人,经常整理错题且成绩优秀的有人,则
数学成绩优秀 数学成绩不优秀 合计
经常整理 35 25 60
不经常整理 15 25 40
合计 50 50 100
零假设为:数学成绩优秀与经常整理数学错题无关,
根据列联表中的数据,经计算得到可得,
根据小概率值的独立性检验,我们推断不成立,
即认为数学成绩优秀与经常整理数学错题有关联,此推断犯错误的概率不大于;
(3)由分层抽样知,随机抽取的5名学生中经常整理错题的有3人,不经常整理错题的有2人,则可能取为0,1,2,
经常整理错题的3名学生中,恰抽到k人记为事件,则
参与座谈的2名学生中经常整理错题且数学成绩优秀的恰好抽到人记为事件
则,,,,
,,
,
,
,
故X的分布列如下:
X 0 1 2
P
则可得X的数学期望为
21.(12分)(22-23高三上·山东青岛·期末)由个小正方形构成长方形网格有行和列.每次将一个小球放到一个小正方形内,放满为止,记为一轮.每次放白球的频率为,放红球的概率为q,.
(1)若,,记表示100轮放球试验中“每一列至少一个红球”的轮数,统计数据如表:
n 1 2 3 4 5
y 76 56 42 30 26
求y关于n的回归方程,并预测时,y的值;(精确到1)
(2)若,,,,记在每列都有白球的条件下,含红球的行数为随机变量,求的分布列和数学期望;
(3)求事件“不是每一列都至少一个红球”发生的概率,并证明:.
附:经验回归方程系数:,,,.
【解题思路】(1)根据所给数据,结合经验回归方程系数公式,即可求得回归方程,继而求得预测值;
(2)确定X的取值可能为,根据条件概率的概率公式求得每一个值对应的概率,即可得分布列,继而求得期望;
(3)求得每一列都至少一个红球的概率,根据对立事件的概率公式可得事件“不是每一列都至少一个红球”发生的概率,再求得“每一行都至少一个白球”的概率,结合两事件的关系可得其概率大小关系,即可证明结论.
【解答过程】(1)由题意知 ,
故,
所以 ,
所以线性回归方程为: ,
所以,估计时,.
(2)由题意知:,,,,
则X的取值可能为,
记“含红球的行数为k”为事件,记“每列都有白球”为事件B,
所以 ,
,
,
所以X的分布列为:
0 1 2
所以数学期望为.
(3)证明:因为每一列至少一个红球的概率为 ,
记“不是每一列都至少一个红球”为事件A,所以,
记“每一行都至少一个白球”为事件B,所以,
显然, ,所以 ,
即,所以.
22.(12分)(23-24高三上·广东深圳·期中)红蜘蛛是柚子的主要害虫之一,能对柚子树造成严重伤害,每只红蜘蛛的平均产卵数y(个)和平均温度x(℃)有关,现收集了以往某地的7组数据,得到下面的散点图及一些统计量的值.
(1)根据散点图判断,与(其中…为自然对数的底数)哪一个更适合作为平均产卵数y(个)关于平均温度x(℃)的回归方程类型?(给出判断即可,不必说明理由)
(2)由(1)的判断结果及表中数据,求出y关于x的回归方程.(计算结果精确到0.1)
附:回归方程中,,
参考数据()
5215 17713 714 27 81.3 3.6
(3)根据以往每年平均气温以及对果园年产值的统计,得到以下数据:平均气温在22℃以下的年数占60%,对柚子产量影响不大,不需要采取防虫措施;平均气温在22℃至28℃的年数占30%,柚子产量会下降20%;平均气温在28℃以上的年数占10%,柚子产量会下降50%.为了更好的防治红蜘蛛虫害,农科所研发出各种防害措施供果农选择.
在每年价格不变,无虫害的情况下,某果园年产值为200万元,根据以上数据,以得到最高收益(收益=产值-防害费用)为目标,请为果农从以下几个方案中推荐最佳防害方案,并说明理由.
方案1:选择防害措施A,可以防止各种气温的红蜘蛛虫害不减产,费用是18万;
方案2:选择防害措施B,可以防治22℃至28℃的蜘蛛虫害,但无法防治28℃以上的红蜘蛛虫害,费用是10万;
方案3:不采取防虫害措施.
【解题思路】(1)根据散点图的形状,可判断更适宜作为平均产卵数y关于平均温度x的回归方
程类型;
(2)将两边同时取自然对数,转化为线性回归方程,即可得到答案;
(3)求出三种方案的收益的均值,根据均值越大作为判断标准.
【解答过程】(1)由散点图可以判断,更适宜作为平均产卵数y关于平均温度x的回归方程类型.
(2)将两边同时取自然对数,可得,
由题中的数据可得,,,
所以,
则,
所以z关于x的线性回归方程为,
故y关于x的回归方程为;
(3)用,和分别表示选择三种方案的收益.
采用第1种方案,无论气温如何,产值不受影响,收益为万,即
采用第2种方案,不发生28℃以上的红蜘蛛虫害,收益为万,
如果发生,则收益为万,即,
同样,采用第3种方案,有
所以,,
,
.
显然,最大,所以选择方案1最佳.第八章 成对数据的统计分析全章综合测试卷
【人教A版(2019)】
考试时间:120分钟;满分:150分
姓名:___________班级:___________考号:___________
考卷信息:
本卷试题共22题,单选8题,多选4题,填空4题,解答6题,满分150分,限时120分钟,本卷题型针对性
较高,覆盖面广,选题有深度,可衡量学生掌握本章内容的具体情况!
一.选择题(共8小题,满分40分,每小题5分)
1.(5分)(22-23高二下·山西运城·期中)下列说法正确的是( )
A.在统计学中,回归分析是检验两个分类变量是否有关系的一种统计方法
B.线性回归方程对应的直线至少经过其样本数据点中的,,
一个点
C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高
D.在回归分析中,相关指数为的模型比相关指数为的模型拟合的效果差
2.(5分)(2023·江苏苏州·模拟预测)为研究某地区疫情结束后一段时间内的复工率,用模型(1)和模型(2)模拟复工率y(%)与复工时间x(x的取值为5,10,15,20,25,30天)的回归关系:模型(1),模型(2),设两模型的决定系数依次为和.若两模型的残差图分别如下,则( )
A.< B.=
C.> D.、关系不能确定
3.(5分)(2023·四川达州·一模)四川省将从2022年秋季入学的高一年级学生开始实行高考综合改革,高考采用“3+1+2”模式,其中“1”为首选科目,即物理与历史二选一.某校为了解学生的首选意愿,对部分高一学生进行了抽样调查,制作出如下两个等高条形图,根据条形图信息,下列结论正确的是( )
A.样本中选择物理意愿的男生人数少于选择历史意愿的女生人数
B.样本中女生选择历史意愿的人数多于男生选择历史意愿的人数
C.样本中选择物理学科的人数较多
D.样本中男生人数少于女生人数
4.(5分)(2024·广西贵港·模拟预测)设两个相关变量和分别满足,,,2,…,6,若相关变量和可拟合为非线性回归方程,则当时,的估计值为( )
A.32 B.63 C.64 D.128
5.(5分)(23-24高一下·河南郑州·阶段练习)已知具有线性相关的五个样本点,,,,,用最小二乘法得到回归直线方程:,过点,的直线方程:,那么下列4个命题中,①,;②直线过点;③;④,正确命题的个数有( )
A.1个 B.2个 C.3个 D.4个
6.(5分)(23-24高二上·全国·单元测试)某学校校医研究温差(℃)与本校当天新增感冒人数y(人)的关系,该医生记录了5天的数据,且样本中心点为.由于保管不善,记录的5天数据中有两个数据看不清楚,现用代替,已知,,则下列结论正确的是( )
x 5 6 8 9 12
y 17 m 25 n 35
A.在确定的条件下,去掉样本点,则样本的相关系数r增大
B.在确定的条件下,经过拟合,发现基本符合线性回归方程,则
C.在确定的条件下,经过拟合,发现基本符合线性回归方程,则当时,残差为
D.事件“,”发生的概率为
7.(5分)(2024·黑龙江哈尔滨·二模)针对2025年第九届亚冬会在哈尔滨举办,校团委对“是否喜欢冰雪运动与学生性别的关系”进行了一次调查,其中被调查的男、女生人数相同,男生中喜欢冰雪运动的人数占男生人数的,女生中喜欢冰雪运动的人数占女生人数的,若依据的独立性检验,认为是否喜欢冰雪运动与学生性别有关,则被调查的学生中男生的人数不可( )
附:.
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
A.48 B.54 C.60 D.66
8.(5分)(23-24高二下·河南南阳·阶段练习)疫苗是为预防 控制传染病的发生 流行,用于人体预防接种的预防性生物制品,其前期研发过程中,一般都会进行动物保护测试,为了考察某种疫苗预防效果,在进行动物试验时,得到如下统计数据:
未发病 发病 总计
未注射疫苗 30
注射疫苗 40
总计 70 30 100
附表及公式:
0.05 0.01 0.005 0.001
3.841 6.635 7.879 10.828
,.
现从试验动物中任取一只,取得“注射疫苗”的概率为0.5,则下列判断错误的是( )
A.注射疫苗发病的动物数为10
B.从该试验未注射疫苗的动物中任取一只,发病的概率为
C.能在犯错概率不超过0.05的前提下,认为疫苗有效
D.该疫苗的有效率为
二.多选题(共4小题,满分20分,每小题5分)
9.(5分)(23-24高三上·江苏常州·阶段练习)下列命题正确的是( )
A.若样本数据的方差为2,则数据的方差为7
B.若,则.
C.在一组样本数据,(,,不全相等)的散点图中,若所有样本点都在直线上,则这组样本数据的线性相关系数为
D.以模型去拟合一组数据时,为了求出经验回归方程,设,求得线性回归方程为,则的值分别是和4
10.(5分)(22-23高二下·重庆长寿·期末)2022年6月18日,很多商场都在搞促销活动.重庆市物价局派人对5个商场某商品同一天的销售量及其价格进行调查,得到该商品的售价元和销售量件之间的一组数据如下表所示:
90 95 100 105 110
11 10 8 6 5
用最小二乘法求得关于的经验回归直线是,相关系数,则下列说法正确的有( )
A.变量与负相关且相关性较强
B.
C.当时,的估计值为13
D.相应于点的残差为
11.(5分)(23-24高三·重庆渝中·阶段练习)小明在家独自用下表分析高三前5次月考中数学的班级排名y与考试次数x的相关性时,忘记了第二次和第四次月考排名,但小明记得平均排名,于是分别用m=6和m=8得到了两条回归直线方程:,,对应的相关系数分别为、,排名y对应的方差分别为、,则下列结论正确的是( )
x 1 2 3 4 5
y 10 m 6 n 2
(附:,)
A. B. C. D.
12.(5分)(2023·全国·模拟预测)某校有在校学生900人,其中男生400人,女生500人,为了解该校学生对学校课后延时服务的满意度,随机调查了40名男生和50名女生.每位被调查的学生都对学校的课后延时服务给出了满意或不满意的评价,统计过程中发现随机从这90人中抽取一人,此人评价为满意的概率为.在制定列联表时,由于某些因素缺失了部分数据,而获得如下列联表,下列结论正确的是( )
满意 不满意 合计
男 10
女
合计 90
参考公式与临界值表,其中.
0.100 0.050 0.025 0.010 0.001
2.706 3.841 5.024 6.635 10.828
A.满意度的调查过程采用了分层抽样的抽样方法
B.50名女生中对课后延时服务满意的人数为20
C.的观测值为9
D.根据小概率的独立性检验,不可以认为“对课后延时服务的满意度与性别有关系”
三.填空题(共4小题,满分20分,每小题5分)
13.(5分)(22-23高二下·黑龙江·期中)已知下列命题:
①在线性回归模型中,相关指数越接近于1,表示回归效果越好;
②两个变量相关性越强,则相关系数r就越接近于1;
③在回归直线方程中,当解释变量每增加一个单位时,预报变量平均减少0.5个单位;
④两个模型中残差平方和越小的模型拟合的效果越好.
⑤回归直线恒过样本点的中心,且至少过一个样本点;
⑥若的观测值满足≥6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;
⑦从统计量中得知有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误. 其中正确命题的序号是 .
14.(5分)(22-23高二下·江苏扬州·期末)现调查某地区某种野生动物的数量,将该地区分成面积相近的200个地块,从这些地块中简单随机抽样的方法抽取20个作为样本,调查得到样本数据,其中分别表示第个样本的植物覆盖面积(单位:公顷)和这种野生动物的数量,构造向量,,其中,,并计算得,,,,,由选择性必修二教材中的知识,我们知道对数据的相关系数,则上述数据的相关系数 .
15.(5分)(22-23高三上·江西新余·期末)在新冠疫情政策改变后,某社区统计了核酸检测为阳性的人数,用表示天数,表示每天核酸检测为阳性的人数,统计数据如下表所示:
1 2 3 4 5 6 7
6 11 21 34 66 101 196
根据散点图判断,核酸检测为阳性的人数关于天数的回归方程适合用来表示,则其回归方程为 .
参考数据:设,,,
参考公式:对于一组数据,,….其回归直线的斜率和截距的最小二乘估计公式分别为:,
16.(5分)(23-24高三上·宁夏银川·阶段练习)有甲、乙两个班级共计105 人进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:
优秀 非优秀 总计
甲班 10 b
乙班 c 30
附: 其中.
0.10 0.05 0.025 0.010 0.0005 0.001
2.706 3.841 5.024 6.635 7.879 10.828
已知在全部 105人中随机抽取1人,成绩优秀的概率为 ,则下列说法正确的是 .
①列联表中c的值为30,b的值为35;
②列联表中c的值为20,b的值为 45;
③根据列联表中的数据,若按的可靠性要求,能认为“成绩与班级有关系”;
④根据列联表中的数据,若按的可靠性要求,不能认为“成绩与班级有关系”.
四.解答题(共6小题,满分70分)
17.(10分)(23-24高二·全国·课时练习)近年来,“共享汽车”在我国各城市迅猛发展,为人们的出行提供了便利,但也给城市交通管理带来了一些困难.为了解“共享汽车”在M省的发展情况,M省某调查机构从该省随机拍取了5个城市,分别收集和分析了“共享汽车”的A,B,C三项指标数据,, ,数据如下表所示;
城市编号i 1 2 3 4 5
A指标 4 6 2 8 5
B指标 4 4 3 5 4
C指标 3 6 2 5 4
(1)分别求y与x之间的相关系数及z与x之间的相关系数,并比较y与x,z与x之间相关性的强弱;
(2)利用向量夹角来分析y与x之间及z与x之间的相关关系.
附:相关系数.
参考数据:,,,
,,,.
18.(12分)(22-23高二下·山西运城·期中)某企业通过调查问卷的形式对本企业900名员工的工作满意程度进行调查,并随机抽取了其中30名员工(16名女工,14名男工)的得分,如下表:
女 47 36 32 48 34 44 43 47 46 41 43 42 50 43 35 49
男 37 35 34 43 46 36 38 40 39 32 48 33 40 34
(1)根据以上数据,估计该企业得分大于45分的员工人数;
(2)现用计算器求得这30名员工的平均得分为40.5分,若规定大于平局得分为 “满意”,否则为 “不满意”,请完成下列表格:
“满意”的人数 “不满意”的人数 合计
女员工 16
男员工 14
合计 30
(3)根据上述表中数据,利用独立性检验的方法判断,能否在犯错误的概率不超过1%的前提下,认为该企业员工“性别”与“工作是否满意”有关?
参考数据:
P(K2K) 0.10 0.050 0.025 0.010 0.001
K 2.706 3.841 5.024 6.635 10.828
19.(12分)(23-24高三上·山西朔州·开学考试)某校20名学生的数学成绩和知识竞赛成绩如下表:
学生编号i 1 2 3 4 5 6 7 8 9 10
数学成绩 100 99 96 93 90 88 85 83 80 77
知识竞赛成绩 290 160 220 200 65 70 90 100 60 270
学生编号i 11 12 13 14 15 16 17 18 19 20
数学成绩 75 74 72 70 68 66 60 50 39 35
知识竞赛成绩 45 35 40 50 25 30 20 15 10 5
计算可得数学成绩的平均值是,知识竞赛成绩的平均值是,并且,,.
(1)求这组学生的数学成绩和知识竞赛成绩的样本相关系数(精确到0.01);
(2)设,变量和变量的一组样本数据为,其中两两不相同,两两不相同.记在中的排名是第位,在中的排名是第位,.定义变量和变量的“斯皮尔曼相关系数”(记为)为变量的排名和变量的排名的样本相关系数.
(i)记,.证明:;
(ii)用(i)的公式求得这组学生的数学成绩和知识竞赛成绩的“斯皮尔曼相关系数”约为0.91,简述“斯皮尔曼相关系数”在分析线性相关性时的优势.
注:参考公式与参考数据.
;;.
20.(12分)(2023·湖南益阳·模拟预测)为了研究学生每天整理数学错题情况,某课题组在某市中学生中
随机抽取了100名学生调查了他们期中考试的数学成绩和平时整理数学错题情况,并绘制了下列两个统计图表,图1为学生期中考试数学成绩的频率分布直方图,图2为学生一个星期内整理数学错题天数的扇形图.若本次数学成绩在110分及以上视为优秀,将一个星期有4天及以上整理数学错题视为“经常整理”,少于4天视为“不经常整理”.已知数学成绩优秀的学生中,经常整理错题的学生占.
数学成绩优秀 数学成绩不优秀 合计
经常整理
不经常整理
合计
(1)求图1中的值以及学生期中考试数学成绩的上四分位数;
(2)根据图1、图2中的数据,补全上方列联表,并根据小概率值的独立性检验,分析数学成绩优秀与经常整理数学错题是否有关
(3)用频率估计概率,在全市中学生中按“经常整理错题”与“不经常整理错题”进行分层抽样,随机抽取5名学生,再从这5名学生中随机抽取2人进行座谈.求这2名同学中经常整理错题且数学成绩优秀的人数X的分布列和数学期望.
附:
21.(12分)(22-23高三上·山东青岛·期末)由个小正方形构成长方形网格有行和列.每次将一个小球放到一个小正方形内,放满为止,记为一轮.每次放白球的频率为,放红球的概率为q,.
(1)若,,记表示100轮放球试验中“每一列至少一个红球”的轮数,统计数据如表:
n 1 2 3 4 5
y 76 56 42 30 26
求y关于n的回归方程,并预测时,y的值;(精确到1)
(2)若,,,,记在每列都有白球的条件下,含红球的行数为随机变量,求的分布列和数学期望;
(3)求事件“不是每一列都至少一个红球”发生的概率,并证明:.
附:经验回归方程系数:,,,.
22.(12分)(23-24高三上·广东深圳·期中)红蜘蛛是柚子的主要害虫之一,能对柚子树造成严重伤害,每只红蜘蛛的平均产卵数y(个)和平均温度x(℃)有关,现收集了以往某地的7组数据,得到下面的散点图及一些统计量的值.
(1)根据散点图判断,与(其中…为自然对数的底数)哪一个更适合作为平均产
卵数y(个)关于平均温度x(℃)的回归方程类型?(给出判断即可,不必说明理由)
(2)由(1)的判断结果及表中数据,求出y关于x的回归方程.(计算结果精确到0.1)
附:回归方程中,,
参考数据()
5215 17713 714 27 81.3 3.6
(3)根据以往每年平均气温以及对果园年产值的统计,得到以下数据:平均气温在22℃以下的年数占60%,对柚子产量影响不大,不需要采取防虫措施;平均气温在22℃至28℃的年数占30%,柚子产量会下降20%;平均气温在28℃以上的年数占10%,柚子产量会下降50%.为了更好的防治红蜘蛛虫害,农科所研发出各种防害措施供果农选择.
在每年价格不变,无虫害的情况下,某果园年产值为200万元,根据以上数据,以得到最高收益(收益=产值-防害费用)为目标,请为果农从以下几个方案中推荐最佳防害方案,并说明理由.
方案1:选择防害措施A,可以防止各种气温的红蜘蛛虫害不减产,费用是18万;
方案2:选择防害措施B,可以防治22℃至28℃的蜘蛛虫害,但无法防治28℃以上的红蜘蛛虫害,费用是10万;
方案3:不采取防虫害措施.