中小学教育资源及组卷应用平台
第八章 成对数据的统计分析 章末综合提升试题
2024-2025学年数学人教A版(2019) 选择性必修第三册
一、单选题
1.下图是遂宁市2022年4月至2023年3月每月最低气温与最高气温(℃)的折线统计图:已知每月最低气温与最高气温的线性相关系数,则下列结论正确的是( )
A.月温差(月最高气温﹣月最低气温)的最大值出现在8月
B.每月最低气温与最高气温有较强的线性相关性,且二者为线性负相关
C.每月最高气温与最低气温的平均值在4-8月逐月增加
D.9﹣12月的月温差相对于5﹣8月,波动性更小
2.为研究某池塘中水生植物的覆盖水塘面积(单位:)与水生植物的株数(单位:株)之间的相关关系,收集了4组数据,用模型去拟合与的关系,设与的数据如表格所示:得到与的线性回归方程,则( )
3 4 6 7
2 2.5 4.5 7
A.-2 B.-1 C. D.
3.云计算是信息技术发展的集中体现,近年来,我国云计算市场规模持续增长.已知某科技公司2018年至2022年云计算市场规模数据,且市场规模y与年份代码x的关系可以用模型(其中e为自然对数的底数)拟合,设,得到数据统计表如下:
年份 2018年 2019年 2020年 2021年 2022年
年份代码x 1 2 3 4 5
云计算市场规模y/千万元 7.4 11 20 36.6 66.7
2 2.4 3 3.6 4
由上表可得经验回归方程,则2025年该科技公司云计算市场规模y的估计值为( )
A. B. C. D.
4.某商品的地区经销商对2023年1月到5月该商品的销售情况进行了调查,得到如下统计表.发现销售量y(万件)与时间x(月)成线性相关,根据表中数据,利用最小二乘法求得y与x的回归直线方程为:.则下列说法错误的是( )
时间x(月) 1 2 3 4 5
销售量y(万件) 1 1.6 2.0 a 3
A.由回归方程可知2024年1月份该地区的销售量为6.8万件
B.表中数据的样本中心点为
C.
D.由表中数据可知,y和x成正相关
5.在新高考改革中,浙江省新高考实行的是7选3的模式,即语数外三门为必考科目,然后从物理、化学、生物、政治、历史、地理、技术(含信息技术和通用技术)7门课中选考3门.某校高二学生选课情况如下列联表一和列联表二(单位:人)
选物理 不选物理 总计
男生 340 110 450
女生 140 210 350
总计 480 320 800
表一
选生物 不选生物 总计
男生 150 300 450
女生 150 200 350
总计 300 500 800
表二
试根据小概率值的独立性检验,分析物理和生物选课与性别是否有关( )
附:
A.选物理与性别有关,选生物与性别有关
B.选物理与性别无关,选生物与性别有关
C.选物理与性别有关,选生物与性别无关
D.选物理与性别无关,选生物与性别无关
6.2020年2月,全国掀起了“停课不停学”的热潮,各地教师通过网络直播 微课推送等多种方式来指导学生线上学习.为了调查学生对网络课程的热爱程度,研究人员随机调查了相同数量的男 女学生,发现有80%的男生喜欢网络课程,有40%的女生不喜欢网络课程,且有99%的把握但没有99.9%的把握认为是否喜欢网络课程与性别有关,则被调查的男 女学生总数量可能为( )
附:,其中.
0.1 0.05 0.01 0.001
2.706 3.841 6.635 10.828
A.130 B.190 C.240 D.250
7.某企业秉承“科学技术是第一生产力”的发展理念,投入大量科研经费进行技术革新,该企业统计了最近6年投入的年科研经费x(单位:百万元)和年利润y(单位:百万元)的数据,并绘制成如图所示的散点图.已知x,y的平均值分别为,.甲统计员得到的回归方程为;乙统计员得到的回归方程为;若甲、乙二人计算均未出现错误,有下列四个结论:
①当投入年科研经费为20(百万元)时,按乙统计员的回归方程可得年利润估计值为75.6(百万元)(取);
②;
③方程比方程拟合效果好;
④y与x正相关.
以上说法正确的是( )
A.①③④ B.②③ C.②④ D.①②④
8.设两个相关变量和分别满足,,,2,…,6,若相关变量和可拟合为非线性回归方程,则当时,的估计值为( )
A.32 B.63 C.64 D.128
二、多选题
9.某校高三1班48名物理方向的学生在一次质量检测中,语文成绩、数学成绩与六科总成绩在全年级中的排名情况如下图所示,“”表示的是该班甲、乙、丙三位同学对应的点.从这次考试的成绩看,下列结论正确的是( )
A.该班六科总成绩排名前6的同学语文成绩比数学成绩排名更好
B.在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是语文
C.数学成绩与六科总成绩的相关性比语文成绩与六科总成绩的相关性更强
D.在甲、乙两人中,其语文成绩名次比其六科总成绩名次靠前的学生是甲
10.由变量和变量组成的10个成对样本数据得到的经验回归方程为,设过点的直线方程为,记,则( )
A.变量正相关
B.若,则
C.经验回归直线至少经过中的一个点
D.
11.计算机显示的数字图像是由一个个小像素点组合而成的.处理图像时,常会通过批量调整各像素点的亮度,间接调整图像的对比度、饱和度等物理量,让图像更加美观.特别地,当图像像素点规模为1行列时,设第i列像素点的亮度为,则该图像对比度计算公式为.已知某像素点规模为1行列的图像第i列像素点的亮度,现对该图像进行调整,有2种调整方案:①;②,则( )
A.使用方案①调整,当时,
B.使用方案②调整,当时,
C.使用方案①调整,当时,
D.使用方案②调整,当,时,
三、填空题
12.对具有线性相关关系的变量有一组观测数据(),其经验回归方程为,且,,则相应于点的残差为 .
13.2020年12月31日,国务院联防联控机制发布,国药集团中国生物的新冠病毒灭活疫苗已获国家药监局批准附条件上市.在新冠病毒疫苗研发过程中,需要利用基因编辑小鼠进行动物实验.现随机抽取100只基因编辑小鼠对某种新冠病毒疫苗进行实验,得到如下列联表(部分数据缺失):
被新冠病毒感染 未被新冠病毒感染 总计
注射疫苗 10 50
未注射疫苗 30
总计 a 100
表中的值为 ;计算可知,在犯错误的概率最多不超过 的前提下,可认为“给基因编辑小鼠注射该种疫苗能起到预防新冠病毒感染的效果”.
参考公式:,.
参考数据:
0.100 0.050 0.025 0.010 0.005 0.001
2.706 3.841 5.024 6.635 7.879 10.828
14.在新冠疫情政策改变后,某社区统计了核酸检测为阳性的人数,用表示天数,表示每天核酸检测为阳性的人数,统计数据如下表所示:
1 2 3 4 5 6 7
6 11 21 34 66 101 196
根据散点图判断,核酸检测为阳性的人数关于天数的回归方程适合用来表示,则其回归方程为 .
参考数据:设,,,
参考公式:对于一组数据,,….其回归直线的斜率和截距的最小二乘估计公式分别为:,
四、解答题
15.根据党的“扶贫同扶志、扶智相结合”精准扶贫、精准脱贫政策,中国儿童少年基金会为了丰富留守儿童的课余文化生活,培养良好的阅读习惯,在农村留守儿童聚居地区捐建“小候鸟爱心图书角”.2016年某村在寒假和暑假组织开展“小候鸟爱心图书角读书活动”,号召全村少年儿童积极读书,养成良好的阅读习惯,下表是对2016年以来近5年该村庄100位少年儿童的假期周人均读书时间的统计:
年份 2016 2017 2018 2019 2020
年份代码 1 2 3 4 5
每周人均读书时间(小时) 1.3 2.8 5.7 8.9 13.8
现要建立关于的回归方程,有两个不同回归模型可以选择,模型一:;模型二:,即使画出关于的散点图,也无法确定哪个模型拟合效果更好,现用最小二乘法原理,已经求得模型一的方程为.
(1)请你用最小二乘法原理,结合下面的参考数据及参考公式求出模型二的方程(计算结果保留到小数点后一位);
(2)用计算残差平方和的方法比较哪个模型拟合效果更好,已经计算出模型一的残差平方和为.
附:参考数据:,其中,.
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘法估计公式分别为,.
16.某公司为了预测下月产品销售情况,找出了近7个月的产品销售量(单位:万件)的统计表:
月份代码 1 2 3 4 5 6 7
销售量(万件)
但其中数据污损不清,经查证,,.
(1)请用相关系数说明销售量与月份代码有很强的线性相关关系;
(2)求关于的回归方程(系数精确到0.01);
(3)公司经营期间的广告宣传费(单位:万元)(),每件产品的销售价为10元,预测第8个月的毛利润能否突破15万元,请说明理由.(毛利润等于销售金额减去广告宣传费)
参考公式及数据:,相关系数,当时认为两个变量有很强的线性相关关系,回归方程中斜率和截距的最小二乘估计公式分别为,.
17.某沙漠地区经过治理,生态环境得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的个地块,从这些地块中用简单随机抽样的方法抽取个作为样区,调查得到样本数据,其中和分别表示第个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得:,,,,.
(1)求该地区这种野生动物数量的估计值;
(2)求样本的相关系数(精确到);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
18.某省级示范高中高三年级对各科考试的评价指标中,有“难度系数“和“区分度“两个指标中,难度系数,区分度.
(1)某次数学考试(满分为150分),随机从实验班和普通班各抽取三人,实验班三人的成绩分别为147,142,137;普通班三人的成绩分别为97,102,113.通过样本估计本次考试的区分度(精确0.01).
(2)如表表格是该校高三年级6次数学考试的统计数据:
难度系数x 0.64 0.71 0.74 0.76 0.77 0.82
区分度y 0.18 0.23 0.24 0.24 0.22 0.15
①计算相关系数r,|r|<0.75时,认为相关性弱;|r|≥0.75时,认为相关性强.通过计算说明,能否利用线性回归模型描述y与x的关系(精确到0.01).
②ti=|xi﹣0.74|(i=1,2,…,6),求出y关于t的线性回归方程,并预测x=0.75时y的值(精确到0.01).
附注:参考数据:
参考公式:相关系数r,回归直线的斜率和截距的最小二乘估计分别为
19.在新冠肺炎疫情肆虐之初,作为重要防控物资之一的口罩是医务人员和人民群众抗击疫情的武器与保障,为了打赢疫情防控阻击战,我国企业依靠自身强大的科研能力,果断转产自行研制新型全自动高速口罩生产机,“争分夺秒、保质保量”成为口罩生产线上的重要标语.
(1)在试产初期,某新型全自动高速口罩生产流水线有四道工序,前三道工序完成成品口罩的生产且互不影响,第四道是检测工序,包括红外线自动检测与人工抽检.已知批次的成品口罩生产中,前三道工序的次品率分别为,.
①求批次I成品口罩的次品率.
②第四道工序中红外线自动检测为次品的口罩会被自动淘汰,合格的口罩进入流水线并由工人进行抽查检验.已知批次I的成品口罩红外线自动检测显示合格率为92%,求工人在流水线进行人工抽检时,抽检一个口罩恰为合格品的概率(百分号前保留两位小数).
(2)已知某批次成品口罩的次品率为,设100个成品口罩中恰有1个不合格品的概率为,记的最大值点为,改进生产线后批次的口罩的次品率.某医院获得批次,的口罩捐赠并分发给该院医务人员使用.经统计,正常佩戴使用这两个批次的口罩期间,该院医务人员核酸检测情况如下面条形图所示,求,并判断是否有99.9%的把握认为口罩质量与感染新冠肺炎病毒的风险有关?
附:.
0.050 0.010 0.005 0.001
3.841 6.635 7.879 10.828
参考答案
1.C
根据图表,温差最大值出现在10月,A错误,二者为线性正相关,B错误,计算得到C正确D错误,得到答案.
对选项A:月温差(月最高气温﹣月最低气温)的最大值出现在10月,错误;
对选项B:每月最低气温与最高气温有较强的线性相关性,且二者为线性正相关,错误;
对选项C:每月最高气温与最低气温的平均值在4-8月分别为,逐月增加,正确;
对选项D:9﹣12月的月温差为;5﹣8月的月温差为,9﹣12月的月温差的波动性更大,错误;
故选:C.
2.C
根据已知条件,求得,进而代入回归方程可求得,从而得出,联立,即可求得本题答案.
由已知可得,,,
所以,有,解得,
所以,,
由,得,
所以,,则.
故选:C.
3.B
根据可得线性回归方程,再由回归方程求出2025年的预测值,代入即可得解.
因为,
所以,
即经验回归方程,
当时,,
所以,
即2025年该科技公司云计算市场规模y的估计值为,
故选:B
4.A
根据给定数据,结合回归直线的特性逐项判断即得.
依题意,,
而y与x的回归直线方程为:,则,
解得,,表中数据的样本中心点为,BC正确;
由,得y和x成正相关,D正确;
2024年1月份,即,由回归直线方程,得,
因此2024年1月份该地区的销售量约为6.8万件,A错误.
故选:A
5.C
结合题干数据,以及公式,分别计算物理和生物学科的值,与比较,分析即得解
由题意,先分析物理课是否与性别有关:
根据表格数据,
结合题干表格数据,,
因此,有充分证据推断选择物理学科与性别有关
再分析生物课是否与性别有关:
根据表格数据,
结合题干表格数据,,
因此,没有充分证据推断选择生物学科与性别有关
故选:C
6.B
设男、女学生的人数都为,则男、女学生的总人数为,建立列联表,由独立性检验算出,结合观测值和选项可得答案.
依题意,设男、女学生的人数都为,则男、女学生的总人数为,建立列联表如下,
喜欢网络课程 不喜欢网络课程 总计
男生
女生
总计
故,由题意可得,
所以,结合选项可知,只有B符合题意.
故选:B.
7.D
结合样本中心点过回归直线方程,已知数据,散点图等依次判断各命题即可得答案.
解:将代入,得,①正确;
将,代入得,②正确;
由散点图可知,回归方程比的拟合效果更好,③错误;
因为随的增大而增大,所以与正相关,④正确.故①②④正确.
故选:D.
8.C
先通过换元把非线性回归方程转化为线性回归直线方程,从而可以利用公式求系数的值,然后把的值代入即可得到答案.
令,则 ,
,,
所以 ,,
所以,即,
所以当时, .
故选:C.
9.BCD
结合图形可分析出答案.
由图可得,该班六科总成绩排名前6的同学数学成绩比语文成绩排名更好,故A错误;
由右图可得丙同学的总成绩排在班上倒数第三名,其语文成绩排在250到300名之间,
从左图可得其数学成绩排在400名左右,故B正确;
数学成绩与六科总成绩的相关性比语文成绩与六科总成绩的相关性更强,因为右图的点的分布较左图更分散,故C正确;
由左图可得甲的总成绩排在班上第7名,年级名次100多一点,
对应到右图可得,其语文成绩排在年级近100名,故甲的语文成绩名次比其六科总成绩名次靠前,
由左图可得甲的总成绩排在班上第27名,年级名次接近250名,
对应到右图可得,其语文成绩排在年级250名之后,故乙的语文成绩名次比其六科总成绩名次靠后,故D正确;
故选:BCD
10.ABD
根据回归直线的相关性质分别判断各个选项即可.
对于A:回归方程一次项系数大于零是正相关,A正确;
对于B:代入回归直线可得,B正确;
经验回归直线可以不经过任意一个点,C错误;
根据回归直线的求法最小二乘法值,回归直线的残差平方和最小,D正确.
故选:ABD.
11.AC
方案①:根据的性质,将、及代入判断A;利用对比度公式可得,即可判断C;方案②:在时代入特殊值判断B;根据条件判断且,特殊值代入判断D.
使用方案①调整:当时且,又则,A正确;
,,
当,即且,又,可得,C正确;
使用方案②调整:当时,显然若时,B错误;
,而,则,故,
又,则,,
所以,而,
时,则,则,
此时,显然存在,D错误.
故选:AC
关键点点睛:判断D时注意的取值范围,根据n值判断的大小关系.
12./
利用样本中心在其经验回归方程为上,求出,再计算当时的残差即可.
经验回归直线过样本点的中心,,,
经验回归方程为.当时,,残差为.
故答案为:.
13. 30
根据题意完善列联表代入公式计算即可.
解:完善列联表如下:
被新冠病毒感染 未被新冠病毒感染 总计
注射疫苗 10 40 50
未注射疫苗 20 30 50
总计 30 70 100
所以
因为
又
所以在犯错误的概率最多不超过的前提下,可认为“给基因编辑小鼠注射该种疫苗能起到预防新冠病毒感染的效果”.
故答案为:30;
14.
由题可得,然后根据最小二乘法即得.
由,可得,
设,则,
因为,,
,
所以,
,
所以,
所以.
故答案为:.
15.(1);
(2)模型二的拟合效果更好.
(1)首先换元令,先求得和,再根据数据和参考公式求得模型二的方程;
(2)利用残差公式,求模型二的残差,比较大小,即可判断.
(1)令,则模型二可化为关于的线性回归问题,则
,,
则由参考数据可得,
,
则模型二的方程为;
(2)由模型二的回归方程可得,,
,,,
,
∴,
故模型二的拟合效果更好.
16.(1)见解析;(2) (3)见解析
(1)根据中条件,计算相关系数的值,即可得出结论;
(2)根据题中数据,计算出,即可得到回归方程;
(3)将代入(2)的结果,结合题中条件,即可求出结果.
(1)由折线图中的数据和附注中的参考数据得
, , ,
∴, 因为
所以销售量与月份代码有很强的线性相关关系.
(2) 由及(Ⅰ)得
所以关于的回归方程为
(3)当时,代入回归方程得(万件)
第8个月的毛利润为
,预测第8个月的毛利润不能突破万元.
本题主要考查线性回归分析,熟记最小二乘法求,以及线性回归分析的基本思想即可,属于常考题型.
17.(1)
(2)
(3)分层抽样,理由见解析
(1)计算出样区中这种野生动物的平均数,由此可计算得到该地区的估计值;
(2)结合已知数据,根据相关系数公式可直接求得结果;
(3)根据分层抽样适用的条件可确定结果.
(1)由已知得:样区中,这种野生动物的平均数,
该地区这种野生动物数量的估计值为.
(2)相关系数.
(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对个地块进行分层抽样.
理由:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关关系.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量的差异也很大,采用分层抽样的方法能较好地保持样本结构与总体结构的一致性,提高样本的代表性,从而获得对该地区这种野生动物数量更准确的估计.
18.(1)0.25;(2)①理由见解析,不能利用线性回归模型描述y与x的关系; ② 回归直线方程,预测值为0.24
(1)先求出平均成绩,即可求出区分度;
(2)①由题意计算 ,求出相关系数,即可判断两变量相关性强弱;
②计算回归系数,写出线性回归方程,利用方程计算t=10时的值.
(1)实验班三人成绩的平均值为,
普通班三人成绩的平均值为,
故估计本次考试的区分度为0.25,
(2)①由题中的表格可知(0.64+0.71+0.74+0.76+0.77+0.82)=0.74,
(0.18+0.23+0.24+0.24+0.22+0.15)=0.21,
故r0.13.
因为|r|<0.75,所以相关性弱,故不能利用线性回归模型描述y与x的关系;
②y与t的值如下表
t 0.10 0.03 0 0.02 0.03 0.08
区别度y 0.18 0.23 0.24 0.24 0.22 0.15
因为0.86,
所以a0.21+0.860.25,
所以所求回归直线方程y=﹣0.86t+0.25,
当x=0.75时,此时t=0.01,则y≈0.24
本题考查线性回归方程的求法,考查线性相关关系强弱的判定,考查计算能力,是中档题.
19.(1)①,②;(2),有99.9%的把握认为口罩质量与感染新冠肺炎病毒的风险有关.
(1)①利用概率乘法公式求概率即可;
②设批次Ⅰ的成品口罩红外线自动检测合格为事件,人工抽检合格为事件,
分别求出,,利用条件概率直接计算
(2)先求出100个成品口罩中恰有1个不合格品的概率,利用导数求出的最大值点,即可求出,根据题意完成列联表,计算出,对照参数即可得到结论.
解:(1)①批次Ⅰ成品口罩的次品率为
.
②设批次Ⅰ的成品口罩红外线自动检测合格为事件,人工抽检合格为事件,
由已知,得,,
则工人在流水线进行人工抽检时,抽检一个口罩恰为合格品为事件,
.
(2)100个成品口罩中恰有1个不合格品的概率.
因此.
令,得.
当时,;当时,.
所以的最大值点为.
由(1)可知,,,故批次口罩的次品率低于批次Ⅰ,
故批次的口罩质量优于批次Ⅰ.
由条形图可建立列联表如下:
单位:人
核酸检测结果 口罩批次 合计
呈阳性 12 3 15
呈阴性 28 57 85
合计 40 60 100
.
因此,有99.9%的把握认为口罩质量与感染新冠肺炎病毒的风险有关.
21世纪教育网 www.21cnjy.com 精品试卷·第 2 页 (共 2 页)
21世纪教育网(www.21cnjy.com)