中小学教育资源及组卷应用平台
中小学教育资源及组卷应用平台
专题28 统计案例
一、单选题
1.(2023·宁夏石嘴山·平罗中学校考模拟预测)下列有关回归分析的说法中不正确的是( )
A.回归直线必过点
B.回归直线就是散点图中经过样本数据点最多的那条直线
C.当相关系数时,两个变量正相关
D.如果两个变量的线性相关性越弱,则就越接近于
【答案】B
【分析】根据线性回归直线的性质可判断选项AB;根据相关系数的性质可判断CD,进而可得正确选项.
【详解】对于A选项,回归直线必过点,A对;
对于B选项,线性回归直线在散点图中可能不经过任一样本数据点,B错;
对于C选项,当相关系数时,两个变量正相关,C对;
对于D选项,如果两个变量的线性相关性越弱,则就越接近于,D对.
故选:B.
2.(2023·陕西榆林·统考三模)若由一个列联表中的数据计算得,则( )
0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
A.能有的把握认为这两个变量有关系
B.能有的把握认为这两个变量没有关系
C.能有的把握认为这两个变量有关系
D.能有的把握认为这两个变量没有关系
【答案】A
【分析】通过所给的观测值,同临界值表中的数据进行比较,得到结论.
【详解】因为,所以能有的把握认为这两个变量有关系.
故选:A
3.(2023·河南·校联考模拟预测)人们常将男子短跑的高水平运动员称为“百米飞人”,表中给出了1968年之前部分男子短跑世界纪录产生的年份和世界纪录的数据:
第次 1 2 3 4 5
年份 1930 1936 1956 1960 1968
纪录 10.30 10.20 10.10 10.00 9.95
如果变量与之间具有线性相关关系,设用最小二乘法建立的回归直线方程为,则下列说法正确的是( )
A.变量与之间是正相关关系 B.变量与之间的线性相关系数
C. D.下一次世界纪录一定是
【答案】C
【分析】首先求出,,根据回归直线方程必过样本中心点求出,即可得到回归直线方程,即可判断A、B、C,再将代入得到预测值,即可判断D.
【详解】依题意,,
因为回归直线方程必过样本中心点,即,
解得,与成负相关,即相关系数,故选项A,B错误,选项C正确;
所以回归直线方程为,则当时,,
即下一次世界纪录在左右,它是一个预测值,不是确定值,故D错误.
故选:C
4.(2023·江西上饶·统考二模)中国新能源汽车出口实现跨越式突破,是国产汽车品牌实现弯道超车,打造核心竞争力的主要抓手.下表是2022年我国某新能源汽车厂前5个月的销量y和月份x的统计表,根据表中的数据可得线性回归方程为,则下列四个命题正确的个数为( )
月份x 1 2 3 4 5
销量y(万辆) 1.5 1.6 2 2.4 2.5
①变量x与y正相关;②;③y与x的样本相关系数;④2022年7月该新能源汽车厂的销量一定是3.12万辆.
A.1 B.2 C.3 D.4
【答案】B
【分析】根据回归直线方程经过样本中心即可求解,结合相关性的定义以及回归方程即可逐一判断.
【详解】由,,因为回归直线过样本中心,,,②错误;
可知随着变大而变大,所以变量与正相关,①③正确;
由回归直线可知,2022年7月该新能源汽车厂的销量的估计值是万辆,④错误.
故选:B.
5.(2023·天津·一模)以下说法不正确的是( )
A.78,82,83,85,86,87,89,89的第75百分位数为88
B.相关系数的绝对值接近于0,两个随机变量没有相关性
C.的展开式中常数项为15
D.必然事件和不可能事件与任意事件相互独立
【答案】B
【分析】求出选项A中数据的第75百分位数,即可判断A;根据相关系数的知识可判断B;求出的展开式中常数项可判断C;根据必然事件、不可能事件的概念可判断D.
【详解】对于A:因为,所以第75百分位数为,故A正确;
对于B:相关系数r的绝对值接近于0,表示两个变量之间几乎不存在线性相关关系,并不说明变量之间不存在其它相关关系,故B错误;
对于C:常数项为,故C正确;
对于D:由必然事件和不可能事件的定义,可得D正确.
故选:B.
6.(2023·新疆乌鲁木齐·统考三模)5G技术在我国已经进入高速发展的阶段,5G手机的销量也逐渐上升,某手机商城统计了最近5个月手机的实际销量,如下表所示:
时间 1 2 3 4 5
销售量(千只) 0.5 0.8 1.0 1.2 1.5
若与线性相关,且线性回归方程为,则下列说法不正确的是( )
A.由题中数据可知,变量与正相关,且相关系数
B.线性回归方程中
C.残差的最大值与最小值之和为0
D.可以预测时该商场手机销量约为1.72(千只)
【答案】B
【分析】根据已知数据,分析总体单调性,并注意到增量不相等,不是严格在一条直线上,从而判定A;求得样本中心点坐标,代入已给出的回归方程,求解,从而判定B;根据残差定义求得各个残差,进而得到残差的最大值与最小值,从而判定C;利用回归方程预测计算即可判定D.
【详解】从数据看y随x的增加而增加,故变量与正相关,由于各增量并不相等,故相关系数,故A正确;
由已知数据易得代入中得到,故B错误;
,
,,,,,
,,,,,
残差的最大值与最小值之和为0,故正确;
时该商场手机销量约为,故D正确.
故选:B
7.(2023·江西南昌·南昌县莲塘第一中学校联考二模)下列四个命题中,正确的个数有( )
①两个变量间的相关系数越小,说明两变量间的线性相关程度越低;
②命题“,使得”的否定是:“对,均有”;
③命题“p∧q为真”是命题“p∨q为真”的必要不充分条件;
④若函数在有极值0,则,或,.
A.0 B.1 C.2 D.3
【答案】B
【分析】运用相关系数的作用、命题的否定、由集合的包含关系判断充分不必要条件及运用导数已知极值求参即可.
【详解】对于①,两个变量间的相关系数|r|越小,说明两变量间的线性相关程度越低,故①正确;
对于②,命题“,使得”的否定是:“对,均有”,故②错误;
对于③,因为命题“p∧q为真”即:真且真,命题“p∨q为真”即:真或真,所以“p∧q为真”是“p∨q为真”的充分不必要条件,故③错误;
对于④,,则有,解得或.
而当,时,,此时函数无极值,故④不正确.
故选:B.
8.(2023·重庆·统考二模)用模型拟合一组数据组,其中;设,得变换后的线性回归方程为,则( )
A. B.70 C. D.35
【答案】C
【分析】根据回归直线方程,必过样本点中心,再利用换元公式,以及对数运算公式,化简求值.
【详解】因为,所以,,
即,
所以.
故选:C
9.(2023·内蒙古呼和浩特·呼市二中校考模拟预测)以模型去拟合一组数据时,设,将其变换后得到线性回归方程,则( )
A. B. C. D.e
【答案】C
【分析】根据题意得到,再结合,求解即可.
【详解】因为,所以,
令,所以,即.
故选:C
10.(2023·天津·大港一中校联考一模)下列命题错误的是( )
A.两个随机变量的线性相关性越强,相关系数的绝对值越接近于
B.设,且,则
C.线性回归直线一定经过样本点的中心
D.随机变量,若,则
【答案】B
【分析】利用相关关系判断A;由正态分布的性质判断B;由线性回归直线的性质判断C;由随机变量条件建立方程组解出即可判断D.
【详解】根据相关系数的意义可知,两个随机变量的线性相关性越强,
相关系数的绝对值越接近于,
故A正确;
由,知,
即概率密度函数的图像关于直线对称,
所以,
则,
故B错误;
根据线性回归直线的性质可知,
线性回归直线一定经过样本点的中心,
故C正确;
随机变量,若,
则,
故D正确;
故选:B.
11.(2023·河南安阳·统考二模)已知建筑地基沉降预测对于保证施工安全,实现信息化监控有着重要意义.某工程师建立了四个函数模型来模拟建筑地基沉降随时间的变化趋势,并用相关指数、误差平方和、均方根值三个指标来衡量拟合效果.相关指数越接近1表明模型的拟合效果越好,误差平方和越小表明误差越小,均方根值越小越好.依此判断下面指标对应的模型拟合效果最好的是( ).
相关指数 误差平方和 均方根值
0.949 5.491 0.499
A.
相关指数 误差平方和 均方根值
0.933 4.179 0.436
B.
相关指数 误差平方和 均方根值
0.997 1.701 0.141
C.
相关指数 误差平方和 均方根值
0.997 2.899 0.326
D.
【答案】C
【分析】根据相关指数大小和误差平方和以及均方根值即可得到答案.
【详解】相关指数越接近于1,拟合效果越好,比较相关指数知,可选C,D,
误差平方和及均方根值都越小,拟合效果越好,观察误差平方和和均方根值,知C的拟合效果最好.
故选:C.
12.(2023·浙江杭州·统考二模)某兴趣小组研究光照时长x(h)和向日葵种子发芽数量y(颗)之间的关系,采集5组数据,作如图所示的散点图.若去掉后,下列说法正确的是( )
A.相关系数r变小 B.决定系数变小
C.残差平方和变大 D.解释变量x与预报变量y的相关性变强
【答案】D
【分析】从图中分析得到去掉后,回归效果更好,再由相关系数,决定系数,残差平方和和相关性的概念和性质作出判断即可.
【详解】从图中可以看出较其他点,偏离直线远,故去掉后,回归效果更好,
对于A,相关系数越接近于1,模型的拟合效果越好,若去掉后,相关系数r变大,故A错误;
对于B,决定系数越接近于1,模型的拟合效果越好,若去掉后,决定系数变大,故B错误;
对于C,残差平方和越小,模型的拟合效果越好,若去掉后,残差平方和变小,故C错误;
对于D,若去掉后,解释变量x与预报变量y的相关性变强,且是正相关,故D正确.
故选:D.
13.(2023·甘肃兰州·校考模拟预测)为庆祝党的二十大的胜利召开,某高校党委从所有的学生党员中随机抽取100名,举行“二十大”相关知识的竞赛活动,根据竞赛成绩,得到如下2×2列联表.则下列说法正确的是( )
优秀 非优秀 合计
男 20 30 50
女 35 15 50
合计 55 45 100
参考公式及数据:,其中.
A.有的把握认为“竞赛成绩是否优秀与性别有关”
B.有的把握认为“竞赛成绩是否优秀与性别无关”
C.在犯错误的概率不超过的前提下,认为“竞赛成绩是否优秀与性别无关”
D.在犯错误的概率不超过的前提下,认为“竞赛成绩是否优秀与性别有关”
【答案】A
【分析】求得的观测值,再与临界值表对照下结论.
【详解】解:因为的观测值,
由临界值表知,有的把握认为“竞赛成绩是否优秀与性别有关”.
故选:.
14.(2023·安徽安庆·校联考模拟预测)对于数据组,如果由经验回归方程得到的对应自变量的估计值是,那么将称为对应点的残差.某商场为了给一种新商品进行合理定价,将该商品按事先拟定的价格进行试销,得到如下所示数据:
单价x/元 8.2 8.4 8.6 8.8
销量y/件 84 83 78 m
根据表中的数据,得到销量y(单位:件)与单价x(单位:元)之间的经验回归方程为,据计算,样本点处的残差为1,则( ).
A.76 B.75 C.74 D.73
【答案】B
【分析】利用样本点处的残差为1,求得250,再由,求得,进而可得答案.
【详解】由条件知当时,,
代入,解得,于是,
又,所以,即,解得,
故选:B.
15.(2023·江西宜春·统考一模)给出下列命题,其中正确命题的个数为( )
①若样本数据的方差为,则数据的方差为;
②回归方程为时,变量与具有负的线性相关关系;
③随机变量服从正态分布,,则;
④在回归分析中,对一组给定的样本数据而言,当样本相关系数越接近时,样本数据的线性相关程度越强.
A.个 B.个 C.个 D.个
【答案】B
【分析】根据方差的性质、回归直线的意义、正态分布曲线的对称性和相关系数的意义依次判断各个选项即可.
【详解】对于①,由方差的性质可知:数据的方差为,①错误;
对于②,由回归方程知:,则变量与具有负的线性相关关系,②正确;
对于③,由正态分布曲线的对称性可知:,③错误;
对于④,由相关系数意义可知:越接近时,样本数据的线性相关程度越强,④正确.
故选:B.
16.(2023·江西九江·统考二模)已知变量的关系可以用模型拟合,设,其变换后得到一组数据如下.由上表可得线性回归方程,则( )
x 1 2 3 4 5
z 2 4 5 10 14
A. B. C. D.
【答案】B
【分析】根据样本中心点在回归方程上可得,再利用对数运算法则即可得,所以.
【详解】由表格数据知,.即样本中心点为,
由,得,
即,
所以,即,可得,
故选:B.
17.(2023·上海崇明·上海市崇明中学校考模拟预测)在对吸烟与患肺病这两个分类变量的独立性检验中,下列说法正确的是( )
(参考数据:)
① 若的观测值满足,我们有的把握认为吸烟与患肺病有关系;
② 若的观测值满足,那么在个吸烟的人中约有人患有肺病;
③ 从独立性检验可知,如果有的把握认为吸烟与患肺病有关系时,那么我们就认为:每个吸烟的人有的可能性会患肺病;
④ 从统计量中得知有的把握认为吸烟与患肺病有关系时,是指有的可能性使推断出现错误.
A.① B.①④ C.②③ D.①②③④
【答案】B
【分析】由给出的数据,结合观测值的意义判定即可.
【详解】若的观测值满足,则我们有的把握认为吸烟与患肺病有关系,而得知有的把握认为吸烟与患肺病有关系时,仍有的可能性使推断出现错误,但不能说明个吸烟的人中约有人患有肺病,及每个吸烟的人有的可能性会患肺病.
故①④正确、②③错误.
故选:B
18.(2023·山东菏泽·统考二模)足球是一项大众喜爱的运动,为了解喜爱足球是否与性别有关,随机抽取了若干人进行调查,抽取女性人数是男性的2倍,男性喜爱足球的人数占男性人数的,女性喜爱足球的人数占女性人数的,若本次调查得出“在犯错误的概率不超过0.005的前提下认为喜爱足球与性别有关”的结论,则被调查的男性至少有( )人
a 0.10 0.05 0.01 0.005 0.001
2.706 3.841 5.635 7.879 10.828
A.10 B.11 C.12 D.13
【答案】C
【分析】根据题意,设出男生人数,从而计算出列联表,再算出7.879比较即可.
【详解】设被调查的男性为人,则女性为人,依据题意可得列联表如下表:
男性 女性 合计
喜爱足球
不喜爱足球
合计
,
因为本次调查得出“在犯错误的概率不超过0.005的前提下认为喜爱足球与性别有关”的结论,所以有
,即,
解得,又因为上述列联表中的所有数字均为整数,
故的最小值为12.
故选:C.
19.(2023·广东梅州·统考二模)云计算是信息技术发展的集中体现,近年来,我国云计算市场规模持续增长.已知某科技公司2018年至2022年云计算市场规模数据,且市场规模y与年份代码x的关系可以用模型(其中e为自然对数的底数)拟合,设,得到数据统计表如下:
年份 2018年 2019年 2020年 2021年 2022年
年份代码x 1 2 3 4 5
云计算市场规模y/千万元 7.4 11 20 36.6 66.7
2 2.4 3 3.6 4
由上表可得经验回归方程,则2025年该科技公司云计算市场规模y的估计值为( )
A. B. C. D.
【答案】B
【分析】根据可得线性回归方程,再由回归方程求出2025年的预测值,代入即可得解.
【详解】因为,
所以,
即经验回归方程,
当时,,
所以,
即2025年该科技公司云计算市场规模y的估计值为,
故选:B
20.(2023·四川遂宁·统考三模)下图是遂宁市2022年4月至2023年3月每月最低气温与最高气温(℃)的折线统计图:已知每月最低气温与最高气温的线性相关系数,则下列结论正确的是( )
A.月温差(月最高气温﹣月最低气温)的最大值出现在8月
B.每月最低气温与最高气温有较强的线性相关性,且二者为线性负相关
C.每月最高气温与最低气温的平均值在4-8月逐月增加
D.9﹣12月的月温差相对于5﹣8月,波动性更小
【答案】C
【分析】根据图表,温差最大值出现在10月,A错误,二者为线性正相关,B错误,计算得到C正确D错误,得到答案.
【详解】对选项A:月温差(月最高气温﹣月最低气温)的最大值出现在10月,错误;
对选项B:每月最低气温与最高气温有较强的线性相关性,且二者为线性正相关,错误;
对选项C:每月最高气温与最低气温的平均值在4-8月分别为,逐月增加,正确;
对选项D:9﹣12月的月温差为;5﹣8月的月温差为,9﹣12月的月温差的波动性更大,错误;
故选:C.
二、多选题
21.(2023·浙江绍兴·统考模拟预测)给出以下四个说法,正确的有( )
A.如果由一组样本数据得到的经验回归方程是,那么经验回归直线至少经过点中的一个
B.在残差的散点图中,残差分布的水平带状区域的宽度越窄,其模型的拟合效果越好
C.在回归分析中,用决定系数来比较两个模型拟合效果,越大,表示残差平方和越小,即模型的拟合效果越好
D.设两个变量之间的线性相关系数为,则的充要条件是成对数据构成的点都在经验回归直线上
【答案】BCD
【分析】利用回归分析的相关定义对各个选项逐一分析判断即可得到结果.
【详解】选项A,因为经验回归方程必过样本点的中心,非样本点,故选项A错误;
选项B,因为在残差的散点图中,残差分布的水平带状区域的宽度越窄,表明数据越集中,模型的拟合效果越好,故选项B正确;
选项C,因为决定系数越大,表示残差平方和越小,数据就越集中,即模型的拟合效果越好,故选项C正确;
选项D,因为两个变量之间的线性相关系数为的绝对值越大,数据就越集中在回归方程附近,当时,点就在直线上了,所以选项D正确.
故选:BCD.
22.(2023·湖北·模拟预测)人口问题始终是战略性、全局性的问题.2022年末我国人口比上年末减少85万人,为61年来的首次人口负增长,其中生育率持续降低受到了人们的广泛关注.为促进人口长期均衡发展,国家制定了一系列优化生育政策:2016年正式全面开放二胎;2022年实施三孩生育政策,并配套生育支持措施.为了了解中国人均GDP (单位:万元)和总和生育率y以及女性平均受教育年限z(单位:年)的关系,采用2012~2022近十年来的数据绘制了散点图,并得到经验回归方程,,对应的决定系数分别为,,则( )
A.人均GDP和女性平均受教育年限正相关 B.女性平均受教育年限和总和生育率负相关
C. D.未来三年总和生育率将继续降低
【答案】AB
【分析】根据回归方程判断选项A,写出女性平均受教育年限和总和生育率的关系式,从而判断选项B,根据散点图的拟合效果判断选项C,由回归方程可预测未来趋势,但实际值不一定会继续降低,从而判断选项D.
【详解】由回归方程可知,
人均和女性平均受教育年限正相关,A正确;
因为,,
可得女性平均受教育年限和总和生育率的关系式为,
所以女性平均受教育年限和总和生育率负相关,B正确.
由散点图可知,回归方程相对拟合效果更好,
所以,C错误;
根据回归方程预测,未来总和生育率预测值有可能降低,
但实际值不一定会降低,D错误.
故选:AB
23.(2023·山东青岛·统考二模)“天宫课堂”是为发挥中国空间站的综合效益,推出的首个太空科普教育品牌.为了解学生对“天宫课堂”的喜爱程度,某学校从全校学生中随机抽取200名学生进行问卷调查,得到以下数据,则( )
喜欢天宫课堂 不喜欢天宫课堂
男生 80 20
女生 70 30
参考公式及数据:①,.②当时,.
A.从这200名学生中任选1人,已知选到的是男生,则他喜欢天宫课堂的概率为
B.用样本的频率估计概率,从全校学生中任选3人,恰有2人不喜欢天宫课堂的概率为
C.根据小概率值的独立性检验,认为喜欢天宫课堂与性别没有关联
D.对抽取的喜欢天宫课堂的学生进行天文知识测试,男生的平均成绩为80,女生的平均成绩为90,则参加测试的学生成绩的均值为85
【答案】BC
【分析】根据古典概型的概率公式判断A,首先求出样本中喜欢天宫课堂的频率,再根据独立重复试验的概率公式判断B,计算出卡方,即可判断C,根据平均公式判断D.
【详解】对于A:从这200名学生中任选1人,已知选到的是男生,则他喜欢天宫课堂的概率,故A错误;
对于B:样本中喜欢天宫课堂的频率,从全校学生中任选3人,
恰有2人不喜欢天宫课堂的概率,故B正确;
对于C:因为,
所以根据小概率值的独立性检验,认为喜欢天宫课堂与性别没有关联,故C正确;
对于D:抽取的喜欢天宫课堂的学生男、女生人数分别为、,
又男生的平均成绩为,女生的平均成绩为,所以参加测试的学生成绩的均值为,故D错误;
故选:BC
24.(2023·山东滨州·统考二模)下列说法正确的是( )
A.已知经验回归方程,则当时,的估计值为12.22
B.在回归分析中,残差点分布的带状区域的宽度越窄表示拟合效果越差
C.在经验回归方程中,当解释变量每增加1个单位时,响应变量将平均减少0.3个单位
D.在一元线性回归模型分析中,决定系数用来刻画模型的拟合效果,若的值越小,则模型的拟合效果越好
【答案】AC
【分析】将代入回归方程即可判断A;根据残差的几何意义即可判断B;根据回归方程即可判断C;根据决定系数的几何意义即可判断D.
【详解】对于A,经验回归方程,
当时,,故A正确;
对于B,在回归分析中,残差点分布的带状区域的宽度越窄表示拟合效果越好,故B错误;
对于C,在经验回归方程中,当解释变量每增加1个单位时,
响应变量将平均减少0.3个单位,故C正确;
对于D,在一元线性回归模型分析中,若的值越小,则模型的拟合效果越差,故D错误.
故选:AC.
25.(2023·浙江金华·统考模拟预测)下列说法正确的是( )
A.若随机变量,则
B.样本相关系数的绝对值越接近,成对样本数据线性相关程度越强
C.数据的第百分位数为
D.抛掷一枚质地均匀的骰子所得的样本空间为,令事件,,则事件不独立
【答案】ABC
【分析】对于A,由已知得,根据对称性即可判断;对于B,根据样本相关系数r的绝对值越接近1,成对样本数据线性相关程度越强即可判断;对于C,利用百分位数定义求解即可;对于D,利用独立事件的概率公式判断即可.
【详解】对于A,由已知得,根据正态曲线的对称性,故A正确;
对于B,样本相关系数r的绝对值越接近1,成对样本数据线性相关程度越强,故B正确;
对于C,因为,所以第40百分位数为第位数和第位数的平均数,即为,故C正确;
对于D,因为,,,则,
所以,故,
所以事件相互独立,故D错误.
故选:ABC.
26.(2023·安徽黄山·统考三模)下列命题中,正确的是( )
A.在回归分析中,可用决定系数的值判断模型的拟合效果,越大,模型的拟合效果越好
B.对分类变量与的统计量来说,值越小,判断“与有关系”的把握程度越大
C.在回归模型中,残差是观测值与预测值的差,残差点所在的带状区域宽度越窄,说明模型拟合精度越高
D.一组数据的第百分位数为
【答案】ACD
【分析】根据相关指数的定义确定A;
根据独立性检验确定B;
根据残差的性质确定C;
根据百分位数的运算确定D.
【详解】对于A,由相关指数的定义知:越大,模型的拟合效果越好,A正确;
对于B,由独立性检验的思想知:值越大,“与有关系”的把握程度越大,B错误.
对于C,残差点所在的带状区域宽度越窄,则残差平方和越小,模型拟合精度越高,C正确;
对于D,,第百分位数为第7位95, D正确.
故选:.
27.(2023·湖北·荆门市龙泉中学校联考二模)下列结论正确的有( )
A.若随机变量,满足,则
B.若随机变量,且,则
C.若线性相关系数越接近1,则两个变量的线性相关性越强
D.按从小到大顺序排列的两组数据:甲组:27,30,37,m,40,50;乙组:24,n,33,44.48,52,若这两组数据的第30百分位数、第50百分位数都分别对应相等,则
【答案】BC
【分析】由方差的性质判断A;由正态分布的对称性判断B;由相关系数的定义判断C;根据百分位数的定义判断D.
【详解】对于A,由方差的性质可得,故A错误;
对于B,由正态分布的图象的对称性可得,故B正确;
对于C,由相关系数知识可得:线性相关系数越接近1,则两个变量的线性相关性越强,故C正确;
对于D,甲组:第30百分位数为30,第50百分位数为,
乙组:第30百分位数为,第50百分位数为,则,
解得,故,故D错误;
故选:BC
28.(2023·云南·统考二模)下列命题,错误的是( )
A.若随机变量X服从正态分布,且,则
B.100件产品中包含10件次品,不放回地随机抽取6件,则次品数X服从二项分布
C.将随机变量进行平移或伸缩后,其均值与方差都不会变化
D.在一元线性回归模型分析中,决定系数用来刻画两个模型拟合的效果.若越小,则模型的拟合效果越好
【答案】BCD
【分析】利用正态分布的性质即可判断选项A;根据二项分布的特点判断选项B;根据随机变量的性质判断选项C;根据一元线性回归模型分析即可判断选项D.
【详解】对于A,因为随机变量X服从正态分布, 因为,则,又因为,所以,故选项A正确;
对于B,根据二项分布的性质可知,100件产品中包含10件次品,不放回地随机抽取6件,则次品数X不满足二项分布,故选项B错误;
对于C,将随机变量进行平移,均值也随之平移,方差不发生改变,故选项C错误;
对于D,在一元线性回归模型分析中,决定系数用来刻画两个模型拟合的效果.若越大,则模型的拟合效果越好,故选项D错误,
故选:BCD.
29.(2023·广东深圳·统考二模)为了研究y关于x的线性相关关系,收集了5组样本数据(见下表):
x 1 2 3 4 5
y 0.5 0.8 1 1.2 1.5
假设经验回归方程为,则( )
A.
B.当时,y的预测值为2.2
C.样本数据y的40%分位数为0.8
D.去掉样本点后,x与y的样本相关系数r不变
【答案】ABD
【分析】对于A选项: 根据回归直线必过点解得;对于B选项:结合经验回归方程的性质即可求解;对于C选项:结合百分位数的定义即可求解; 对于D选项:根据相关系数的性质即可判断;
【详解】对于A选项:线性回归方程必过点,,,解得,所以选项A正确;
对于B选项:当时,可以的出y的预测值为2.2,所以B选项正确;
对于C选项:从小到大排列共有5个数据,则是整数,则第40百分位数为从小到大排列的第2、3个数据的平均数,即第40百分位数为0.9,所以C选项错误;
对于D选项:因为相关系数为,
5组样本数据的相关系数为:
,
去掉样本中心点后相关系数为,
所以相关系数r不变,所以D选项正确;
故选:ABD.
30.(2023·辽宁·校联考二模)下列命题中,正确的命题是( ).
A.数据1,2,3,4,5,6,7,8,9,10的70%分位数是7
B.若随机变量,则
C.在回归分析中,可用相关系数R的值判断模型的拟合效果,越趋近于1,模型的拟合效果越好
D.若随机变量,,则
【答案】CD
【分析】根据统计学的相关知识逐项分析.
【详解】对于A,一共是10个数, ,即分位数就是第7个数和第8个数的平均值,即 ,错误;
对于B, , ,错误;
对于C,表示变量之间相关的程度,越大表示相关程度越高,拟合效果越好,正确;
对于D, ,根据正态分布的对称性, ,
,正确;
故选:CD.
三、填空题
31.(2023·辽宁·辽宁实验中学校联考模拟预测)为了比较甲、乙、丙、丁四组数据的线性相关性的强弱,小明分别计算了甲、乙、丙、丁四组数据的线性相关系数,其数值分别为,,0.76,0.92,则这四组数据中线性相关性最强的是______组数据.
【答案】甲
【分析】根据相关系数的含义,其绝对值越接近1,线性相关性越强.
【详解】根据题意,因为线性相关系数的绝对值越大,线性相关性越强.
甲、乙、丙、丁四组数据的线性相关系数分别为,,0.76,0.92,
所以甲组数据的线性相关性最强.
故答案为:甲.
32.(2023·海南省直辖县级单位·统考模拟预测)下列命题中正确的有______.
①若是空间三个非零向量,且满足,则;
②回归直线一定过样本中心.
③若将一组样本数据中的每个数据都加上同一个常数后,则样本的方差不变;
④用相关指数来刻画回归效果,越接近0,说明模型的拟合效果越好;
【答案】②③
【分析】根据数量积的运算判断①,利用线性回归直线方程性质判断②,利用方差的性质判断③,利用相关指数的含义判断④
【详解】①当,时,,但与不一定相等,错误;
②由回归直线方程的性质知,回归直线一定过样本中心,正确;
③方差描述的是数据的波动程度,都加上相同数值后波动程度不变,正确;
④相关指数来刻画回归效果,越接近1,说明模型的拟合效果越好,错误;
综上,正确的命题有②③.
故答案为:②③
33.(2023·广西·校联考模拟预测)某单位为了调查性别与对工作的满意程度是否具有相关性,随机抽取了若干名员工,所得数据统计如下表所示,其中,且,若有的把握可以认为性别与对工作的满意程度具有相关性,则的值可以是__________.(横线上给出一个满足条件的x的值即可)
对工作满意 对工作不满意
男
女
附:,其中.
0.10 0.05 0.025 0.010 0.005 0.001
2.706 3.841 5.024 6.635 7.879 10.828
【答案】(或中任意一个)
【分析】根据卡方公式求出的取值范围,再根据且,即可得解.
【详解】,解得,
因为且,所以或或或或或.
故答案为:(或中任意一个)
34.(2023·福建福州·统考模拟预测)已知变量和的统计数据如下表:
6 7 8 9 10
3.5 4 5 6 6.5
若由表中数据得到经验回归直线方程为,则时的残差为_________(注:观测值减去预测值称为残差).
【答案】/
【分析】先求出回归方程,再根据回归方程求出预测值,最后计算残差即可.
【详解】,
则,解得,
所以,
当时,,
所以时的残差为.
故答案为:.
35.(2023·上海浦东新·统考三模)已知一组成对数据的回归方程为,则该组数据的相关系数__________(精确到0.001).
【答案】
【分析】一组成对数据的平均值一定在回归方程上,可求得,再利用相关系数的计算公式算出即可.
【详解】由条件可得,
,
,
一定在回归方程上,代入解得,
,
,
,
,
故答案为:
36.(2023·陕西安康·陕西省安康中学统考模拟预测)某池塘中水生植物的覆盖水塘面积(单位:)与水生植物的株数(单位:株)之间的相关关系,收集了4组数据,用模型去拟合与的关系,设,与的数据如表格所示:
3 4 6 7
2.5 3 4 5.9
得到与的线性回归方程,则___________.
【答案】
【分析】根据已知求得,,进而代入回归方程可求得,从而得出.然后代入,根据指对互化,即可得出答案.
【详解】由已知可得,,,
所以,有,解得,
所以.
由,得,
所以,
所以.
故答案为:.
四、解答题
37.(2023·全国·模拟预测)某校组织了全校学生参加“党的二十大”知识测试,并规定测试成绩(满分100分)不低于80分的为优秀,其他为不优秀.从全校学生中随机抽取200名(其中男生、女生各100名),并统计他们的测试成绩,得到如下不完整的列联表,其中,.
不优秀 优秀 总计
男生
女生
总计 200
(1)完成列联表,若依据小概率值的独立性检验,可以认为是否优秀与性别有关联,求m的最大值.
(2)每班派出一名代表参加校级“党的二十大”知识竞赛,经过各班代表的激烈角逐,最终甲、乙进入冠亚军争夺赛.争夺赛采用三局两胜制,约定先胜两局者获胜,每局比赛只有胜负两种情况,每局比赛中胜者得10分,负者得分.根据以往比赛经验,每局比赛中甲先答题获胜的概率为,甲后答题获胜的概率为,甲每局比赛结果互不影响.经抽签,第一局甲先答题,每一局获胜者在接下来的一局比赛中后答题.设X表示比赛结束时甲的总得分,求X的分布列和数学期望.
附:,其中.
0.1 0.01 0.001
2.706 6.635 10.828
【答案】(1)列联表见解析,最大值为14
(2)分布列见解析,
【分析】(1)根据题意,补全列联表,求出,依据小概率值的独立性检验,可以认为是否优秀与性别有关联,则,解出的范围,结合,即可求出m的最大值;
(2)分析得X的所有可能取值为,0,15,20,分别求出对应概率,即可得到X的分布列和数学期望.
【详解】(1)补全的列联表如下:
不优秀 优秀 总计
男生 100
女生 100
总计 80 120 200
由题意可知,,
由题意可知,,
解得或,
又,,所以m的最大值为14.
(2)X的所有可能取值为,0,15,20,
甲负前2局,;
表示比赛了3局,前2局甲胜1局负1局,第3局甲负,
;
表示比赛了3局,前2局甲胜1局负1局,第3局甲胜,
;
表示甲胜前2局,,
所以X的分布列为
X 0 15 20
P
故.
38.(2023·山西阳泉·统考二模)为响应国家使用新能源的号召,促进“碳达峰碳中和”的目标实现,某汽车生产企业在积极上市四款新能源汽车后,对它们进行了市场调研.该企业研发部门从购买这四款车的车主中随机抽取了50人,让车主对所购汽车的性能进行评分,每款车的性能都有1分、2分、3分、4分、5分五个等级,各评分及相应人数的统计结果如下表.
性能评分汽车款式 1 2 3 4 5
基础班 基础版1 2 2 3 1 0
基础版2 4 4 5 3 1
豪华版 豪华版1 1 3 5 4 1
豪华版2 0 0 3 5 3
(1)求所抽车主对这四款车性能评分的平均数和第90百分位数;
(2)当评分不小于4时,认为该款车性能优秀,否则认为性能一般.根据上述样本数据,完成以下列联表,并依据的独立性检验,能否认为汽车的性能与款式有关?并解释所得结论的实际含义.
汽车性能 汽车款式 合计
基础班 豪华版
一般
优秀
合计
(3)为提高这四款新车的性能,现从样本评分不大于2的基础版车主中,随机抽取3人征求意见,记X为其中基础版1车主的人数,求X的分布列及数学期望.
附:.
0.10 0.05 0.01 0.005
2.706 3.841 6.635 7.879
【答案】(1)平均数为3,第90百分位数为4.5;
(2)答案见解析
(3)分布列见解析,1
【分析】(1)根据百分位数定义求解即可;
(2)根据联表计算对应数据判断可得汽车的性能与款式的相关性;
(3)根据超几何分布计算概率和分布列及期望得解.
【详解】(1)由题意得这四款车性能评分的平均数为;
其第90百分位数为;
(2)由题意得
汽车性能 汽车款式 合计
基础版 豪华版
一般 20 12 32
优秀 5 13 18
合计 25 25 50
零假设为:汽车性能与款式无关,
根据列联表中的数据,经计算得到.
根据小概率值的独立性检验,推断不成立,即认为汽车性能与款式有关,
此推断犯错误的概率不超过0.05;
汽车性能一般中基础版和豪华版的频率分别为和,性能优秀中基础版和豪华版的频率分别为和,
根据频率稳定于概率的原理,可以认为性能优秀时豪华版的概率大.
(3)由题意可得X服从超几何分布,且,,,
由题意知,X的所有可能取值为,
则,,,
所以X的分布列为
X 0 1 2 3
P
.
39.(2023·全国·模拟预测)为了落实国家“双减”政策,需要加强中小学作业管理,真正地实现“减负增效”.为了解实情,某教育集团随机抽检某一学区小学生的作业情况,该学区共有20000名小学生,其中低年级(1-3年级)有9000名学生,其余学生为高年级(4-6年级).现按高、低年级分层抽取若干名学生进行问卷调查,已知高年级抽取550名学生,根据问卷调查的学生对作业“多与少”的看法,得到下表:
单位:人
年级 看法 合计
认为作业多 认为作业少
低年级 150
高年级 200
合计
(1)请将上述表格补充完整;
(2)是否有99.9%的把握认为作业量与年级的高低有关?
(3)为进一步了解作业多的情况,从问卷调查中“认为作业多”的学生中按高、低年级分层抽取5名学生,再从这5名学生中随机抽取2人深入访谈,求抽取的2人中至少有1人是高年级的学生的概率.
附:.
0.10 0.05 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
【答案】(1)表格见解析
(2)有
(3)
【分析】(1)根据分层抽样的性质将表格补充完整即可;
(2)代入卡方的计算公式即可求解;
(3)根据题意,列出所有事件构成的样本空间,利用古典概型的概率计算公式即可求解.
【详解】(1)高年级的学生数为.
由题意知,分层抽取的样本总数为,
所以抽取的低年级的学生数为,所以低年级中“认为作业多”的学生数为,高年级中“认为作业少”的学生数为.
补充完整表格如下:
年级 看法 合计
认为作业多 认为作业少
低年级 300 150 450
高年级 200 350 550
合计 500 500 1000
(2),
所以有99.9%的把握认为作业量与年级的高低有关.
(3)由题意知,抽取的5名学生中有3名低年级的学生,记为a,b,c,有2名高年级的学生,记为d,e.
随机抽取2人的情况所构成的样本空间
,共10个样本点.
抽取的2人中至少有1人是高年级的学生的样本点有,,,,,,,共7个.
故所求概率为.
40.(2023·湖南长沙·长郡中学校联考模拟预测)某学校有、两家餐厅,王同学第天午餐时随机选择一家餐厅用餐.如果第天去餐厅,那么第天去餐厅的概率为;如果第天去餐厅,那么第天去餐厅的概率为.
(1)①求王同学第天去餐厅用餐的概率;
②如果王同学第天去餐厅用餐,求他第天在餐厅用餐的概率;
(2)餐厅对就餐环境、菜品种类与品质等方面进行了改造与提升改造提升后,餐厅对就餐满意程度进行了调查,统计了名学生的数据,如下表(单位:人).
就餐满意程度 餐厅改造提升情况 合计
改造提升前 改造提升后
满意 28 57 85
不满意 12 3 15
合计 40 60 100
依据小概率值的独立性检验,能否认为学生对于餐厅的满意程度与餐厅的改造提升有关联?
附:,其中.
0.1 0.05 0.01 0.005
2.706 3.841 6.635 7.879
【答案】(1)① ;②
(2)认为学生对于餐厅的满意程度与餐厅的改造提升有关联
【分析】(1)①设事件第天去餐厅用餐,事件第天餐厅用餐,其中、,利用全概率公式可求得所求事件的概率;
②利用贝叶斯公式可计算得出所求事件的概率;
(2)计算出的观测值,结合临界表可得出结论.
【详解】(1)解:设事件第天去餐厅用餐,事件第天餐厅用餐,其中,,
①王同学第天去餐厅用餐的概率为:
;
②如果王同学第天去餐厅用餐,那么他第天在餐厅用餐的概率为:
.
(2)解:提出零假设:学生对于餐厅的满意程度与餐厅的改造提升没有关联.
,
根据小概率值的独立性检验,我们推断不成立,即认为学生对于餐厅的满意程度与餐厅的改造提升有关联.
41.(2023·河北唐山·统考三模)据统计,某城市居民年收入(所有居民在一年内收入的总和,单位:亿元)与某类商品销售额(单位:亿元)的10年数据如下表所示:
第年 1 2 3 4 5 6 7 8 9 10
居民年收入 32.2 31.1 32.9 35.7 37.1 38.0 39.0 43.0 44.6 46.0
商品销售额 25.0 30.0 34.0 37.0 39.0 41.0 42.0 44.0 48.0 51.0
依据表格数据,得到下面一些统计量的值.
379.6 391 247.624 568.9
(1)根据表中数据,得到样本相关系数.以此推断,与的线性相关程度是否很强?
(2)根据统计量的值与样本相关系数,建立关于的经验回归方程(系数精确到0.01);
(3)根据(2)的经验回归方程,计算第1个样本点对应的残差(精确到0.01);并判断若剔除这个样本点再进行回归分析,的值将变大还是变小?(不必说明理由,直接判断即可).
附:样本的相关系数,
,,.
【答案】(1)线性相关程度很强
(2)
(3),变小
【分析】(1)根据样本相关系数,进得推断即可;
(2)由可求得,由求得,即可得线性回归方程;
(3)第一个样本点的残差为:,计算即可;由于该点在回归直线的左下方,故将其剔除后,的值将变小.
【详解】(1)根据样本相关系数,可以推断线性相关程度很强.
(2)由及,
可得,
所以,
又因为,
所以,
所以与的线性回归方程.
(3)第一个样本点的残差为:,
由于该点在回归直线的左下方,故将其剔除后,的值将变小.
42.(2023·河南郑州·三模)某校为了深入学习宣传贯彻党的二十大精神,引导广大师生深入学习党的二十大报告,认真领悟党的二十大提出的新思想、新论断,作出的新部署、新要求,把思想统一到党的二十大精神上来,把力量凝聚到落实党的二十大作出的各项重大部署上来.经研究,学校决定组织开展“学习二十大奋进新征程”的二十大知识竞答活动.
本次党的二十大知识竞答活动,组织方设计了两套活动方案:
方案一:参赛选手先选择一道多选题作答,之后都选择单选题作答;
方案二:参赛选手全部选择单选题作答.
其中每道单选题答对得2分,答错不得分;
多选题全部选对得3分,选对但不全得1分,有错误选项不得分.
为了提高广大师生的参与度,受时间和场地的限制,组织方要求参与竞答的师生最多答3道题.在答题过程中如果参赛选手得到4分或4分以上则立即停止答题,举办方给该参赛选手发放奖品.据统计参与竞答活动的师生有500人,统计如表所示:
男生 女生 总计
选择方案一 100 80
选择方案二 200 120
总计
(1)完善上面列联表,据此资料判断,是否有90%的把握认为方案的选择与性别有关?
(2)某同学回答单选题的正确率为0.8,各题答对与否相互独立,多选题完全选对的概率为0.3,选对且不全的概率为0.3;如果你是这位同学,为了获取更好的得分你会选择哪个方案?请通过计算说明理由.
附:,.
0.15 0.10 0.05 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.024 6.635 7.879 10.828
【答案】(1)表格见解析,没有
(2)方案一,理由见解析
【分析】(1)首先补全列联表,再根据参考公式和数据,进行比较后,即可作出判断;
(2)分别计算两个方案下的得分的分布列,再求数学期望,比较大小后,即可判断.
【详解】(1)由题意完善列联表如图
男生 女生 总计
选择方案一 100 80 180
选择方案二 200 120 320
总计 300 200 500
故
故没有的把握认为方案的选择与性别有关.
(2)设选择方案一的得分为X,则X的所有可能取值为,
则,,
,,
,
,
故X的数学期望.
设选择方案二的得分为Y,则Y的可能取值为,
则,,
,
故,
因为,故为了获取更好的得分,我会选择方案一
43.(2023·湖北黄冈·浠水县第一中学校考模拟预测)一个航空航天的兴趣小组,对500名男生和500名女生关于航空航天是否感兴趣的话题进行统计,情况如下表所示.
男生 女生
感兴趣 380 220
不感兴趣 120 280
P() 0.050 0.025 0.010 0.005 0.001
k 3.841 5.024 6.635 7.879 10.828
附:.
(1)是否有99.9%的把握认为对航空航天感兴趣的情况与性别相关联
(2)一名兴趣小组成员在试验桌上进行两艘飞行器模型间的“交会对接”游戏,左边有2艘“Q2运输船”和1艘“M1转移塔”,右边有3艘“M1转移塔”.假设两艘飞行器模型间的“交会对接”重复了n次,记左边剩余2艘“Q2运输船”的概率为,剩余1艘“Q2运输船”的概率为,求与的递推关系式;
(3)在(2)情况下,求的分布列与数学期望.
【答案】(1)有99.9%的把握认为对航空航天感兴趣的情况与性别相关联
(2)
(3)分布列见解析,,
【分析】(1)由题意得,结合题意,即可得出答案;
(2)分别求出,,即可得出答案;
(3)由(2)得,,利用等比数列的通项公式可得,求出,,即可得出答案.
【详解】(1)解:
∴有99.9%的把握认为对航空航天感兴趣的情况与性别相关联.
(2),,
,.
当时,①
,②
2×①+②,得.
从而.
(3)由(2)得,,数列是首项为,公比为的等比数列,,即,③,
联立②③得,又,则数列是首项为,公比为的等比数列,
,由③得,
,
的概率分布列为:
则,.
44.(2023·江西九江·统考三模)2023年,国家不断加大对科技创新的支持力度,极大鼓舞了企业投入研发的信心,增强了企业的创新动能.某企业在国家一系列优惠政策的大力扶持下,通过技术革新和能力提升,极大提升了企业的影响力和市场知名度,订单数量节节攀升,右表为该企业今年1~4月份接到的订单数量.
月份t 1 2 3 4
订单数量y(万件) 5.2 5.3 5.7 5.8
附:相关系数,
回归方程中斜率和截距的最小二乘法估计公式分别为
,,.
(1)试根据样本相关系数r的值判断订单数量y与月份t的线性相关性强弱(,则认为y与t的线性相关性较强,,则认为y与t的线性相关性较弱).(结果保留两位小数)
(2)建立y关于t的线性回归方程,并预测该企业5月份接到的订单数量.
【答案】(1)0.96,订单数量y与月份t的线性相关性较强
(2),6.05万件
【分析】(1)根据公式求出,即可得出结论;
(2)利用最小二乘法求出回归方程,再令,即可得解.
【详解】(1),,
,
,
,
,
订单数量y与月份t的线性相关性较强;
(2),
,
线性回归方程为,
令,(万件),
即该企业5月份接到的订单数量预计为6.05万件.
45.(2023·浙江金华·统考模拟预测)某市阅读研究小组为了解该城市中学生阅读与语文成绩的关系,在参加市中学生语文综合能力竞赛的各校学生中随机抽取了500人进行调查,并按学生成绩是否高于75分(满分100分)及周平均阅读时间是否少于10小时,将调查结果整理成列联表.现统计出成绩不低于75分的样本占样本总数的,周平均阅读时间少于10小时的人数占样本总数的一半,而不低于75分且周平均阅读时间不少于10小时的样本有100人.
周平均阅读时间少于10小时 周平均阅读时间不少于10小时 合计
75分以下
不低于75分 100
合计 500
(1)根据所给数据,求出表格中和的值,并分析能否有以上的把握认为语文成绩与阅读时间是否有关;
(2)先从成绩不低于75分的样本中按周平均阅读时间是否少于10小时分层抽样抽取9人进一步做问卷调查,然后从这9人中再随机抽取3人进行访谈,记抽取3人中周平均阅读时间不少于10小时的人数为,求的分布列与均值.
参考公式及数据:.
0.01 0.005 0.001
6.635 7.879 10.828
【答案】(1),有的把握认为语文成绩与阅读时间有关
(2)分布列见解析,数学期望为
【分析】(1)根据已知完善列联表求出参数,应用卡方公式求卡方值,结合独立性检验的基本思想得到结论;
(2)根据分层抽样等比例性质确定抽取9人的分布情况,进而写出可能的取值,并求出对应概率,写出分布列并求期望.
【详解】(1)根据已知条件,列联表如下:
周平均阅读时间少于10小时 周平均阅读时间不少于10小时 合计
75分以下 200 150 350
不低于75分 50 100 150
合计 250 250 500
所以,由表知,
所以有的把握认为语文成绩与阅读时间有关.
(2)依题意,成绩不低于75分的学生中周平均阅读时间少于10小时和不少于10小时的人数比是1:2,
按分层抽样抽取9人,则周平均阅读时间少于10小时有3人,不少于10小时的有6人,
从这9人中再随机抽取3人进行访谈,则可能的取值为,
,.
分布列如下:
0 1 2 3
.
21世纪教育网(www.21cnjy.com)
21世纪教育网(www.21cnjy.com)中小学教育资源及组卷应用平台
中小学教育资源及组卷应用平台
专题28 统计案例
一、单选题
1.(2023·宁夏石嘴山·平罗中学校考模拟预测)下列有关回归分析的说法中不正确的是( )
A.回归直线必过点
B.回归直线就是散点图中经过样本数据点最多的那条直线
C.当相关系数时,两个变量正相关
D.如果两个变量的线性相关性越弱,则就越接近于
2.(2023·陕西榆林·统考三模)若由一个列联表中的数据计算得,则( )
0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
A.能有的把握认为这两个变量有关系
B.能有的把握认为这两个变量没有关系
C.能有的把握认为这两个变量有关系
D.能有的把握认为这两个变量没有关系
3.(2023·河南·校联考模拟预测)人们常将男子短跑的高水平运动员称为“百米飞人”,表中给出了1968年之前部分男子短跑世界纪录产生的年份和世界纪录的数据:
第次 1 2 3 4 5
年份 1930 1936 1956 1960 1968
纪录 10.30 10.20 10.10 10.00 9.95
如果变量与之间具有线性相关关系,设用最小二乘法建立的回归直线方程为,则下列说法正确的是( )
A.变量与之间是正相关关系 B.变量与之间的线性相关系数
C. D.下一次世界纪录一定是
4.(2023·江西上饶·统考二模)中国新能源汽车出口实现跨越式突破,是国产汽车品牌实现弯道超车,打造核心竞争力的主要抓手.下表是2022年我国某新能源汽车厂前5个月的销量y和月份x的统计表,根据表中的数据可得线性回归方程为,则下列四个命题正确的个数为( )
月份x 1 2 3 4 5
销量y(万辆) 1.5 1.6 2 2.4 2.5
①变量x与y正相关;②;③y与x的样本相关系数;④2022年7月该新能源汽车厂的销量一定是3.12万辆.
A.1 B.2 C.3 D.4
5.(2023·天津·一模)以下说法不正确的是( )
A.78,82,83,85,86,87,89,89的第75百分位数为88
B.相关系数的绝对值接近于0,两个随机变量没有相关性
C.的展开式中常数项为15
D.必然事件和不可能事件与任意事件相互独立
6.(2023·新疆乌鲁木齐·统考三模)5G技术在我国已经进入高速发展的阶段,5G手机的销量也逐渐上升,某手机商城统计了最近5个月手机的实际销量,如下表所示:
时间 1 2 3 4 5
销售量(千只) 0.5 0.8 1.0 1.2 1.5
若与线性相关,且线性回归方程为,则下列说法不正确的是( )
A.由题中数据可知,变量与正相关,且相关系数
B.线性回归方程中
C.残差的最大值与最小值之和为0
D.可以预测时该商场手机销量约为1.72(千只)
7.(2023·江西南昌·南昌县莲塘第一中学校联考二模)下列四个命题中,正确的个数有( )
①两个变量间的相关系数越小,说明两变量间的线性相关程度越低;
②命题“,使得”的否定是:“对,均有”;
③命题“p∧q为真”是命题“p∨q为真”的必要不充分条件;
④若函数在有极值0,则,或,.
A.0 B.1 C.2 D.3
8.(2023·重庆·统考二模)用模型拟合一组数据组,其中;设,得变换后的线性回归方程为,则( )
A. B.70 C. D.35
9.(2023·内蒙古呼和浩特·呼市二中校考模拟预测)以模型去拟合一组数据时,设,将其变换后得到线性回归方程,则( )
A. B. C. D.e
10.(2023·天津·大港一中校联考一模)下列命题错误的是( )
A.两个随机变量的线性相关性越强,相关系数的绝对值越接近于
B.设,且,则
C.线性回归直线一定经过样本点的中心
D.随机变量,若,则
11.(2023·河南安阳·统考二模)已知建筑地基沉降预测对于保证施工安全,实现信息化监控有着重要意义.某工程师建立了四个函数模型来模拟建筑地基沉降随时间的变化趋势,并用相关指数、误差平方和、均方根值三个指标来衡量拟合效果.相关指数越接近1表明模型的拟合效果越好,误差平方和越小表明误差越小,均方根值越小越好.依此判断下面指标对应的模型拟合效果最好的是( ).
相关指数 误差平方和 均方根值
0.949 5.491 0.499
A.
相关指数 误差平方和 均方根值
0.933 4.179 0.436
B.
相关指数 误差平方和 均方根值
0.997 1.701 0.141
C.
相关指数 误差平方和 均方根值
0.997 2.899 0.326
D.
12.(2023·浙江杭州·统考二模)某兴趣小组研究光照时长x(h)和向日葵种子发芽数量y(颗)之间的关系,采集5组数据,作如图所示的散点图.若去掉后,下列说法正确的是( )
A.相关系数r变小 B.决定系数变小
C.残差平方和变大 D.解释变量x与预报变量y的相关性变强
13.(2023·甘肃兰州·校考模拟预测)为庆祝党的二十大的胜利召开,某高校党委从所有的学生党员中随机抽取100名,举行“二十大”相关知识的竞赛活动,根据竞赛成绩,得到如下2×2列联表.则下列说法正确的是( )
优秀 非优秀 合计
男 20 30 50
女 35 15 50
合计 55 45 100
参考公式及数据:,其中.
A.有的把握认为“竞赛成绩是否优秀与性别有关”
B.有的把握认为“竞赛成绩是否优秀与性别无关”
C.在犯错误的概率不超过的前提下,认为“竞赛成绩是否优秀与性别无关”
D.在犯错误的概率不超过的前提下,认为“竞赛成绩是否优秀与性别有关”
14.(2023·安徽安庆·校联考模拟预测)对于数据组,如果由经验回归方程得到的对应自变量的估计值是,那么将称为对应点的残差.某商场为了给一种新商品进行合理定价,将该商品按事先拟定的价格进行试销,得到如下所示数据:
单价x/元 8.2 8.4 8.6 8.8
销量y/件 84 83 78 m
根据表中的数据,得到销量y(单位:件)与单价x(单位:元)之间的经验回归方程为,据计算,样本点处的残差为1,则( ).
A.76 B.75 C.74 D.73
15.(2023·江西宜春·统考一模)给出下列命题,其中正确命题的个数为( )
①若样本数据的方差为,则数据的方差为;
②回归方程为时,变量与具有负的线性相关关系;
③随机变量服从正态分布,,则;
④在回归分析中,对一组给定的样本数据而言,当样本相关系数越接近时,样本数据的线性相关程度越强.
A.个 B.个 C.个 D.个
16.(2023·江西九江·统考二模)已知变量的关系可以用模型拟合,设,其变换后得到一组数据如下.由上表可得线性回归方程,则( )
x 1 2 3 4 5
z 2 4 5 10 14
A. B. C. D.
17.(2023·上海崇明·上海市崇明中学校考模拟预测)在对吸烟与患肺病这两个分类变量的独立性检验中,下列说法正确的是( )
(参考数据:)
① 若的观测值满足,我们有的把握认为吸烟与患肺病有关系;
② 若的观测值满足,那么在个吸烟的人中约有人患有肺病;
③ 从独立性检验可知,如果有的把握认为吸烟与患肺病有关系时,那么我们就认为:每个吸烟的人有的可能性会患肺病;
④ 从统计量中得知有的把握认为吸烟与患肺病有关系时,是指有的可能性使推断出现错误.
A.① B.①④ C.②③ D.①②③④
18.(2023·山东菏泽·统考二模)足球是一项大众喜爱的运动,为了解喜爱足球是否与性别有关,随机抽取了若干人进行调查,抽取女性人数是男性的2倍,男性喜爱足球的人数占男性人数的,女性喜爱足球的人数占女性人数的,若本次调查得出“在犯错误的概率不超过0.005的前提下认为喜爱足球与性别有关”的结论,则被调查的男性至少有( )人
a 0.10 0.05 0.01 0.005 0.001
2.706 3.841 5.635 7.879 10.828
A.10 B.11 C.12 D.13
19.(2023·广东梅州·统考二模)云计算是信息技术发展的集中体现,近年来,我国云计算市场规模持续增长.已知某科技公司2018年至2022年云计算市场规模数据,且市场规模y与年份代码x的关系可以用模型(其中e为自然对数的底数)拟合,设,得到数据统计表如下:
年份 2018年 2019年 2020年 2021年 2022年
年份代码x 1 2 3 4 5
云计算市场规模y/千万元 7.4 11 20 36.6 66.7
2 2.4 3 3.6 4
由上表可得经验回归方程,则2025年该科技公司云计算市场规模y的估计值为( )
A. B. C. D.
20.(2023·四川遂宁·统考三模)下图是遂宁市2022年4月至2023年3月每月最低气温与最高气温(℃)的折线统计图:已知每月最低气温与最高气温的线性相关系数,则下列结论正确的是( )
A.月温差(月最高气温﹣月最低气温)的最大值出现在8月
B.每月最低气温与最高气温有较强的线性相关性,且二者为线性负相关
C.每月最高气温与最低气温的平均值在4-8月逐月增加
D.9﹣12月的月温差相对于5﹣8月,波动性更小
二、多选题
21.(2023·浙江绍兴·统考模拟预测)给出以下四个说法,正确的有( )
A.如果由一组样本数据得到的经验回归方程是,那么经验回归直线至少经过点中的一个
B.在残差的散点图中,残差分布的水平带状区域的宽度越窄,其模型的拟合效果越好
C.在回归分析中,用决定系数来比较两个模型拟合效果,越大,表示残差平方和越小,即模型的拟合效果越好
D.设两个变量之间的线性相关系数为,则的充要条件是成对数据构成的点都在经验回归直线上
22.(2023·湖北·模拟预测)人口问题始终是战略性、全局性的问题.2022年末我国人口比上年末减少85万人,为61年来的首次人口负增长,其中生育率持续降低受到了人们的广泛关注.为促进人口长期均衡发展,国家制定了一系列优化生育政策:2016年正式全面开放二胎;2022年实施三孩生育政策,并配套生育支持措施.为了了解中国人均GDP (单位:万元)和总和生育率y以及女性平均受教育年限z(单位:年)的关系,采用2012~2022近十年来的数据绘制了散点图,并得到经验回归方程,,对应的决定系数分别为,,则( )
A.人均GDP和女性平均受教育年限正相关 B.女性平均受教育年限和总和生育率负相关
C. D.未来三年总和生育率将继续降低
23.(2023·山东青岛·统考二模)“天宫课堂”是为发挥中国空间站的综合效益,推出的首个太空科普教育品牌.为了解学生对“天宫课堂”的喜爱程度,某学校从全校学生中随机抽取200名学生进行问卷调查,得到以下数据,则( )
喜欢天宫课堂 不喜欢天宫课堂
男生 80 20
女生 70 30
参考公式及数据:①,.②当时,.
A.从这200名学生中任选1人,已知选到的是男生,则他喜欢天宫课堂的概率为
B.用样本的频率估计概率,从全校学生中任选3人,恰有2人不喜欢天宫课堂的概率为
C.根据小概率值的独立性检验,认为喜欢天宫课堂与性别没有关联
D.对抽取的喜欢天宫课堂的学生进行天文知识测试,男生的平均成绩为80,女生的平均成绩为90,则参加测试的学生成绩的均值为85
24.(2023·山东滨州·统考二模)下列说法正确的是( )
A.已知经验回归方程,则当时,的估计值为12.22
B.在回归分析中,残差点分布的带状区域的宽度越窄表示拟合效果越差
C.在经验回归方程中,当解释变量每增加1个单位时,响应变量将平均减少0.3个单位
D.在一元线性回归模型分析中,决定系数用来刻画模型的拟合效果,若的值越小,则模型的拟合效果越好
25.(2023·浙江金华·统考模拟预测)下列说法正确的是( )
A.若随机变量,则
B.样本相关系数的绝对值越接近,成对样本数据线性相关程度越强
C.数据的第百分位数为
D.抛掷一枚质地均匀的骰子所得的样本空间为,令事件,,则事件不独立
26.(2023·安徽黄山·统考三模)下列命题中,正确的是( )
A.在回归分析中,可用决定系数的值判断模型的拟合效果,越大,模型的拟合效果越好
B.对分类变量与的统计量来说,值越小,判断“与有关系”的把握程度越大
C.在回归模型中,残差是观测值与预测值的差,残差点所在的带状区域宽度越窄,说明模型拟合精度越高
D.一组数据的第百分位数为
27.(2023·湖北·荆门市龙泉中学校联考二模)下列结论正确的有( )
A.若随机变量,满足,则
B.若随机变量,且,则
C.若线性相关系数越接近1,则两个变量的线性相关性越强
D.按从小到大顺序排列的两组数据:甲组:27,30,37,m,40,50;乙组:24,n,33,44.48,52,若这两组数据的第30百分位数、第50百分位数都分别对应相等,则
28.(2023·云南·统考二模)下列命题,错误的是( )
A.若随机变量X服从正态分布,且,则
B.100件产品中包含10件次品,不放回地随机抽取6件,则次品数X服从二项分布
C.将随机变量进行平移或伸缩后,其均值与方差都不会变化
D.在一元线性回归模型分析中,决定系数用来刻画两个模型拟合的效果.若越小,则模型的拟合效果越好
29.(2023·广东深圳·统考二模)为了研究y关于x的线性相关关系,收集了5组样本数据(见下表):
x 1 2 3 4 5
y 0.5 0.8 1 1.2 1.5
假设经验回归方程为,则( )
A.
B.当时,y的预测值为2.2
C.样本数据y的40%分位数为0.8
D.去掉样本点后,x与y的样本相关系数r不变
30.(2023·辽宁·校联考二模)下列命题中,正确的命题是( ).
A.数据1,2,3,4,5,6,7,8,9,10的70%分位数是7
B.若随机变量,则
C.在回归分析中,可用相关系数R的值判断模型的拟合效果,越趋近于1,模型的拟合效果越好
D.若随机变量,,则
三、填空题
31.(2023·辽宁·辽宁实验中学校联考模拟预测)为了比较甲、乙、丙、丁四组数据的线性相关性的强弱,小明分别计算了甲、乙、丙、丁四组数据的线性相关系数,其数值分别为,,0.76,0.92,则这四组数据中线性相关性最强的是______组数据.
32.(2023·海南省直辖县级单位·统考模拟预测)下列命题中正确的有______.
①若是空间三个非零向量,且满足,则;
②回归直线一定过样本中心.
③若将一组样本数据中的每个数据都加上同一个常数后,则样本的方差不变;
④用相关指数来刻画回归效果,越接近0,说明模型的拟合效果越好;
33.(2023·广西·校联考模拟预测)某单位为了调查性别与对工作的满意程度是否具有相关性,随机抽取了若干名员工,所得数据统计如下表所示,其中,且,若有的把握可以认为性别与对工作的满意程度具有相关性,则的值可以是__________.(横线上给出一个满足条件的x的值即可)
对工作满意 对工作不满意
男
女
附:,其中.
0.10 0.05 0.025 0.010 0.005 0.001
2.706 3.841 5.024 6.635 7.879 10.828
34.(2023·福建福州·统考模拟预测)已知变量和的统计数据如下表:
6 7 8 9 10
3.5 4 5 6 6.5
若由表中数据得到经验回归直线方程为,则时的残差为_________(注:观测值减去预测值称为残差).
35.(2023·上海浦东新·统考三模)已知一组成对数据的回归方程为,则该组数据的相关系数__________(精确到0.001).
36.(2023·陕西安康·陕西省安康中学统考模拟预测)某池塘中水生植物的覆盖水塘面积(单位:)与水生植物的株数(单位:株)之间的相关关系,收集了4组数据,用模型去拟合与的关系,设,与的数据如表格所示:
3 4 6 7
2.5 3 4 5.9
得到与的线性回归方程,则___________.
四、解答题
37.(2023·全国·模拟预测)某校组织了全校学生参加“党的二十大”知识测试,并规定测试成绩(满分100分)不低于80分的为优秀,其他为不优秀.从全校学生中随机抽取200名(其中男生、女生各100名),并统计他们的测试成绩,得到如下不完整的列联表,其中,.
不优秀 优秀 总计
男生
女生
总计 200
(1)完成列联表,若依据小概率值的独立性检验,可以认为是否优秀与性别有关联,求m的最大值.
(2)每班派出一名代表参加校级“党的二十大”知识竞赛,经过各班代表的激烈角逐,最终甲、乙进入冠亚军争夺赛.争夺赛采用三局两胜制,约定先胜两局者获胜,每局比赛只有胜负两种情况,每局比赛中胜者得10分,负者得分.根据以往比赛经验,每局比赛中甲先答题获胜的概率为,甲后答题获胜的概率为,甲每局比赛结果互不影响.经抽签,第一局甲先答题,每一局获胜者在接下来的一局比赛中后答题.设X表示比赛结束时甲的总得分,求X的分布列和数学期望.
附:,其中.
0.1 0.01 0.001
2.706 6.635 10.828
38.(2023·山西阳泉·统考二模)为响应国家使用新能源的号召,促进“碳达峰碳中和”的目标实现,某汽车生产企业在积极上市四款新能源汽车后,对它们进行了市场调研.该企业研发部门从购买这四款车的车主中随机抽取了50人,让车主对所购汽车的性能进行评分,每款车的性能都有1分、2分、3分、4分、5分五个等级,各评分及相应人数的统计结果如下表.
性能评分汽车款式 1 2 3 4 5
基础班 基础版1 2 2 3 1 0
基础版2 4 4 5 3 1
豪华版 豪华版1 1 3 5 4 1
豪华版2 0 0 3 5 3
(1)求所抽车主对这四款车性能评分的平均数和第90百分位数;
(2)当评分不小于4时,认为该款车性能优秀,否则认为性能一般.根据上述样本数据,完成以下列联表,并依据的独立性检验,能否认为汽车的性能与款式有关?并解释所得结论的实际含义.
汽车性能 汽车款式 合计
基础班 豪华版
一般
优秀
合计
(3)为提高这四款新车的性能,现从样本评分不大于2的基础版车主中,随机抽取3人征求意见,记X为其中基础版1车主的人数,求X的分布列及数学期望.
附:.
0.10 0.05 0.01 0.005
2.706 3.841 6.635 7.879
39.(2023·全国·模拟预测)为了落实国家“双减”政策,需要加强中小学作业管理,真正地实现“减负增效”.为了解实情,某教育集团随机抽检某一学区小学生的作业情况,该学区共有20000名小学生,其中低年级(1-3年级)有9000名学生,其余学生为高年级(4-6年级).现按高、低年级分层抽取若干名学生进行问卷调查,已知高年级抽取550名学生,根据问卷调查的学生对作业“多与少”的看法,得到下表:
单位:人
年级 看法 合计
认为作业多 认为作业少
低年级 150
高年级 200
合计
(1)请将上述表格补充完整;
(2)是否有99.9%的把握认为作业量与年级的高低有关?
(3)为进一步了解作业多的情况,从问卷调查中“认为作业多”的学生中按高、低年级分层抽取5名学生,再从这5名学生中随机抽取2人深入访谈,求抽取的2人中至少有1人是高年级的学生的概率.
附:.
0.10 0.05 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
40.(2023·湖南长沙·长郡中学校联考模拟预测)某学校有、两家餐厅,王同学第天午餐时随机选择一家餐厅用餐.如果第天去餐厅,那么第天去餐厅的概率为;如果第天去餐厅,那么第天去餐厅的概率为.
(1)①求王同学第天去餐厅用餐的概率;
②如果王同学第天去餐厅用餐,求他第天在餐厅用餐的概率;
(2)餐厅对就餐环境、菜品种类与品质等方面进行了改造与提升改造提升后,餐厅对就餐满意程度进行了调查,统计了名学生的数据,如下表(单位:人).
就餐满意程度 餐厅改造提升情况 合计
改造提升前 改造提升后
满意 28 57 85
不满意 12 3 15
合计 40 60 100
依据小概率值的独立性检验,能否认为学生对于餐厅的满意程度与餐厅的改造提升有关联?
附:,其中.
0.1 0.05 0.01 0.005
2.706 3.841 6.635 7.879
41.(2023·河北唐山·统考三模)据统计,某城市居民年收入(所有居民在一年内收入的总和,单位:亿元)与某类商品销售额(单位:亿元)的10年数据如下表所示:
第年 1 2 3 4 5 6 7 8 9 10
居民年收入 32.2 31.1 32.9 35.7 37.1 38.0 39.0 43.0 44.6 46.0
商品销售额 25.0 30.0 34.0 37.0 39.0 41.0 42.0 44.0 48.0 51.0
依据表格数据,得到下面一些统计量的值.
379.6 391 247.624 568.9
(1)根据表中数据,得到样本相关系数.以此推断,与的线性相关程度是否很强?
(2)根据统计量的值与样本相关系数,建立关于的经验回归方程(系数精确到0.01);
(3)根据(2)的经验回归方程,计算第1个样本点对应的残差(精确到0.01);并判断若剔除这个样本点再进行回归分析,的值将变大还是变小?(不必说明理由,直接判断即可).
附:样本的相关系数,
,,.
42.(2023·河南郑州·三模)某校为了深入学习宣传贯彻党的二十大精神,引导广大师生深入学习党的二十大报告,认真领悟党的二十大提出的新思想、新论断,作出的新部署、新要求,把思想统一到党的二十大精神上来,把力量凝聚到落实党的二十大作出的各项重大部署上来.经研究,学校决定组织开展“学习二十大奋进新征程”的二十大知识竞答活动.
本次党的二十大知识竞答活动,组织方设计了两套活动方案:
方案一:参赛选手先选择一道多选题作答,之后都选择单选题作答;
方案二:参赛选手全部选择单选题作答.
其中每道单选题答对得2分,答错不得分;
多选题全部选对得3分,选对但不全得1分,有错误选项不得分.
为了提高广大师生的参与度,受时间和场地的限制,组织方要求参与竞答的师生最多答3道题.在答题过程中如果参赛选手得到4分或4分以上则立即停止答题,举办方给该参赛选手发放奖品.据统计参与竞答活动的师生有500人,统计如表所示:
男生 女生 总计
选择方案一 100 80
选择方案二 200 120
总计
(1)完善上面列联表,据此资料判断,是否有90%的把握认为方案的选择与性别有关?
(2)某同学回答单选题的正确率为0.8,各题答对与否相互独立,多选题完全选对的概率为0.3,选对且不全的概率为0.3;如果你是这位同学,为了获取更好的得分你会选择哪个方案?请通过计算说明理由.
附:,.
0.15 0.10 0.05 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.024 6.635 7.879 10.828
43.(2023·湖北黄冈·浠水县第一中学校考模拟预测)一个航空航天的兴趣小组,对500名男生和500名女生关于航空航天是否感兴趣的话题进行统计,情况如下表所示.
男生 女生
感兴趣 380 220
不感兴趣 120 280
P() 0.050 0.025 0.010 0.005 0.001
k 3.841 5.024 6.635 7.879 10.828
附:.
(1)是否有99.9%的把握认为对航空航天感兴趣的情况与性别相关联
(2)一名兴趣小组成员在试验桌上进行两艘飞行器模型间的“交会对接”游戏,左边有2艘“Q2运输船”和1艘“M1转移塔”,右边有3艘“M1转移塔”.假设两艘飞行器模型间的“交会对接”重复了n次,记左边剩余2艘“Q2运输船”的概率为,剩余1艘“Q2运输船”的概率为,求与的递推关系式;
(3)在(2)情况下,求的分布列与数学期望.
44.(2023·江西九江·统考三模)2023年,国家不断加大对科技创新的支持力度,极大鼓舞了企业投入研发的信心,增强了企业的创新动能.某企业在国家一系列优惠政策的大力扶持下,通过技术革新和能力提升,极大提升了企业的影响力和市场知名度,订单数量节节攀升,右表为该企业今年1~4月份接到的订单数量.
月份t 1 2 3 4
订单数量y(万件) 5.2 5.3 5.7 5.8
附:相关系数,
回归方程中斜率和截距的最小二乘法估计公式分别为
,,.
(1)试根据样本相关系数r的值判断订单数量y与月份t的线性相关性强弱(,则认为y与t的线性相关性较强,,则认为y与t的线性相关性较弱).(结果保留两位小数)
(2)建立y关于t的线性回归方程,并预测该企业5月份接到的订单数量.
45.(2023·浙江金华·统考模拟预测)某市阅读研究小组为了解该城市中学生阅读与语文成绩的关系,在参加市中学生语文综合能力竞赛的各校学生中随机抽取了500人进行调查,并按学生成绩是否高于75分(满分100分)及周平均阅读时间是否少于10小时,将调查结果整理成列联表.现统计出成绩不低于75分的样本占样本总数的,周平均阅读时间少于10小时的人数占样本总数的一半,而不低于75分且周平均阅读时间不少于10小时的样本有100人.
周平均阅读时间少于10小时 周平均阅读时间不少于10小时 合计
75分以下
不低于75分 100
合计 500
(1)根据所给数据,求出表格中和的值,并分析能否有以上的把握认为语文成绩与阅读时间是否有关;
(2)先从成绩不低于75分的样本中按周平均阅读时间是否少于10小时分层抽样抽取9人进一步做问卷调查,然后从这9人中再随机抽取3人进行访谈,记抽取3人中周平均阅读时间不少于10小时的人数为,求的分布列与均值.
参考公式及数据:.
0.01 0.005 0.001
6.635 7.879 10.828
21世纪教育网(www.21cnjy.com)
21世纪教育网(www.21cnjy.com)