专题9.3 成对数据的统计分析【七大题型】
【新高考专用】
【题型1 变量的相关关系】 4
【题型2 样本相关系数】 5
【题型3 一元线性回归模型】 6
【题型4 非线性回归模型】 8
【题型5 残差分析】 11
【题型6 列联表与独立性检验】 12
【题型7 独立性检验与其他知识综合】 14
1、成对数据的统计分析
考点要求 真题统计 考情分析
(1)了解样本相关系数的统计含义 (2)了解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题 (3)会利用统计软件进行数据分析 2022年新高考全国I卷:第20题,12分 2023年全国甲卷(文数、理数):第19题,12分 2024年全国甲卷(文数):第18题,12分 2024年天津卷:第3题,5分 2024年上海卷:第13题,5分、第19题,12分 成对数据的统计分析是高考的重点、热点内容,从近几年的高考情况来看,主要以解答题的形式考查,一般会与概率等知识结合考查,综合性强,难度中等;有时也会在选择、填空题中出现,难度不大;复习时要加强此类问题的训练.
【知识点1 变量的相关关系】
1.变量的相关关系
(1)函数关系
函数关系是一种确定性关系,常用解析式来表示.
(2)相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关
系.与函数关系不同,相关关系是一种非确定性关系.
2.散点图
(1)散点图
成对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
(2)正相关和负相关
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个
变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
3.线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,则称这两个变量线
性相关.
【知识点2 样本相关系数】
1.样本相关系数
(1)对于变量x和变量y,设经过随机抽样获得的成对样本数据为(,),(,),,(,),利用
相关系数r来衡量两个变量之间线性关系的强弱,相关系数r的计算公式:
(其中,,,和,,,的均值分别为和).
①当r>0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;
当其中一个数据的值变大时,另一个数据的值通常也变大.
②当r<0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;
当其中一个数据的值变大时,另一个数据的值通常会变小.
【知识点3 一元线性回归模型】
1.一元线性回归模型
把式子为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称
为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
2.线性经验回归方程与最小二乘法
设满足一元线性回归模型的两个变量的n对样本数据为(,),(,),,(,),由=+a+
(i=1,2,,n),得|-(+a)|= ||,显然||越小,表示样本数据点离直线y=bx+a的竖直距离越小.
通常用各散点到直线的竖直距离的平方之和Q=来刻画各样本观测数据与直线
y=bx+a的“整体接近程度”.
当a,b的取值为时,Q达到最小.将=x+称为Y关于x的经验回归方
程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二
乘法,求得的,叫做b,a的最小二乘估计.
经验回归直线一定过点(,).
3.残差分析
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减
去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
4.回归分析的三大常用结论
(1)求解经验回归方程的关键是确定回归系数,应充分利用回归直线过样本点的中心.
(2)根据经验回归方程计算的值,仅是一个预报值,不是真实发生的值.
(3)根据的值可以判断两个分类变量有关的可信程度,若越大,则两分类变量有关的把握越大.
【知识点4 列联表与独立性检验】
1.2×2列联表
假设两个分类变量X和Y,它们的可能取值分别为{,}和{,},其2×2列联表为
X Y 合计
y1 y2
x1 a b a+b
x2 c d c+d
合计 a+c b+d a+b+c+d
2×2列联表给出了成对分类变量数据的交叉分类频数.
2.独立性检验
(1)假定通过简单随机抽样得到了X和Y的抽样数据列联表,如下表所示.
X Y 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
则.
(2)利用的取值推断分类变量X和Y是否独立的方法称为独立性检验,读作“卡方独立性检验”,简
称独立性检验.
(3)独立性检验中几个常用的小概率值和相应的临界值.
3.独立性检验的应用问题的解题策略
解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表;
(2)根据公式计算;
(3)通过比较与临界值的大小关系来作统计推断.
【方法技巧与总结】
1.经验回归直线过点.
2.求时,常用公式.
3.回归分析和独立性检验都是基于成对样本观测数据进行估计或推断,得出的结论都可能犯错误.
【题型1 变量的相关关系】
【例1】(2024·辽宁葫芦岛·一模)已知变量与的回归直线方程为,变量与负相关,则( )
A.与负相关,与负相关 B.与正相关,与正相关
C.与负相关,与正相关 D.与正相关,与负相关
【变式1-1】(23-24高二下·北京丰台·期末)在一般情况下,下列各组的两个变量呈正相关的是( )
A.某商品的销售价格与销售量 B.汽车匀速行驶时的路程与时间
C.气温与冷饮的销售量 D.人的年龄与视力
【变式1-2】(23-24高二下·四川眉山·期末)根据物理中的胡克定律,弹簧伸长的长度与所受的外力成正比.测得一根弹簧伸长长度x和相应所受外力F的一组数据如下:
编号 1 2 3 4 5 6
1 1.2 1.4 1.6 1.8 2.0
3.08 3.76 4.31 5.02 5.51 6.25
据此给出以下结论:
①这两变量不相关;②这两个变量负相关;③这两个变量正相关.
其中所有正确结论的个数是( )
A.3 B.2 C.1 D.0
【变式1-3】(2024·全国·模拟预测)观察下列散点图,其中两个变量的相关关系判断正确的是( )
A.a为正相关,b为负相关,c为不相关 B.a为负相关,b为不相关,c为正相关
C.a为负相关,b为正相关,c为不相关 D.a为正相关,b为不相关,c为负相关
【题型2 样本相关系数】
【例2】(2024·上海·三模)上海百联集团对旗下若干门店的营业额与三个影响因素分别作了相关性分析,绘制了如下的散点图,则下述大小关系正确的为( ).
A. B. C. D.
【变式2-1】(23-24高二上·辽宁·期末)在一组样本数据、、、、、、、不全相等)的散点图中,若所有的样本点都在直线上,则这组样本数据的相关系数为( )
A. B. C. D.
【变式2-2】(2024·四川成都·二模)对变量有观测数据,得散点图1;对变量有观测数据,得散点图2.表示变量之间的线性相关系数,表示变量之间的线性相关系数,则下列说法正确的是( )
A.变量与呈现正相关,且 B.变量与呈现负相关,且
C.变量与呈现正相关,且 D.变量与呈现负相关,且
【变式2-3】(2024·湖南·模拟预测)某骑行爱好者在专业人士指导下对近段时间骑行锻炼情况进行统计分析,统计每次骑行期间的身体综合指标评分与骑行用时(单位:小时)如下表:
身体综合指标评分 1 2 3 4 5
用时小时) 9.5 8.8 7.8 7 6.1
由上表数据得到的正确结论是( )
参考数据:
参考公式:相关系数.
A.身体综合指标评分与骑行用时正相关
B.身体综合指标评分与骑行用时的相关程度较弱
C.身体综合指标评分与骑行用时的相关程度较强
D.身体综合指标评分与骑行用时的关系不适合用线性回归模型拟合
【题型3 一元线性回归模型】
【例3】(2024·全国·模拟预测)2023年第19届亚运会在杭州举行,亚运会的吉祥物琮琮、莲莲、宸宸深受大家喜爱,某商家统计了最近5个月销量,如表所示:若y与x线性相关,且线性回归方程为,则下列说法不正确的是( )
时间x 1 2 3 4 5
销售量y/万只 5 4.5 4 3.5 2.5
A.由题中数据可知,变量y与x负相关
B.当时,残差为0.2
C.可以预测当时销量约为2.1万只
D.线性回归方程中
【变式3-1】(2024·河北沧州·二模)随着“一带一路”经贸合作持续深化,西安某地对外贸易近几年持续繁荣,2023年6月18日,该地很多商场都在搞“”促销活动.市物价局派人对某商品同一天的销售量及其价格进行调查,得到该商品的售价(单位:元)和销售量(单位:百件)之间的一组数据:
20 25 30 35 40
5 7 8 9 11
用最小二乘法求得与之间的经验回归方程是,当售价为45元时,预测该商品的销售量件数大约为( )(单位:百件)
A.11.2 B.11.75 C.12 D.12.2
【变式3-2】(2024·青海西宁·二模)只要骑车,都应该戴头盔.骑行头盔是骑行中生命坚实的保护屏障.骑行过程中的摔倒会对头部造成很大的损害,即使骑行者是以较低的车速沿着坡度平稳的自行车道骑行,也同样不可忽视安全问题.佩戴头盔的原因很简单也很重要——保护头部,减少伤害.相关数据表明,在每年超过500例的骑车死亡事故中,有75%的死亡原因是头部受到致命伤害造成的,医学研究发现,骑车佩戴头盔可防止85%的头部受伤,并且大大减小了损伤程度和事故死亡率.
某市对此不断进行安全教育,下表是该市某主干路口连续5年监控设备抓拍到通过该路口的骑电动车不戴头盔的人数的统计数据:
年份 2019 2020 2021 2022 2023
年份序号 1 2 3 4 5
不戴头盔人数 1450 1300 1200 1100 950
(1)求不戴头盔人数与年份序号之间的线性回归方程;
(2)预测该路口2024年不戴头盔的人数.
参考公式:回归方程中斜率和截距的最小二乘法估计公式分别为.
【变式3-3】(2024·吉林延边·二模)我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十四五”规划.某企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金.该企业为了了解研发资金的投入额x(单位:百万元)对年收入的附加额y(单位:百万元)的影响,对往年研发资金投入额和年收入的附加额进行研究,得到相关数据如下:
投入额 2 3 4 5 6 8 9 11
年收入的附加额 3.6 4.1 4.8 5.4 6.2 7.5 7.9 9.1
(1)求年收入的附加额y与投入额x的经验回归方程;
(2)若年收入的附加额与投入额的比值大于1,则称对应的投入额为“优秀投资额”,现从上面8个投入额中任意取3个,用X表示这3个投入额为“优秀投资额”的个数,求X的分布列及数学期望.
【参考数据】,,.
【附】在经验回归方程中,,.
【题型4 非线性回归模型】
【例4】(2024·陕西安康·模拟预测)随着移动互联网和直播带货技术的发展,直播带货已经成为一种热门的销售方式,特别是商家通过展示产品,使顾客对商品有更全面的了解.下面统计了某新手开启直播带货后从6月份到10月份每个月的销售量(万件)的数据,得到如图所示的散点图.其中6月份至10月份相应的代码为,如:表示6月份.
(1)根据散点图判断,模型①与模型②哪一个更适宜作为月销售量关于月份代码的回归方程 (给出判断即可,不必说明理由)
(2)(i)根据(1)的判断结果,建立关于的回归方程;(计算结果精确到0.01)
(ⅱ)根据结果预测12月份的销售量大约是多少万件
参考公式与数据: , , ,其中.
【变式4-1】(2024·全国·模拟预测)脑机接口,即指在人或动物大脑与外部设备之间创建的直接连接,实现脑与设备的信息交换.近日埃隆.马斯克宣布,脑机接口公司Neuralink正在接收第二位植入者申请,该试验可以实现意念控制手机和电脑.未来10到20年,我国脑机接口产业将产生数百亿元的经济价值.为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量(单位:亿元)与研发人员增量(人)的10组数据.现用模型①,②分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图.
根据收集到的数据,计算得到下表数据,其中.
7.5 2.25 82.50 4.50 12.14 2.88
(1)根据残差图,判断应选择哪个模型;(无需说明理由)
(2)根据(1)中所选模型,求出关于的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1)
附:对于一组具有线性相关关系的数据,其经验回归直线的斜率和截距的最小二乘估计分别为
【变式4-2】(2024·福建南平·模拟预测)某大型商场的所有饮料自动售卖机在一天中某种饮料的销售量(单位:瓶)与天气温度(单位:)有很强的相关关系,为能及时给饮料自动售卖机添加该种饮料,该商场对天气温度和饮料的销售量进行了数据收集,得到下面的表格:
10 15 20 25 30 35 40
4 16 64 256 2048 4096 8192
经分析,可以用作为关于的经验回归方程.
(1)根据表中数据,求关于的经验回归方程(结果保留两位小数);
(2)若饮料自动售卖机在一天中不需添加饮料的记1分,需添加饮料的记2分,每台饮料自动售卖机在一天中需添加饮料的概率均为,在商场的所有饮料自动售卖机中随机抽取3台,记总得分为随机变量,求的分布列与数学期望.
参考公式及数据:对于一组数据,经验回归方程的斜率和截距的最小二乘估计公式分别为
【变式4-3】(2024·重庆·二模)某商场推出“云闪付”购物活动,由于推广期内优惠力度较大,吸引了越来越多的顾客使用这种支付方式.现统计了活动刚推出一周内每天使用“云闪付”支付的人数,用表示活动推出的天数,表示每天使用该支付方式的人数,统计数据如下表所示:
1 2 3 4 5 6 7
6 13 25 40 73 110 201
根据散点图判断,在推广期内,支付的人数关于天数的回归方程适合用表示.
(1)求该回归方程,并预测活动推出第8天使用“云闪付”的人数;(的结果精确到0.01)
(2)推广期结束后,商场对顾客的支付方式进行统计,结果如下表:
支付方式 云闪付 会员卡 其它支付方式
比例
商场规定:使用会员卡支付的顾客享8折,“云闪付”的顾客随机优惠,其它支付方式的顾客无优惠,根据统计结果得知,使用“云闪付”的顾客,享7折的概率为,享8折的概率为,享9折的概率为.设顾客购买标价为元的商品支付的费用为,根据所给数据用事件发生的频率估计相应事件发生的概率,写出的分布列,并求.
参考数据:设.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为:.
【题型5 残差分析】
【例5】(2024·河南·模拟预测)已知一组样本数据,,,,根据这组数据的散点图分析与之间的线性相关关系,若求得其线性回归方程为,则在样本点处的残差为( )
A.38.1 B.22.6 C. D.91.1
【变式5-1】(2024·河北石家庄·三模)下列残差满足一元线性回归模型中对随机误差的假定的是( )
A. B.
C. D.
【变式5-2】(23-24高二下·河北唐山·阶段练习)某种产品的广告费支出与销售额(单位:万元)之间有下表关系:
2 4 5 6 8
30 40 60 50 70
与的线性回归方程为,当广告支出5万元时,随机误差的效应(残差)为( )
A. B. C.20 D.10
【变式5-3】(23-24高二下·安徽·阶段练习)设某制造公司进行技术升级后的第x个月()的利润为y(单位:百万元),根据统计数据,求得y关于x的经验回归方程为,若时的观测值,则时的残差为( )
A. B.1 C.3 D.6
【题型6 列联表与独立性检验】
【例6】(2024·上海闵行·二模)某疾病预防中心随机调查了339名50岁以上的公民,研究吸烟习惯与慢性气管炎患病的关系,调查数据如下表:
不吸烟者 吸烟者 总计
不患慢性气管炎者 121 162 283
患慢性气管炎者 13 43 56
总计 134 205 339
假设:患慢性气管炎与吸烟没有关系,即它们相互独立.通过计算统计量,得,根据分布概率表:,,,.给出下列3个命题,其中正确的个数是( )
①“患慢性气管炎与吸烟没有关系”成立的可能性小于;
②有的把握认为患慢性气管炎与吸烟有关;
③分布概率表中的、等小概率值在统计上称为显著性水平,小概率事件一般认为不太可能发生.
A.个 B.个 C.个 D.个
【变式6-1】(2024·辽宁鞍山·二模)校数学兴趣社团对“学生性别和选学生物学是否有关”作了尝试性调查.其中被调查的男女生人数相同.男生选学生物学的人数占男生人数的,女生选学生物学的人数占女生人数.若有的把握认为选学生物学和性别有关,则调查人数中男生不可能有( )人.
附表:
0.100 0.050 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
其中,.
A.20 B.30 C.35 D.40
【变式6-2】(2024高三·全国·专题练习)某医院对治疗支气管肺炎的两种方案A,B进行比较研究,将志愿者分为两组,分别采用方案A和方案B进行治疗,统计结果如下:
有效 无效 合计
使用方案A组 96 120
使用方案B组 72
合计 32
(1)完成上述列联表,并比较两种治疗方案有效的频率;
(2)能否在犯错误的概率不超过0.05的前提下认为治疗是否有效与方案选择有关?
附:.
P() 0.005 0.010 0.001
k0 3.841 6.635 10.828
【变式6-3】(2024·上海·高考真题)为了解某地初中学生体育锻炼时长与学业成绩的关系,从该地区29000名学生中抽取580人,得到日均体育锻炼时长与学业成绩的数据如下表所示:
时间范围学业成绩
优秀 5 44 42 3 1
不优秀 134 147 137 40 27
(1)该地区29000名学生中体育锻炼时长不少于1小时人数约为多少?
(2)估计该地区初中学生日均体育锻炼的时长(精确到0.1)
(3)是否有的把握认为学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时有关?
(附:其中,.)
【题型7 独立性检验与其他知识综合】
【例7】(2024·江苏南通·模拟预测)跑步是人们日常生活中常见的一种锻炼方式,其可以提高人体呼吸系统和心血管系统机能,抑制人体癌细胞生长和繁殖.为了解人们是否喜欢跑步,某调查机构在一小区随机抽取了40人进行调查,统计结果如下表.
喜欢 不喜欢 合计
男 12 8 20
女 10 10 20
合计 22 18 40
(1)根据以上数据,判断能否有95%的把握认为人们对跑步的喜欢情况与性别有关?
(2)该小区居民张先生每天跑步或开车上班,据以往经验,张先生跑步上班准时到公司的概率为,张先生跑步上班迟到的概率为.对于下周(周一~周五)上班方式张先生作出如下安排:周一跑步上班,从周二开始,若前一天准时到公司,当天就继续跑步上班,否则,当天就开车上班,且因公司安排,周五开车去公司(无论周四是否准时到达公司).设从周一开始到张先生第一次开车去上班前跑步上班的天数为,求的概率分布及数学期望.
附:,其中.
0.100 0.050 0.025 0.010 0.001
2.706 3.841 5.024 6.635 10.828
【变式7-1】(2024·安徽芜湖·三模)在学校食堂就餐成为了很多学生的就餐选择.现将一周内在食堂就餐超过3次的学生认定为“喜欢食堂就餐”,不超过3次的学生认定为“不喜欢食堂就餐”.学校为了解学生食堂就餐情况,在校内随机抽取了100名学生,统计数据如下:
男生 女生 合计
喜欢食堂就餐 40 20 60
不喜欢食堂就餐 10 30 40
合计 50 50 100
(1)依据小概率值的独立性检验,分析学生喜欢食堂就餐是否与性别有关:
(2)该校甲同学逢星期二和星期四都在学校食堂就餐,且星期二会从①号、②号两个套餐中随机选择一个套餐,若星期二选择了①号套餐,则星期四选择①号套餐的概率为;若星期二选择了②号套餐,则星期四选择①号套餐的概率为,求甲同学星期四选择②号套餐的概率.
(3)用频率估计概率,从该校学生中随机抽取10名,记其中“喜欢食堂就餐”的人数为.事件“”的概率为,求使取得最大值时的值.
参考公式:,其中.
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
【变式7-2】(2024·湖南邵阳·三模)某市开展“安全随我行”活动,交警部门在某个交通路口增设电子抓拍眼,并记录了某月该路口连续10日骑电动摩托车未佩戴头盔的人数与天数的情况,对统计得到的样本数据作了初步处理,得到下面的散点图及一些统计量的值.
5.5 8.7 1.9 301 385 79.75
表中,.
(1)依据散点图推断,与哪一个更适合作为未佩戴头盔人数与天数的回归方程类型?(给出判断即可,不必说明理由)
(2)依据(1)的结果和上表中的数据求出关于的回归方程.
(3)为了解佩戴头盔情况与性别的关联性,交警对该路口骑电动摩托车市民进行调查,得到如下列联表:
性别 佩戴头盔 合计
不佩戴 佩戴
女性 8 12 20
男性 14 6 20
合计 22 18 40
依据的独立性检验,能否认为市民骑电动摩托车佩戴头盔与性别有关联?
参考公式:,,,其中.
0.15 0.10 0.05 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.024 6.635 7.879 10.828
【变式7-3】(2024·陕西西安·模拟预测)某医疗科研小组为研究某市市民患有疾病与是否具有生活习惯的关系,从该市市民中随机抽查了100人,得到如表数据.(注:用表示的对立事件)
疾病A 生活习惯B
具有 不具有
患病 25 15
未患病 20 40
(1)是否有超过的把握认为,该市市民患有疾病与是否具有生活习惯有关
(2)从该市市民中任选一人,表示事件“选到的人不具有生活习惯”,表示事件“选到的人患有疾病”,试利用该调查数据,求的估计值;
(3)从该市市民中任选3人,记这3人中具有生活习惯,且未患有疾病的人数为,试利用该调查数据,求的数学期望的估计值.
附:,其中.
0.10 0.05 0.010 0.001
2.706 3.841 6.635 10.828
一、单选题
1.(23-24高二下·重庆沙坪坝·阶段练习)已知变量和满足关系,变量y与正相关,则( )
A.与负相关,与负相关 B.与正相关,与正相关
C.与正相关,与负相关 D.与负相关,与正相关
2.(2024·广西贵港·模拟预测)下列说法中错误的是( )
A.独立性检验的本质是比较观测值与期望值之间的差异
B.两个变量x,y的相关系数为r,若越接近1,则x与y之间的线性相关程度越强
C.若一组样本数据()的样本点都在直线上,则这组数据的相关系数r为0.98
D.由一组样本数据()求得的回归直线方程为,设,则
3.(2024·上海·模拟预测)在研究线性回归模型时,样本数据所对应的点均在直线上,用表示解释变量对于反应变量变化的线性相关度,则( )
A. B.1 C. D.2
4.(2024·江西南昌·三模)如图对两组数据,和,分别进行回归分析,得到散点图如图,并求得线性回归方程分别是和,并对变量,进行线性相关检验,得到相关系数,对变量,进行线性相关检验,得到相关系数,则下列判断正确的是( )
A. B. C. D.
5.(2024·湖南邵阳·三模)某学习小组对一组数据进行回归分析,甲同学首先求出回归直线方程,样本点的中心为.乙同学对甲的计算过程进行检查,发现甲将数据误输成,将这两个数据修正后得到回归直线方程,则实数( )
A. B. C. D.
6.(2024·湖北荆州·三模)根据变量和的成对样本数据,由一元线性回归模型得到经验回归模型,求得如图所示的残差图.模型误差( )
A.满足一元线性回归模型的所有假设
B.不满足一元线性回归模型的的假设
C.不满足一元线性回归模型的假设
D.不满足一元线性回归模型的和的假设
7.(2024·天津河北·二模)云计算是信息技术发展的集中体现,近年来,我国云计算市场规模持续增长. 已知某科技公司2018年至2022年云计算市场规模数据,且市场规模与年份代码的关系可以用模型(其中为自然对数的底数)拟合,设,得到数据统计表如下:
年份 2018年 2019年 2020年 2021年 2022年
年份代码 1 2 3 4 5
2 2.4 3 3.6 4
由上表可得经验回归方程,则2026年该科技公司云计算市场规模的估计值为( )
(参考公式:)
A. B. C. D.
8.(2024·四川成都·三模)有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:
优秀 非优秀
甲班 10
乙班 30
附:(),
0.05 0.025 0.010 0.005
3.841 5.024 6.635 7.879
已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是( )
A.甲班人数少于乙班人数
B.甲班的优秀率高于乙班的优秀率
C.表中的值为15,的值为50
D.根据表中的数据,若按的可靠性要求,能认为“成绩与班级有关系”
二、多选题
9.(2024·广东东莞·三模)下列选项中正确的有( )
A.若两个具有线性相关关系的变量的相关性越强,则线性相关系数的绝对值越接近于1
B.在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高
C.已知随机变量服从正态分布,则
D.若数据的方差为8,则数据的方差为2
10.(2024·湖北武汉·模拟预测)某科技公司统计了一款App最近5个月的下载量如表所示,若与线性相关,且线性回归方程为,则( )
月份编号 1 2 3 4 5
下载量(万次) 5 4.5 4 3.5 2.5
A.与负相关 B.
C.预测第6个月的下载量是2.1万次 D.残差绝对值的最大值为0.2
11.(2024·广东江门·模拟预测)某中学为更好的开展素质教育,现对外出研学课程是否和性别有关做了一项调查,其中被调查的男生和女生人数相同,且男生中选修外出研学课程的人数占男生总人数的,女生中选修外出研学课程的人数占女生总人数的.若依据的独立性检验,可以认为“选修外出研学课程与性别有关”.则调查人数中男生可能有( )
男生 女生 合计
选修外出研学课程
未选修外出研学课程
合计
附:
,其中
A.150人 B.225人 C.300人 D.375人
三、填空题
12.(2024·全国·模拟预测)某试验小组收集了部分父亲和儿子的身高数据,通过测量与回归方程计算得到如下五组儿子身高的观测值与估计值,则该组统计数据的决定系数 .
儿子身高观测值/ 161.3 167.7 170.0 173.5 177.5
儿子身高估计值/ 161.3 167.7 170.0 173.5 177.5
13.(2024·陕西铜川·模拟预测)已知某品牌的新能源汽车的使用时间x(年)与维护费用y(千元)之间有如下数据:
使用时间x(年) 2 4 6 8 10
维护费用y(千元) 2.4 3.2 4.4 6.8 7.6
若x与y之间具有线性相关关系,且y关于x的线性回归方程为.据此估计,该品牌的新能源汽车的使用时间为12年时,维护费用约为 千元.
14.(2024·上海金山·二模)为了考察某种药物预防疾病的效果,进行动物试验,得到如下图所示列联表:
药物 疾病 合计
未患病 患病
服用 50
未服用 50
合计 80 20 100
取显著性水平,若本次考察结果支持“药物对疾病预防有显著效果”,则()的最小值为 .
(参考公式:;参考值:)
四、解答题
15.(2024·河南新乡·模拟预测)氮氧化物是一种常见的大气污染物,下图为我国2015年至2023年氮氧化物排放量(单位:万吨)的折线图,其中年份代码1~9分别对应年份2015~2023.
已知,,,.
(1)可否用线性回归模型拟合与的关系?请分别根据折线图和相关系数加以说明.
(2)若根据所给数据建立回归模型,可否用此模型来预测2024年和2034年我国的氮氧化物排放量?请说明理由.
附:相关系数.
16.(2024·青海·二模)某企业近年来的广告费用x(百万元)与所获得的利润y(千万元)的数据如下表所示,已知y与x之间具有线性相关关系.
年份 2018 2019 2020 2021 2022
广告费用x/百万元 1.5 1.6 1.7 1.8 1.9
利润y/千万元 1.6 2 2.4 2.5 3
(1)求y关于x的线性回归方程:
(2)若该企业从2018年开始,广告费用连续每一年都比上一年增加10万元,根据(1)中所得的线性回归方程,预测2025年该企业可获得的利润.
参考公式:,.
17.(2024·四川宜宾·三模)某地为调查年龄在35―50岁段人群每周的运动情况,从年龄在35―50岁段人群中随机抽取了200人的信息,将调查结果整理如下:
女性 男性
每周运动超过2小时 60 80
每周运动不超过2小时 40 20
(1)根据以上信息,能否有99%把握认为该地年龄在35―50岁段人群每周运动超过2小时与性别有关?
(2)在以上被抽取且每周运动不超过2小时的人中,按性别进行分层抽样,共抽6人.再从这6人中随机抽取2人进行访谈,求这2人中至少有1人是女性的概率.
参考公式:,.
0.10 0.05 0.025 0.010 0.001
2.706 3.841 5.024 6.635 10.828
18.(23-24高二下·宁夏石嘴山·期中)红铃虫(Pectinophora gossypiella)是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数(个)和温度()的8组观测数据,制成图1所示的散点图.现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:
25 2.9 646 168 422688 50.4 70308
表中;;;
(1)根据残差图,比较模型①、②的拟合效果,哪种模型比较合适?
(2)根据(1)中所选择的模型,求出关于的回归方程.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,,
19.(2024·四川成都·模拟预测)在学校食堂就餐成为了很多学生的就餐选择.学校为了解学生食堂就餐情况,在校内随机抽取了100名学生,其中男生和女生人数之比为,现将一周内在食堂就餐超过8次的学生认定为“喜欢食堂就餐”,不超过8次的学生认定为“不喜欢食堂就餐”.“喜欢食堂就餐”的人数比“不喜欢食堂就餐”人数多20人,“不喜欢食堂就餐”的男生只有10人.
男生 女生 合计
喜欢食堂就餐
不喜欢食堂就餐 10
合计 100
(1)将上面的列联表补充完整,并依据小概率值的独立性检验,分析学生喜欢食堂就餐是否与性别有关:
(2)用频率估计概率,从该校学生中随机抽取10名,记其中“喜欢食堂就餐”的人数为X.事件“”的概率为,求随机变量X的期望和方差.
参考公式:,其中.
a 0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
21世纪教育网(www.21cnjy.com)专题9.3 成对数据的统计分析【七大题型】
【新高考专用】
【题型1 变量的相关关系】 4
【题型2 样本相关系数】 6
【题型3 一元线性回归模型】 8
【题型4 非线性回归模型】 11
【题型5 残差分析】 16
【题型6 列联表与独立性检验】 18
【题型7 独立性检验与其他知识综合】 21
1、成对数据的统计分析
考点要求 真题统计 考情分析
(1)了解样本相关系数的统计含义 (2)了解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题 (3)会利用统计软件进行数据分析 2022年新高考全国I卷:第20题,12分 2023年全国甲卷(文数、理数):第19题,12分 2024年全国甲卷(文数):第18题,12分 2024年天津卷:第3题,5分 2024年上海卷:第13题,5分、第19题,12分 成对数据的统计分析是高考的重点、热点内容,从近几年的高考情况来看,主要以解答题的形式考查,一般会与概率等知识结合考查,综合性强,难度中等;有时也会在选择、填空题中出现,难度不大;复习时要加强此类问题的训练.
【知识点1 变量的相关关系】
1.变量的相关关系
(1)函数关系
函数关系是一种确定性关系,常用解析式来表示.
(2)相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关
系.与函数关系不同,相关关系是一种非确定性关系.
2.散点图
(1)散点图
成对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
(2)正相关和负相关
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个
变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
3.线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,则称这两个变量线
性相关.
【知识点2 样本相关系数】
1.样本相关系数
(1)对于变量x和变量y,设经过随机抽样获得的成对样本数据为(,),(,),,(,),利用
相关系数r来衡量两个变量之间线性关系的强弱,相关系数r的计算公式:
(其中,,,和,,,的均值分别为和).
①当r>0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;
当其中一个数据的值变大时,另一个数据的值通常也变大.
②当r<0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;
当其中一个数据的值变大时,另一个数据的值通常会变小.
【知识点3 一元线性回归模型】
1.一元线性回归模型
把式子为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称
为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
2.线性经验回归方程与最小二乘法
设满足一元线性回归模型的两个变量的n对样本数据为(,),(,),,(,),由=+a+
(i=1,2,,n),得|-(+a)|= ||,显然||越小,表示样本数据点离直线y=bx+a的竖直距离越小.
通常用各散点到直线的竖直距离的平方之和Q=来刻画各样本观测数据与直线
y=bx+a的“整体接近程度”.
当a,b的取值为时,Q达到最小.将=x+称为Y关于x的经验回归方
程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二
乘法,求得的,叫做b,a的最小二乘估计.
经验回归直线一定过点(,).
3.残差分析
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减
去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
4.回归分析的三大常用结论
(1)求解经验回归方程的关键是确定回归系数,应充分利用回归直线过样本点的中心.
(2)根据经验回归方程计算的值,仅是一个预报值,不是真实发生的值.
(3)根据的值可以判断两个分类变量有关的可信程度,若越大,则两分类变量有关的把握越大.
【知识点4 列联表与独立性检验】
1.2×2列联表
假设两个分类变量X和Y,它们的可能取值分别为{,}和{,},其2×2列联表为
X Y 合计
y1 y2
x1 a b a+b
x2 c d c+d
合计 a+c b+d a+b+c+d
2×2列联表给出了成对分类变量数据的交叉分类频数.
2.独立性检验
(1)假定通过简单随机抽样得到了X和Y的抽样数据列联表,如下表所示.
X Y 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
则.
(2)利用的取值推断分类变量X和Y是否独立的方法称为独立性检验,读作“卡方独立性检验”,简
称独立性检验.
(3)独立性检验中几个常用的小概率值和相应的临界值.
3.独立性检验的应用问题的解题策略
解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表;
(2)根据公式计算;
(3)通过比较与临界值的大小关系来作统计推断.
【方法技巧与总结】
1.经验回归直线过点.
2.求时,常用公式.
3.回归分析和独立性检验都是基于成对样本观测数据进行估计或推断,得出的结论都可能犯错误.
【题型1 变量的相关关系】
【例1】(2024·辽宁葫芦岛·一模)已知变量与的回归直线方程为,变量与负相关,则( )
A.与负相关,与负相关 B.与正相关,与正相关
C.与负相关,与正相关 D.与正相关,与负相关
【解题思路】根据已知条件,结合回归方程可判断与正相关,再由变量与负相关,即可判断与负相关.
【解答过程】根据回归方程可知变量与正相关,又变量与负相关,
由正相关、负相关的定义可知,与负相关.
故选:D.
【变式1-1】(23-24高二下·北京丰台·期末)在一般情况下,下列各组的两个变量呈正相关的是( )
A.某商品的销售价格与销售量 B.汽车匀速行驶时的路程与时间
C.气温与冷饮的销售量 D.人的年龄与视力
【解题思路】根据相关关系的概念逐项判定,即可求解.
【解答过程】对于A,某商品的销售价格与销售量呈负相关关系,故错误;
对于B,汽车匀速行驶时的路程与时间是函数关系,故错误;
对于C,气温与冷饮的销售量呈正相关,故正确;
对于D,人的年龄与视力呈负相关,故错误.
故选:C.
【变式1-2】(23-24高二下·四川眉山·期末)根据物理中的胡克定律,弹簧伸长的长度与所受的外力成正比.测得一根弹簧伸长长度x和相应所受外力F的一组数据如下:
编号 1 2 3 4 5 6
1 1.2 1.4 1.6 1.8 2.0
3.08 3.76 4.31 5.02 5.51 6.25
据此给出以下结论:
①这两变量不相关;②这两个变量负相关;③这两个变量正相关.
其中所有正确结论的个数是( )
A.3 B.2 C.1 D.0
【解题思路】根据散点图判断.
【解答过程】画出弹簧伸长长度x和相应所受外力F的散点图,
可以判断这两变量相关,且为正相关,故①②错误,③正确.
故选:C.
【变式1-3】(2024·全国·模拟预测)观察下列散点图,其中两个变量的相关关系判断正确的是( )
A.a为正相关,b为负相关,c为不相关 B.a为负相关,b为不相关,c为正相关
C.a为负相关,b为正相关,c为不相关 D.a为正相关,b为不相关,c为负相关
【解题思路】根据给定的散点图,结合相关性,即可求解.
【解答过程】根据给定的散点图,可得a中的数据分布在左下方到右上方的区域里,为正相关,
b中的数据分布在左上方到右下方的区域里,为负相关,
c中的数据各点分布不成带状,相关性不明确,不相关.
故选:A.
【题型2 样本相关系数】
【例2】(2024·上海·三模)上海百联集团对旗下若干门店的营业额与三个影响因素分别作了相关性分析,绘制了如下的散点图,则下述大小关系正确的为( ).
A. B. C. D.
【解题思路】根据散点图判断两变量的线性相关性,再根据线性相关性与相关系数的关系判断即可.
【解答过程】由散点图可知,图一两个变量成正相关,且线性相关性较强,故,
图二、图三两个变量都成负相关,且图二的线性相关性更强,
故,,,故,所以.
故选:C.
【变式2-1】(23-24高二上·辽宁·期末)在一组样本数据、、、、、、、不全相等)的散点图中,若所有的样本点都在直线上,则这组样本数据的相关系数为( )
A. B. C. D.
【解题思路】根据相关系数的与线性相关关系可得解.
【解答过程】因为所有的样本点都在直线上,所以相关系数满足.
又因为,所以,所以.
故选:C.
【变式2-2】(2024·四川成都·二模)对变量有观测数据,得散点图1;对变量有观测数据,得散点图2.表示变量之间的线性相关系数,表示变量之间的线性相关系数,则下列说法正确的是( )
A.变量与呈现正相关,且 B.变量与呈现负相关,且
C.变量与呈现正相关,且 D.变量与呈现负相关,且
【解题思路】利用散点图,结合相关系数的知识可得答案.
【解答过程】由题意可知,变量的散点图中,随的增大而增大,所以变量与呈现正相关;
再分别观察两个散点图,图比图点更加集中,相关性更好,所以线性相关系数.
故选:C.
【变式2-3】(2024·湖南·模拟预测)某骑行爱好者在专业人士指导下对近段时间骑行锻炼情况进行统计分析,统计每次骑行期间的身体综合指标评分与骑行用时(单位:小时)如下表:
身体综合指标评分 1 2 3 4 5
用时小时) 9.5 8.8 7.8 7 6.1
由上表数据得到的正确结论是( )
参考数据:
参考公式:相关系数.
A.身体综合指标评分与骑行用时正相关
B.身体综合指标评分与骑行用时的相关程度较弱
C.身体综合指标评分与骑行用时的相关程度较强
D.身体综合指标评分与骑行用时的关系不适合用线性回归模型拟合
【解题思路】求出相关系数,根据相关系数的大小确定答案即可.
【解答过程】因为相关系数.
即相关系数近似为与负相关,且相关程度相当高,从而可用线性回归模型拟合与的关系.
所以选项ABD错误,C正确.
故选:C.
【题型3 一元线性回归模型】
【例3】(2024·全国·模拟预测)2023年第19届亚运会在杭州举行,亚运会的吉祥物琮琮、莲莲、宸宸深受大家喜爱,某商家统计了最近5个月销量,如表所示:若y与x线性相关,且线性回归方程为,则下列说法不正确的是( )
时间x 1 2 3 4 5
销售量y/万只 5 4.5 4 3.5 2.5
A.由题中数据可知,变量y与x负相关
B.当时,残差为0.2
C.可以预测当时销量约为2.1万只
D.线性回归方程中
【解题思路】对于选项A,利用表中数据变化情况或看回归方程的正负均可求解;对于选项B,利用样本中心点求出线性回归方程,再利用回归方程即可求出预测值,进而可求出残差;对于选项C,利用回归方程即可求出预测值;对于选项D,利用回归方程一定过样本中心点即可求解.
【解答过程】对于选项A,从数据看,随的增大而减小,所以变量与负相关,故A正确;
对于选项B,由表中数据知,,
所以样本中心点为,将样本中心点代入中得,
所以线性回归方程为,所以,残差,故B错误;
对于选项C,当时销量约为(万只),故C正确.
对于选项D,由B选项可知,故D正确.
故选:B.
【变式3-1】(2024·河北沧州·二模)随着“一带一路”经贸合作持续深化,西安某地对外贸易近几年持续繁荣,2023年6月18日,该地很多商场都在搞“”促销活动.市物价局派人对某商品同一天的销售量及其价格进行调查,得到该商品的售价(单位:元)和销售量(单位:百件)之间的一组数据:
20 25 30 35 40
5 7 8 9 11
用最小二乘法求得与之间的经验回归方程是,当售价为45元时,预测该商品的销售量件数大约为( )(单位:百件)
A.11.2 B.11.75 C.12 D.12.2
【解题思路】求出,,根据回归直线方程必过样本中心点求出,即可得到回归直线方程,最后代入计算可得.
【解答过程】因为,,
所以回归直线过点,故,解得,
所以,将代入中,得,
即当售价为45元时,该商品的销售量件数大约为百件.
故选:D.
【变式3-2】(2024·青海西宁·二模)只要骑车,都应该戴头盔.骑行头盔是骑行中生命坚实的保护屏障.骑行过程中的摔倒会对头部造成很大的损害,即使骑行者是以较低的车速沿着坡度平稳的自行车道骑行,也同样不可忽视安全问题.佩戴头盔的原因很简单也很重要——保护头部,减少伤害.相关数据表明,在每年超过500例的骑车死亡事故中,有75%的死亡原因是头部受到致命伤害造成的,医学研究发现,骑车佩戴头盔可防止85%的头部受伤,并且大大减小了损伤程度和事故死亡率.
某市对此不断进行安全教育,下表是该市某主干路口连续5年监控设备抓拍到通过该路口的骑电动车不戴头盔的人数的统计数据:
年份 2019 2020 2021 2022 2023
年份序号 1 2 3 4 5
不戴头盔人数 1450 1300 1200 1100 950
(1)求不戴头盔人数与年份序号之间的线性回归方程;
(2)预测该路口2024年不戴头盔的人数.
参考公式:回归方程中斜率和截距的最小二乘法估计公式分别为.
【解题思路】(1)根据所给数据求出,,,,即可求出、,从而得到回归直线方程;
(2)求出时即可得解.
【解答过程】(1)由题意知,,
所以,
,
所以,
所以,
所以不戴头盔人数与年份序号之间的线性回归方程为.
(2)当时,,
即预测该路口2024年不戴头盔的人数为.
【变式3-3】(2024·吉林延边·二模)我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十四五”规划.某企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金.该企业为了了解研发资金的投入额x(单位:百万元)对年收入的附加额y(单位:百万元)的影响,对往年研发资金投入额和年收入的附加额进行研究,得到相关数据如下:
投入额 2 3 4 5 6 8 9 11
年收入的附加额 3.6 4.1 4.8 5.4 6.2 7.5 7.9 9.1
(1)求年收入的附加额y与投入额x的经验回归方程;
(2)若年收入的附加额与投入额的比值大于1,则称对应的投入额为“优秀投资额”,现从上面8个投入额中任意取3个,用X表示这3个投入额为“优秀投资额”的个数,求X的分布列及数学期望.
【参考数据】,,.
【附】在经验回归方程中,,.
【解题思路】(1)根据已知数据和参考公式,即可出y与投入额x的经验回归方程;
(2)求出X的所有可能取值和对应的概率,即可求出X的分布列,再由期望公式即可求出答案.
【解答过程】(1),,
,
又因为,所以,
所以年收入的附加额y与投入额x的线性回归方程为
(2)8个投入额中,“优秀投资额”的个数为5个,故X的所有可能取值为0,1,2,3,
;;;
则X的分布列为
X 0 1 2 3
P
.
【题型4 非线性回归模型】
【例4】(2024·陕西安康·模拟预测)随着移动互联网和直播带货技术的发展,直播带货已经成为一种热门的销售方式,特别是商家通过展示产品,使顾客对商品有更全面的了解.下面统计了某新手开启直播带货后从6月份到10月份每个月的销售量(万件)的数据,得到如图所示的散点图.其中6月份至10月份相应的代码为,如:表示6月份.
(1)根据散点图判断,模型①与模型②哪一个更适宜作为月销售量关于月份代码的回归方程 (给出判断即可,不必说明理由)
(2)(i)根据(1)的判断结果,建立关于的回归方程;(计算结果精确到0.01)
(ⅱ)根据结果预测12月份的销售量大约是多少万件
参考公式与数据: , , ,其中.
【解题思路】(1)根据散点图结合一次函数以及二次函数图象特征分析判断;
(2)(i)令,根据题中数据和公式求回归方程;
(ⅱ)令,代入回归方程运算求解即可.
【解答过程】(1)由散点图可知增加幅度不一致,且散点图接近于曲线,非线性,
结合图象故选模型②.
(2)(i)令,则,
可得,,
则,,
所以关于的回归方程为,
即关于的回归方程;
(ⅱ)令,可得,
预测12月份的销售量大约是13.9万件.
【变式4-1】(2024·全国·模拟预测)脑机接口,即指在人或动物大脑与外部设备之间创建的直接连接,实现脑与设备的信息交换.近日埃隆.马斯克宣布,脑机接口公司Neuralink正在接收第二位植入者申请,该试验可以实现意念控制手机和电脑.未来10到20年,我国脑机接口产业将产生数百亿元的经济价值.为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量(单位:亿元)与研发人员增量(人)的10组数据.现用模型①,②分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图.
根据收集到的数据,计算得到下表数据,其中.
7.5 2.25 82.50 4.50 12.14 2.88
(1)根据残差图,判断应选择哪个模型;(无需说明理由)
(2)根据(1)中所选模型,求出关于的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1)
附:对于一组具有线性相关关系的数据,其经验回归直线的斜率和截距的最小二乘估计分别为
【解题思路】(1)根据残差图分析判断;
(2)令与可用线性回归来拟合,有,然后根据公式结合已知的数据求出,从而可求出关于的经验回归方程,进而可求出关于的经验回归方程,再由可求出研发人员增量.
【解答过程】(1)选择模型②,理由如下:
由于模型②残差点比较均匀在落在水平的带状区域中,且带状区域的宽度比模型①带状宽度窄,
所以模型②的拟合精度更高,回归方程的预报精度相应就会越高,所以模型②比较合适.
(2)根据模型②,令与可用线性回归来拟合,有.
则,所以
则关于的经验回归方程为,所以关于的经验回归方程为.
由题意,,解得,又为整数,所以.
所以,要使年收益增量超过8亿元,研发人员增量至少为10人.
【变式4-2】(2024·福建南平·模拟预测)某大型商场的所有饮料自动售卖机在一天中某种饮料的销售量(单位:瓶)与天气温度(单位:)有很强的相关关系,为能及时给饮料自动售卖机添加该种饮料,该商场对天气温度和饮料的销售量进行了数据收集,得到下面的表格:
10 15 20 25 30 35 40
4 16 64 256 2048 4096 8192
经分析,可以用作为关于的经验回归方程.
(1)根据表中数据,求关于的经验回归方程(结果保留两位小数);
(2)若饮料自动售卖机在一天中不需添加饮料的记1分,需添加饮料的记2分,每台饮料自动售卖机在一天中需添加饮料的概率均为,在商场的所有饮料自动售卖机中随机抽取3台,记总得分为随机变量,求的分布列与数学期望.
参考公式及数据:对于一组数据,经验回归方程的斜率和截距的最小二乘估计公式分别为
【解题思路】(1)设,转化为,利用最小二乘法,求得,求得,进而得到关于的经验回归方程;
(2)根据题意,得到变量的可能取值为,利用独立重复试验的概率公式,求得相应的概率,列出分布列,结合期望的公式,即可求解.
【解答过程】(1)解:设,由,可得,
因为,,
,所以,
由表中的数据可得,
则,
所以,
则,可得,
所以关于的经验回归方程为.
(2)解:由题意,随机变量的可能取值为,
可得,,
,,
所以变量的分布列为
3 4 5 6
P
所以,期望为
【变式4-3】(2024·重庆·二模)某商场推出“云闪付”购物活动,由于推广期内优惠力度较大,吸引了越来越多的顾客使用这种支付方式.现统计了活动刚推出一周内每天使用“云闪付”支付的人数,用表示活动推出的天数,表示每天使用该支付方式的人数,统计数据如下表所示:
1 2 3 4 5 6 7
6 13 25 40 73 110 201
根据散点图判断,在推广期内,支付的人数关于天数的回归方程适合用表示.
(1)求该回归方程,并预测活动推出第8天使用“云闪付”的人数;(的结果精确到0.01)
(2)推广期结束后,商场对顾客的支付方式进行统计,结果如下表:
支付方式 云闪付 会员卡 其它支付方式
比例
商场规定:使用会员卡支付的顾客享8折,“云闪付”的顾客随机优惠,其它支付方式的顾客无优惠,根据统计结果得知,使用“云闪付”的顾客,享7折的概率为,享8折的概率为,享9折的概率为.设顾客购买标价为元的商品支付的费用为,根据所给数据用事件发生的频率估计相应事件发生的概率,写出的分布列,并求.
参考数据:设.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为:.
【解题思路】(1)由两边取常用对数,利用换元法转化为线性归回直线方程并结合公式进行求解;
(2)根据概率的乘法公式进行求解列出分布列,根据期望公式计算结果.
【解答过程】(1)由,得,设,,,则.
,
.
把样本中心点代入方程得,
所以,即,
其回归方程为,
当时,.
(2)的可能取值为:.
分布列如下:
0.1 0.35 0.15 0.4
所以,购物的平均费用为:.
【题型5 残差分析】
【例5】(2024·河南·模拟预测)已知一组样本数据,,,,根据这组数据的散点图分析与之间的线性相关关系,若求得其线性回归方程为,则在样本点处的残差为( )
A.38.1 B.22.6 C. D.91.1
【解题思路】对于响应变量,通过观测得到的数据为观测值,通过线性回归方程得到的称为预测值,观测值减去预测值称为残差.
【解答过程】因为观测值减去预测值称为残差,
所以当时,,
所以残差为 .
故选:C.
【变式5-1】(2024·河北石家庄·三模)下列残差满足一元线性回归模型中对随机误差的假定的是( )
A. B.
C. D.
【解题思路】根据一元线性回归模型对随机误差的假定即可判断结果.
【解答过程】图A显示残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分;
图B说明残差的方差不是一个常数,随观测时间变大而变大;
图C显示残差与观测时间有线性关系,应将时间变量纳入模型;
图D的残差较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内,
可见D满足一元线性回归模型对随机误差的假定.
故选:D.
【变式5-2】(23-24高二下·河北唐山·阶段练习)某种产品的广告费支出与销售额(单位:万元)之间有下表关系:
2 4 5 6 8
30 40 60 50 70
与的线性回归方程为,当广告支出5万元时,随机误差的效应(残差)为( )
A. B. C.20 D.10
【解题思路】随机误差的效应(残差)为观测值减去预测值
【解答过程】当广告支出5万元时,观测值为,预测值为,则随机误差的效应(残差)为.
故选:D.
【变式5-3】(23-24高二下·安徽·阶段练习)设某制造公司进行技术升级后的第x个月()的利润为y(单位:百万元),根据统计数据,求得y关于x的经验回归方程为,若时的观测值,则时的残差为( )
A. B.1 C.3 D.6
【解题思路】利用残差的定义求解.
【解答过程】解:因为时的预测值为,
所以残差为.
故选:B.
【题型6 列联表与独立性检验】
【例6】(2024·上海闵行·二模)某疾病预防中心随机调查了339名50岁以上的公民,研究吸烟习惯与慢性气管炎患病的关系,调查数据如下表:
不吸烟者 吸烟者 总计
不患慢性气管炎者 121 162 283
患慢性气管炎者 13 43 56
总计 134 205 339
假设:患慢性气管炎与吸烟没有关系,即它们相互独立.通过计算统计量,得,根据分布概率表:,,,.给出下列3个命题,其中正确的个数是( )
①“患慢性气管炎与吸烟没有关系”成立的可能性小于;
②有的把握认为患慢性气管炎与吸烟有关;
③分布概率表中的、等小概率值在统计上称为显著性水平,小概率事件一般认为不太可能发生.
A.个 B.个 C.个 D.个
【解题思路】根据,与临界值表对照判断.
【解答过程】解:因为,且,
所以有的把握认为患慢性气管炎与吸烟有关,
即“患慢性气管炎与吸烟没有关系”成立的可能性小于,
故①②正确;
分布概率表中的、等小概率值在统计上称为显著性水平,小概率事件一般认为不太可能发生. 故③正确;
故选:D.
【变式6-1】(2024·辽宁鞍山·二模)校数学兴趣社团对“学生性别和选学生物学是否有关”作了尝试性调查.其中被调查的男女生人数相同.男生选学生物学的人数占男生人数的,女生选学生物学的人数占女生人数.若有的把握认为选学生物学和性别有关,则调查人数中男生不可能有( )人.
附表:
0.100 0.050 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
其中,.
A.20 B.30 C.35 D.40
【解题思路】借助卡方计算即可得.
【解答过程】设总人数为,则男生选学生物学的人数为,女生选生物学的人数为,
则,
即,又为的倍数,故男生最少有人.
故选:A.
【变式6-2】(2024高三·全国·专题练习)某医院对治疗支气管肺炎的两种方案A,B进行比较研究,将志愿者分为两组,分别采用方案A和方案B进行治疗,统计结果如下:
有效 无效 合计
使用方案A组 96 120
使用方案B组 72
合计 32
(1)完成上述列联表,并比较两种治疗方案有效的频率;
(2)能否在犯错误的概率不超过0.05的前提下认为治疗是否有效与方案选择有关?
附:.
P() 0.005 0.010 0.001
k0 3.841 6.635 10.828
【解题思路】(1)根据合计数可以完善表格,结合频数可得频率;
(2)根据列联表的数据和卡方公式,计算观测值,比较观测值和临界值可得结论.
【解答过程】解:(1)列联表如下:
有效 无效 合计
使用方案A组 96 24 120
使用方案B组 72 8 80
合计 168 32 200
使用方案A组有效的频率为=0.8;使用方案B组有效的频率为=0.9.
(2),
所以,不能在犯错误的概率不超过0.05的前提下认为治疗是否有效与方案选择有关.
【变式6-3】(2024·上海·高考真题)为了解某地初中学生体育锻炼时长与学业成绩的关系,从该地区29000名学生中抽取580人,得到日均体育锻炼时长与学业成绩的数据如下表所示:
时间范围学业成绩
优秀 5 44 42 3 1
不优秀 134 147 137 40 27
(1)该地区29000名学生中体育锻炼时长不少于1小时人数约为多少?
(2)估计该地区初中学生日均体育锻炼的时长(精确到0.1)
(3)是否有的把握认为学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时有关?
(附:其中,.)
【解题思路】(1)求出相关占比,乘以总人数即可;
(2)根据平均数的计算公式即可得到答案;
(3)作出列联表,再提出零假设,计算卡方值和临界值比较大小即可得到结论.
【解答过程】(1)由表可知锻炼时长不少于1小时的人数为占比,
则估计该地区29000名学生中体育锻炼时长不少于1小时的人数为.
(2)估计该地区初中生的日均体育锻炼时长约为
.
则估计该地区初中学生日均体育锻炼的时长为0.9小时.
(3)由题列联表如下:
其他 合计
优秀 45 50 95
不优秀 177 308 485
合计 222 358 580
提出零假设:该地区成绩优秀与日均锻炼时长不少于1小时但少于2小时无关.
其中.
.
则零假设不成立,
即有的把握认为学业成绩优秀与日均锻炼时长不小于1小时且小于2小时有关.
【题型7 独立性检验与其他知识综合】
【例7】(2024·江苏南通·模拟预测)跑步是人们日常生活中常见的一种锻炼方式,其可以提高人体呼吸系统和心血管系统机能,抑制人体癌细胞生长和繁殖.为了解人们是否喜欢跑步,某调查机构在一小区随机抽取了40人进行调查,统计结果如下表.
喜欢 不喜欢 合计
男 12 8 20
女 10 10 20
合计 22 18 40
(1)根据以上数据,判断能否有95%的把握认为人们对跑步的喜欢情况与性别有关?
(2)该小区居民张先生每天跑步或开车上班,据以往经验,张先生跑步上班准时到公司的概率为,张先生跑步上班迟到的概率为.对于下周(周一~周五)上班方式张先生作出如下安排:周一跑步上班,从周二开始,若前一天准时到公司,当天就继续跑步上班,否则,当天就开车上班,且因公司安排,周五开车去公司(无论周四是否准时到达公司).设从周一开始到张先生第一次开车去上班前跑步上班的天数为,求的概率分布及数学期望.
附:,其中.
0.100 0.050 0.025 0.010 0.001
2.706 3.841 5.024 6.635 10.828
【解题思路】(1)由列联表中的数据,求得,结合附表,即可得到结论;
(2)由题意,得到变量的可能取值为,求得相应的概率,列出分布列,结合期望的公式,即可求解.
【解答过程】(1)解:假设:人们对跑步的喜欢情况与性别无关,
根据题意,由列联表中的数据,
可得,
因为,所以没有95%的把握认为人们对跑步的喜欢情况与性别有关联.
(2)解:由题意,随机变量的所有可能取值分别为,
可得,,,
,
所以变量的概率分布为
1 2 3 4
所以,期望为.
【变式7-1】(2024·安徽芜湖·三模)在学校食堂就餐成为了很多学生的就餐选择.现将一周内在食堂就餐超过3次的学生认定为“喜欢食堂就餐”,不超过3次的学生认定为“不喜欢食堂就餐”.学校为了解学生食堂就餐情况,在校内随机抽取了100名学生,统计数据如下:
男生 女生 合计
喜欢食堂就餐 40 20 60
不喜欢食堂就餐 10 30 40
合计 50 50 100
(1)依据小概率值的独立性检验,分析学生喜欢食堂就餐是否与性别有关:
(2)该校甲同学逢星期二和星期四都在学校食堂就餐,且星期二会从①号、②号两个套餐中随机选择一个套餐,若星期二选择了①号套餐,则星期四选择①号套餐的概率为;若星期二选择了②号套餐,则星期四选择①号套餐的概率为,求甲同学星期四选择②号套餐的概率.
(3)用频率估计概率,从该校学生中随机抽取10名,记其中“喜欢食堂就餐”的人数为.事件“”的概率为,求使取得最大值时的值.
参考公式:,其中.
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
【解题思路】(1)计算,与临界值比较后得结论;
(2)全概率公式计算概率;
(3)依题意可得,即可得到,从而得到,解得即可.
【解答过程】(1):假设食堂就餐与性别无关
由列联表可得
所以依据小概率值的独立性检验,可以得到学生喜欢食堂就餐与性别有关.
(2)记星期二选择了①号套餐为事件,选择②号套餐为,
星期四选择了①号套餐为事件,选择②号套餐为,
则,
所以,
所以.
(3)依题意可得学生“喜欢饭堂就餐”的概率,
则,所以且,
若取得最大值,则,
即,解得
又且,所以.
【变式7-2】(2024·湖南邵阳·三模)某市开展“安全随我行”活动,交警部门在某个交通路口增设电子抓拍眼,并记录了某月该路口连续10日骑电动摩托车未佩戴头盔的人数与天数的情况,对统计得到的样本数据作了初步处理,得到下面的散点图及一些统计量的值.
5.5 8.7 1.9 301 385 79.75
表中,.
(1)依据散点图推断,与哪一个更适合作为未佩戴头盔人数与天数的回归方程类型?(给出判断即可,不必说明理由)
(2)依据(1)的结果和上表中的数据求出关于的回归方程.
(3)为了解佩戴头盔情况与性别的关联性,交警对该路口骑电动摩托车市民进行调查,得到如下列联表:
性别 佩戴头盔 合计
不佩戴 佩戴
女性 8 12 20
男性 14 6 20
合计 22 18 40
依据的独立性检验,能否认为市民骑电动摩托车佩戴头盔与性别有关联?
参考公式:,,,其中.
0.15 0.10 0.05 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.024 6.635 7.879 10.828
【解题思路】(1)根据散点图的形状,可判断更适宜作为未佩戴头盔人数与天数的回归方程类型.
(2)将两边取对数,转化为线性回归方程,利用表中的数据和线性回归方程公式求解即可.
(3)应用卡方公式求卡方值,由独立性检验的基本思想下结论即可.
【解答过程】(1)依据散点图可以判断,更适合作为未佩戴头盔人数与天数的回归方程类型.
(2)由,得,
依题意得,
,
所以,即.
(3)零假设:市民佩戴头盔与性别无关联.
根据列联表中的数据,经计算得到:
,
根据小概率值的独立性检验,我们推断不成立,即认为市民佩戴头盔与性别有关联,
此推断犯错误的概率不超过0.10.
【变式7-3】(2024·陕西西安·模拟预测)某医疗科研小组为研究某市市民患有疾病与是否具有生活习惯的关系,从该市市民中随机抽查了100人,得到如表数据.(注:用表示的对立事件)
疾病A 生活习惯B
具有 不具有
患病 25 15
未患病 20 40
(1)是否有超过的把握认为,该市市民患有疾病与是否具有生活习惯有关
(2)从该市市民中任选一人,表示事件“选到的人不具有生活习惯”,表示事件“选到的人患有疾病”,试利用该调查数据,求的估计值;
(3)从该市市民中任选3人,记这3人中具有生活习惯,且未患有疾病的人数为,试利用该调查数据,求的数学期望的估计值.
附:,其中.
0.10 0.05 0.010 0.001
2.706 3.841 6.635 10.828
【解题思路】(1)先完善列联表,然后根据公式计算卡方,对照临界值表即可得结论;
(2)根据表中数据分别求出,然后由条件概率公式可得;
(3)由二项分布的期望公式可得.
【解答过程】(1)由已知得列联表如下:
疾病A 生活习惯B 合计
具有 不具有
患病 25 15 40
未患病 20 40 60
合计 45 55 100
根据列联表中的数据,经计算得:
故有超过的把握认为,该市市民患有疾病与是否具有生活习惯有关.
(2)由(1)数据可得:.
所以 .
(3)由(2)知,,
所以,所以的估计值为.
一、单选题
1.(23-24高二下·重庆沙坪坝·阶段练习)已知变量和满足关系,变量y与正相关,则( )
A.与负相关,与负相关 B.与正相关,与正相关
C.与正相关,与负相关 D.与负相关,与正相关
【解题思路】根据关系式判断负相关,再由变量y与正相关可得负相关即可判断.
【解答过程】因为变量和满足关系,变量y与正相关,
由正相关、负相关的定义可知与负相关,与负相关.
故选:A.
2.(2024·广西贵港·模拟预测)下列说法中错误的是( )
A.独立性检验的本质是比较观测值与期望值之间的差异
B.两个变量x,y的相关系数为r,若越接近1,则x与y之间的线性相关程度越强
C.若一组样本数据()的样本点都在直线上,则这组数据的相关系数r为0.98
D.由一组样本数据()求得的回归直线方程为,设,则
【解题思路】根据独立检验和线性回归方程的相关性质进行判断,得到答案.
【解答过程】A,独立性检验的本质是比较观测值与期望值之间的差异,从而确定研究对象是否有关联,A正确;
B,两个变量x,y的相关系数为r,若越接近1,则x与y之间的线性相关程度越强,B正确;
C,若一组样本数据()的样本点都在直线上,则这组数据的相关系数r为1,C错误;
D,由残差分析可知,介于0与1之间,D正确.
故选:C.
3.(2024·上海·模拟预测)在研究线性回归模型时,样本数据所对应的点均在直线上,用表示解释变量对于反应变量变化的线性相关度,则( )
A. B.1 C. D.2
【解题思路】结合回归方程,根据线性相关系数的性质可得结论.
【解答过程】因为样本数据所对应的点都在直线上,
所以变量为负相关关系,且,
故选:A.
4.(2024·江西南昌·三模)如图对两组数据,和,分别进行回归分析,得到散点图如图,并求得线性回归方程分别是和,并对变量,进行线性相关检验,得到相关系数,对变量,进行线性相关检验,得到相关系数,则下列判断正确的是( )
A. B. C. D.
【解题思路】由两散点图中散点的位置关系直接得答案.
【解答过程】由散点图可知,与负相关,与正相关,则,,故A、B错误;
且图形中点比更加集中在一条直线附近,
则,又,,得.
故C错误,D正确.
故选:D.
5.(2024·湖南邵阳·三模)某学习小组对一组数据进行回归分析,甲同学首先求出回归直线方程,样本点的中心为.乙同学对甲的计算过程进行检查,发现甲将数据误输成,将这两个数据修正后得到回归直线方程,则实数( )
A. B. C. D.
【解题思路】根据题意分析求得以及,然后将正确数据代入,即可求得样本中心点,代入回归直线即可得到结果.
【解答过程】由题意可得,即修正前的样本中心点为,
假设甲输入的为,
则,则,
且,则,
则改为正确数据后,则,,
所以修正后的样本中心点为,
将点代入回归直线方程可得,解得.
故选:A.
6.(2024·湖北荆州·三模)根据变量和的成对样本数据,由一元线性回归模型得到经验回归模型,求得如图所示的残差图.模型误差( )
A.满足一元线性回归模型的所有假设
B.不满足一元线性回归模型的的假设
C.不满足一元线性回归模型的假设
D.不满足一元线性回归模型的和的假设
【解题思路】根据一元线性回归模型的有关概念即可判断.
【解答过程】用一元线性回归模型得到经验回归模型,
根据对应的残差图,残差的均值不可能成立,且残差图中的点分布在一条拋物线形状的弯曲带状区域上,
说明残差与坐标轴变量有二次关系,不满足一元线性回归模型,
故选:D.
7.(2024·天津河北·二模)云计算是信息技术发展的集中体现,近年来,我国云计算市场规模持续增长. 已知某科技公司2018年至2022年云计算市场规模数据,且市场规模与年份代码的关系可以用模型(其中为自然对数的底数)拟合,设,得到数据统计表如下:
年份 2018年 2019年 2020年 2021年 2022年
年份代码 1 2 3 4 5
2 2.4 3 3.6 4
由上表可得经验回归方程,则2026年该科技公司云计算市场规模的估计值为( )
(参考公式:)
A. B. C. D.
【解题思路】根据可得线性回归方程,再由回归方程求出2026年z的预测值,代入即可得解.
【解答过程】因为
所以
即经验回归方程
当时,
所以
即2026年该科技公司云计算市场规模y的估计值为.
故选:C.
8.(2024·四川成都·三模)有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:
优秀 非优秀
甲班 10
乙班 30
附:(),
0.05 0.025 0.010 0.005
3.841 5.024 6.635 7.879
已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是( )
A.甲班人数少于乙班人数
B.甲班的优秀率高于乙班的优秀率
C.表中的值为15,的值为50
D.根据表中的数据,若按的可靠性要求,能认为“成绩与班级有关系”
【解题思路】根据条件解出,,然后直接计算即可判断A,B,C错误,使用的计算公式计算,并将其与比较,即可得到D正确.
【解答过程】对于C,由条件知,,故,.
所以,,故C错误;
对于A,由于甲班人数为,
乙班人数为,故A错误;
对于B,由于甲班优秀率为,乙班优秀率为,故B错误;
对于D,由于,故D正确.
故选:D.
二、多选题
9.(2024·广东东莞·三模)下列选项中正确的有( )
A.若两个具有线性相关关系的变量的相关性越强,则线性相关系数的绝对值越接近于1
B.在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高
C.已知随机变量服从正态分布,则
D.若数据的方差为8,则数据的方差为2
【解题思路】对于AB,结合相关系数,残差的定义,即可求解;对于C,结合正态分布的对称性,即可求解;对于D,结合方差的线性公式,即可求解.
【解答过程】若两个具有线性相关关系的变量的相关性越强,则线性相关系数的值越接近于1,故A正确;
在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高,故B正确;
随机变量服从正态分布,
则,故C错误;
设数据,,,的方差为,因为数据,,,的方差为8,
则,解得,故D正确.
故选:ABD.
10.(2024·湖北武汉·模拟预测)某科技公司统计了一款App最近5个月的下载量如表所示,若与线性相关,且线性回归方程为,则( )
月份编号 1 2 3 4 5
下载量(万次) 5 4.5 4 3.5 2.5
A.与负相关 B.
C.预测第6个月的下载量是2.1万次 D.残差绝对值的最大值为0.2
【解题思路】对于A:根据回归方程分析判断;对于B:根据线性回归方程必过样本中心点,运算求解;对于C:根据回归方程进而预测;对于D:根据题意结合残差的定义分析判断.
【解答过程】对于A:因为,所以变量与负相关,故正确;
对于B:,
,
,则,
解得,故错误;
对于C:当时,,
故可以预测第6个月的下载量约为2.1万次,故正确;
对于D:当时,,,
当时,,,
当时,,,
当时,,,
当时,,,
故残差绝对值的最大值为0.2,故正确.
故选:ACD.
11.(2024·广东江门·模拟预测)某中学为更好的开展素质教育,现对外出研学课程是否和性别有关做了一项调查,其中被调查的男生和女生人数相同,且男生中选修外出研学课程的人数占男生总人数的,女生中选修外出研学课程的人数占女生总人数的.若依据的独立性检验,可以认为“选修外出研学课程与性别有关”.则调查人数中男生可能有( )
男生 女生 合计
选修外出研学课程
未选修外出研学课程
合计
附:
,其中
A.150人 B.225人 C.300人 D.375人
【解题思路】设男生人数为,根据题意用表示出女生人数、男生中“选修外出研学课程”人数、女生中“选修外出研学课程”人数,进而表示出表格中其它人数,利用公式计算出,由得到的范围,进而得到男生人数的范围,选出符合题意的选项.
【解答过程】设男生人数为,根据题意可得列联表如下:
男生 女生 合计
选修外出研学课程
不选修外出研学课程
合计
则,
若有的把握认为喜欢选修外出研学课程与性别有关,则,
解得,则.
故选:BCD.
三、填空题
12.(2024·全国·模拟预测)某试验小组收集了部分父亲和儿子的身高数据,通过测量与回归方程计算得到如下五组儿子身高的观测值与估计值,则该组统计数据的决定系数 1 .
儿子身高观测值/ 161.3 167.7 170.0 173.5 177.5
儿子身高估计值/ 161.3 167.7 170.0 173.5 177.5
【解题思路】根据决定系数的意义及表格中的数据即可求解.
【解答过程】因为决定系数,其值越接近1,说明模型拟合效果越好,误差越小,
从表中数据可知没有误差,
所以.
故答案为:.
13.(2024·陕西铜川·模拟预测)已知某品牌的新能源汽车的使用时间x(年)与维护费用y(千元)之间有如下数据:
使用时间x(年) 2 4 6 8 10
维护费用y(千元) 2.4 3.2 4.4 6.8 7.6
若x与y之间具有线性相关关系,且y关于x的线性回归方程为.据此估计,该品牌的新能源汽车的使用时间为12年时,维护费用约为 9.08 千元.
【解题思路】求出,得到样本中心点坐标,将其代入回归方程可求出,然后将代入回归方程可得答案.
【解答过程】由题意可得,
由于回归直线过样本的中心点,所以,解得,
所以回归直线方程为,当时,,
所以当该品牌的新能源汽车的使用时间为12年时,维护费用约为9.08千元.
故答案为:9.08.
14.(2024·上海金山·二模)为了考察某种药物预防疾病的效果,进行动物试验,得到如下图所示列联表:
药物 疾病 合计
未患病 患病
服用 50
未服用 50
合计 80 20 100
取显著性水平,若本次考察结果支持“药物对疾病预防有显著效果”,则()的最小值为 .
(参考公式:;参考值:)
【解题思路】由题意列出不等式,结合近似计算求出m的取值范围,即可得答案.
【解答过程】由题意可知,
则,
解得或,而,
故m的最小值为44.
故答案为:44.
四、解答题
15.(2024·河南新乡·模拟预测)氮氧化物是一种常见的大气污染物,下图为我国2015年至2023年氮氧化物排放量(单位:万吨)的折线图,其中年份代码1~9分别对应年份2015~2023.
已知,,,.
(1)可否用线性回归模型拟合与的关系?请分别根据折线图和相关系数加以说明.
(2)若根据所给数据建立回归模型,可否用此模型来预测2024年和2034年我国的氮氧化物排放量?请说明理由.
附:相关系数.
【解题思路】(1)根据题意,由相关系数的计算公式代入计算,即可判断;
(2)根据题意,由线性回归方程的意义,即可判断.
【解答过程】(1)从折线图看,各点落在一条直线附近,因而可以用线性回归模型拟合与的关系,
由题意知,
相关系数.
故可以用线性回归模型拟合与的关系.
(2)可以预测2024年的氮氧化物排放量,但不可以预测2034年的氮氧化物排放量.
理由如下:
①2024年与所给数据的年份较接近,因而可以认为短期内氮氧化物排放量将延续该趋势,故可以用此模型进行预测;
②2034年与所给数据的年份相距过远,而影响氮氧化物排放量的因素有很多,这些因素在短期内可能保持不变,但从长期看很有可能会变化,因而用此模型预测可能是不准确的.
16.(2024·青海·二模)某企业近年来的广告费用x(百万元)与所获得的利润y(千万元)的数据如下表所示,已知y与x之间具有线性相关关系.
年份 2018 2019 2020 2021 2022
广告费用x/百万元 1.5 1.6 1.7 1.8 1.9
利润y/千万元 1.6 2 2.4 2.5 3
(1)求y关于x的线性回归方程:
(2)若该企业从2018年开始,广告费用连续每一年都比上一年增加10万元,根据(1)中所得的线性回归方程,预测2025年该企业可获得的利润.
参考公式:,.
【解题思路】(1)首先算出,,,的值,然后可以依次算出,的值即可求解;
(2)先预测广告费用,然后代入预测模型可预测利润.
【解答过程】(1),,
,
,
,
.
故所求的线性回归方程为.
(2)由题可知,到2025年时广告费用为2.2百万元,
故可预测该公司所获得的利润约为 (千万元).
17.(2024·四川宜宾·三模)某地为调查年龄在35―50岁段人群每周的运动情况,从年龄在35―50岁段人群中随机抽取了200人的信息,将调查结果整理如下:
女性 男性
每周运动超过2小时 60 80
每周运动不超过2小时 40 20
(1)根据以上信息,能否有99%把握认为该地年龄在35―50岁段人群每周运动超过2小时与性别有关?
(2)在以上被抽取且每周运动不超过2小时的人中,按性别进行分层抽样,共抽6人.再从这6人中随机抽取2人进行访谈,求这2人中至少有1人是女性的概率.
参考公式:,.
0.10 0.05 0.025 0.010 0.001
2.706 3.841 5.024 6.635 10.828
【解题思路】(1)根据二联表求解卡方,即可与临界值比较作答,
(2)列举基本事件,即可由古典概型的概率个数求解.
【解答过程】(1)由题意可得
女性 男性
每周运动超过2小时 60 80 140
每周运动不超过2小时 40 20 60
总计 100 100 200
由.
知:有99%把握认为该地35-50岁年龄段人每周运动超过2小时与性别有关.
(2)在以上被抽取且每周运动不超过2小时的人中,按性别进行分层抽样,共抽6人
在以上被抽取且每周运动不超过2小时的人中,按性别进行分层抽样,共抽6人,则女性抽取4人,记为:,,,,男性抽取2人,记为:,,从这6人中随机抽取2人,抽法有:
,,,,,,,,,,,,,,共15种,
这两人中至少有一人是女性的抽法有:
,,,,,,,,,,,,,共14种,故两人中至少有一人是女性的概率.
18.(23-24高二下·宁夏石嘴山·期中)红铃虫(Pectinophora gossypiella)是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数(个)和温度()的8组观测数据,制成图1所示的散点图.现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:
25 2.9 646 168 422688 50.4 70308
表中;;;
(1)根据残差图,比较模型①、②的拟合效果,哪种模型比较合适?
(2)根据(1)中所选择的模型,求出关于的回归方程.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,,
【解题思路】(1)根据残差点的分布情况分析即可;
(2)取对数,将非线性回归转化为线性回归,然后根据所给数据代入公式即可得回归方程.
【解答过程】(1)模型①更合适.
模型①残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型②带状宽度窄,
所以模型①的拟合精度更高,回归方程的预报精度相应就会越高,故选模型①比较合适.
(2)令与温度x可以用线性回归方程来拟合,则.
,
则关于的线性回归方程为,即,
产卵数y关于温度x的回归方程为.
19.(2024·四川成都·模拟预测)在学校食堂就餐成为了很多学生的就餐选择.学校为了解学生食堂就餐情况,在校内随机抽取了100名学生,其中男生和女生人数之比为,现将一周内在食堂就餐超过8次的学生认定为“喜欢食堂就餐”,不超过8次的学生认定为“不喜欢食堂就餐”.“喜欢食堂就餐”的人数比“不喜欢食堂就餐”人数多20人,“不喜欢食堂就餐”的男生只有10人.
男生 女生 合计
喜欢食堂就餐
不喜欢食堂就餐 10
合计 100
(1)将上面的列联表补充完整,并依据小概率值的独立性检验,分析学生喜欢食堂就餐是否与性别有关:
(2)用频率估计概率,从该校学生中随机抽取10名,记其中“喜欢食堂就餐”的人数为X.事件“”的概率为,求随机变量X的期望和方差.
参考公式:,其中.
a 0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
【解题思路】(1)根据题意,补充完善列联表,进行独立性检验即可.
(2)根据题意,,利用二项分布的均值方差公式求解.
【解答过程】(1)列联表见图,
男生 女生 合计
喜欢食堂就餐 40 20 60
不喜欢食堂就餐 10 30 40
合计 50 50 100
零假设:假设食堂就餐与性别无关,
由列联表可得,
根据小概率的独立性检验推断不成立,
即可以得到学生喜欢食堂就餐与性别有关,此推断犯错误的概率不超过.
(2)由题意可知,抽取的10名学生,喜欢饭堂就餐的学生人数服从二项分布,
且喜欢饭堂就餐的频率为,则,
故其期望,方差.
21世纪教育网(www.21cnjy.com)