中小学教育资源及组卷应用平台
2025苏教版高中数学选择性必修第二册
第9章 统计
9.1 线性回归分析
9.1.1 变量的相关性 9.1.2 一元线性回归模型
基础过关练
题组一 变量间的相关关系
1.(2024辽宁省实验中学期中)下列变量之间的关系不是相关关系的是( )
A.光照时间与大棚内蔬菜的产量
B.举重运动员所能举起的杠铃的最大质量与他的体重
C.某正方形的边长与此正方形的面积
D.人的身高与体重
2.(2024安徽淮北国泰中学期末)根据变量x,y的不同成对数据,绘制了以下四个散点图,由这四个散点图可以判断变量x与y呈负相关关系的是( )
3.(2024九省联考)已知变量x和y满足关系y=-x+1,变量y与z正相关,则( )
A.x与y负相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y正相关,x与z负相关
D.x与y负相关,x与z正相关
题组二 样本相关系数
4.(2024河南驻马店月考)开始吸烟的年龄X与其得肺癌的相对危险度Y的一组对应数据为(16,15.10),(18,12.81),(20,9.72),(22,3.21);每天吸烟的支数U与其得肺癌的相对危险度V的一组对应数据为(10,7.5),(20,9.5),(30,16.6).用r1表示变量X与Y之间的样本相关系数,r2表示变量U与V之间的样本相关系数,则下列说法正确的是( )
A.r1=r2 B.r1>r2>0
C.05.(2024福建宁化第一中学阶段测试)对四组数据进行统计,获得以下散点图,关于其样本相关系数的比较正确的是( )
A.r2C.r26.(2024江苏南京航空航天大学附属高级中学期中)已知四组不同数据对应的两变量的样本相关系数如下:①组数据对应变量的样本相关系数r1=0;②组数据对应变量的样本相关系数r2=-0.95;③组数据对应变量的样本相关系数的绝对值|r3|=0.89;④组数据对应变量的样本相关系数r4=0.75.则下列说法正确的是( )
A.①组数据对应的样本点都在同一直线上
B.②组数据对应的两变量线性相关性最强
C.③组数据对应的两变量线性相关性最强
D.④组数据对应的两变量线性相关性最弱
7.现有某种机械设备,随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.此种机械设备的使用年限x(单位:年)与失效费y(单位:万元)的统计数据如下表所示,则y与x的样本相关系数r= .
使用年限x/年 2 4 5 6 8
失效费y/万元 3 4 5 6 7
附:r=≈1.4.
题组三 经验回归方程及其应用
8.(2024河南新乡联考)根据变量x,y的一组样本数据(xi,yi)(i=1,2,3,…,10)得到其经验回归方程为=2x-0.4,且=2.去除两个样本数据(-3,-1)和(3,-3)后,得到新的经验回归直线的斜率为3,则样本数据(4,8)对应的残差为( )
A.1.5 B.-1
C.-1.5 D.1
9.(多选题)(2023江苏常州期末)某课外兴趣小组在探究学习活动中,测得变量x,y的10组成对数据如下表所示:
x 165 168 170 172 173 174 175 177 179 182
y 55 89 61 65 67 70 75 75 78 80
由最小二乘法计算得到y关于x的经验回归方程为x,样本相关系数为r1,经过观察散点图,分析残差,把数据(168,89)去掉后,用剩下的9组数据计算得到的经验回归方程为x,样本相关系数为r2.则( )
A. B.
C. D.>0
10.(多选题)(2023江苏淮安期末)某小卖部5天内卖出热茶的杯数y与当天气温x(单位:℃)的散点图如图所示,若去掉B(7,35),则下列说法正确的有( )
A.决定系数R2变大
B.变量x与y的相关性变弱
C.样本相关系数r的绝对值变大
D.当气温为11 ℃时,估计卖出热茶的杯数为35
11.(2022江苏扬州江都中学月考)为实施乡村振兴,科技兴农,某村建起了田园综合体,并从省城请来专家进行技术指导.根据统计,该田园综合体中的西红柿亩产量的增加量y(千克)与某种液体肥料每亩使用量x(千克)之间的对应数据如表所示.
x/千克 2 4 5 6 8
y/千克 300 400 400 400 500
(1)通过计算样本相关系数r来判断是否可用一元线性回归模型拟合y与x的关系(若|r|>0.75,则线性相关程度很高,可以用一元线性回归模型拟合);
(2)求y关于x的经验回归方程,并估计当液体肥料每亩使用量为15千克时,西红柿亩产量的增加量.
参考公式:
样本相关系数r=;
在中,.
参考数据:≈3.16.
题组四 非线性回归分析
12.以模型y=cekx去拟合一组数据时,为了求出回归方程,设z=ln y,将其变换后得到经验回归方程=0.2x+3,则估计c,k的值分别是( )
A.e2,0.6 B.e2,0.3
C.e3,0.2 D.e4,0.6
13.(2024四川雅安中学等校联考)当两个变量呈非线性相关时,有些可以通过适当的转换进行线性相关化,比如反比例关系y=,可以设一个新的变量u=,这样y与u之间就是线性关系.下列表格中的数据可以用非线性方程=0.14x2+进行拟合,用线性回归的相关知识,可求得的值约为( )
x 1 2 3 4 5 6
y 2.5 3.6 4.4 5.4 6.6 7.5
A.2.98 B.2.88 C.2.78 D.2.68
14.(2023江苏淮安期末)某乡政府为提高当地农民的收入,指导农民种植药材,并取得了较好的效果.以下是某农户2018—2022年种植药材的平均收入的统计数据:
年份 2018 2019 2020 2021 2022
年份代码x 1 2 3 4 5
平均收入y/千元 59 61 64 68 73
(1)根据表中数据,现有y=a+bx与y=c+dx2两种模型可以拟合y与x之间的关系,请分别求出两种模型的回归方程;(结果保留一位小数)
(2)统计学中常通过比较残差的平方和来比较两个模型的拟合效果,请根据残差平方和说明上述两个模型哪一个的拟合效果更好,并据此预测2030年该农户种植药材的平均收入.
参考数据:)2=374,其中ti=.
参考公式:经验回归方程中,.
能力提升练
题组一 经验回归方程及其应用
1.(2023江苏南通如皋中学月考)已知某种商品的广告费投入x(单位:万元)与销售额y(单位:万元)之间有如下对应数据:
x/万元 2 4 5 6 8
y/万元 30 40 50 60 70
根据上表可得y关于x的经验回归方程为,计算得=7,则当投入10万元广告费时,销售额的估计值为( )
A.75万元 B.85万元
C.99万元 D.105万元
2.(2024河南南阳六校联考)某学习小组对一组数据(xi,yi)(i=1,2,3,…,7)进行回归分析,甲同学首先求出经验回归方程为=3x+2,样本点的中心为(2,m).乙同学对甲的计算过程进行检查,发现甲将数据(4,6)误输入成(6,4),将这两个数据修正后得到经验回归方程为x+4,则=( )
A.
3.(2024江西上饶广丰期末)某学校校医研究温差x(℃)与本校当天新增感冒人数y的关系,该医生记录了5天的数据,由于保管不善,其中有两个数据看不清楚,现分别用m,n代替,已知18≤m≤24,26≤n≤34,且样本点的中心为(8,25),则下列结论正确的是( )
x 5 6 8 9 12
y 17 m 25 n 35
A.在m,n确定的条件下,去掉样本点(8,25),则样本相关系数r增大
B.在m,n确定的条件下,经过拟合,发现数据基本符合经验回归方程,则=4
C.在m,n确定的条件下,经过拟合,发现数据基本符合经验回归方程,则当x=12时,残差为0.4
D.事件“m=20,n=28”发生的概率为
4.(2023江苏南京秦淮中学质检)垃圾是人类日常生活和生产中产生的废弃物,由于排出量大,成分复杂多样,且具有污染性,所以需要无害化、减量化处理.某市为调查产生的垃圾数量,采用简单随机抽样的方法抽取20个县城进行了分析,得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个县城的人口数(单位:万)和该县年产生垃圾总量(单位:吨),并计算得yi=4 000,)2=8 000,)=700.
(1)请用样本相关系数说明该组数据中y与x之间的关系可用一元线性回归模型进行拟合;
(2)求y关于x的经验回归方程;
(3)某科研机构研发了两款垃圾处理机器,其中甲款机器每台售价为100万元,乙款机器每台售价为80万元,下表是以往两款垃圾处理机器的使用年限(整年)统计表:
台数 使用年限 总计
1年 2年 3年 4年
款式 甲款 5 20 15 10 50
乙款 15 20 10 5 50
根据以往经验可知,某县城环保机构每年可获得政府支持的垃圾处理费用为50万元,且仅考虑购买机器的成本和每台机器的使用年限(使用年限均为整年).该县城环保机构若考虑购买其中一款垃圾处理机器,以使用年限的频率估计概率,该机构选择购买哪一款垃圾处理机器更划算
参考公式:
样本相关系数r=;
对于一组具有线性相关关系的数据(xi,yi)(i=1,2,…,n),其经验回归直线.
5.(2024辽宁锦州渤海大学附属高级中学期中)消费者信心指数是反映消费者信心强弱的指标,它是预测经济走势和消费趋向的一个先行指标,是监测经济周期变化的重要依据.消费者信心指数值在0和200之间.指数超过100,表明消费者信心处于强信心区;指数等于100,表示消费者信心处于强弱临界点;指数小于100,表示消费者信心处于弱信心区.
我国某城市2016年至2019年各季度的消费者信心指数如下表1:
表1
2016年 2017年 2018年 2019年
第一季度 104.50 111.70 118.50 119.30
第二季度 104.00 110.20 114.60 118.20
第三季度 105.50 114.20 110.20 118.10
第四季度 106.80 113.20 113.20 119.30
将2016年至2019年该城市各季度的消费者信心指数整理得到如下频数分布表2:
表2
分组 [100,105) [105,110) [110,115) [115,120]
频数 2 2 7 5
记2016年至2019年的年份序号为xi(i=1,2,3,4),该城市各年消费者信心指数的年平均值(四舍五入取整)为yi(i=1,2,3,4),xi与yi的关系如下表3:
表3
年份序号xi 1 2 3 4
消费者信心指 数的年平均值yi 105 112 114 119
(1)从2016年至2019年该城市各季度的消费者信心指数中任取2个,求其中至少有一个不小于115的概率;
(2)用表2中各区间的中点值代替该区间的消费者信心指数,从2016年至2019年各季度的消费者信心指数中任取一个将其记为随机变量X,求X的概率分布和数学期望(保留2位小数);
(3)根据表3的数据建立y关于x的经验回归方程,并根据建立的经验回归方程估计2020年该城市消费者信心指数的年平均值.
参考数据和公式:=112.5;在中,.
题组二 非线性回归分析及其应用
6.(2023江苏南通海门中学月考)用模型y=aekx拟合一组数据(xi,yi)(i=1,2,…,10),若x1+x2+…+x10=10,y1y2…y10=e70,设z=ln y,得变换后的经验回归方程为x+4,则估计ak= .
7.(2023江苏建湖高级中学期中)某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每批产品的非原料总成本y(元)与生产该产品的数量x(千件)有关,经统计得到如下数据:
x/千件 1 2 3 4 5 6 7
y/元 6 11 21 34 66 101 196
根据以上数据,绘制散点图,如图所示.
观察散点图,两个变量不具有线性相关关系,现考虑用对数函数模型y=a+bln x和指数函数模型y=c·dx分别对两个变量的关系进行拟合.
(1)根据散点图判断,y=a+bln x与y=c·dx(c,d均为大于零的常数)哪一个适宜作为非原料总成本y关于生产该产品的数量x的回归方程类型;(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中的数据,建立y关于x的回归方程;
(3)已知每件产品的原料成本为10元,若该产品的总成本不得高于123 470元,请估计最多能生产多少千件该产品.
参考数据:
xiyi xivi 100.54
4 62.14 1.54 140 2 535 50.12 3.47
其中vi=lg yi,vi.
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归直线u的斜率和截距的最小二乘估计分别为.
答案与分层梯度式解析
第9章 统计
9.1 线性回归分析
9.1.1 变量的相关性
9.1.2 一元线性回归模型
基础过关练
1.C 2.B 3.A 4.D 5.A 6.B 8.C 9.BCD
10.AC 12.C 13.B
1.C 选项C中的两个变量之间是函数关系,故不是相关关系;选项A、B、D中的两个变量之间的关系均是相关关系.故选C.
2.B A中,各点的分布没有明显相关性,不符合题意;
B中,各点分布在一条直线附近,且变量之间呈负相关关系,符合题意;
C中,各点分布在一条抛物线附近,表明两变量之间不是线性相关关系,不符合题意;
D中,各点分布在一条直线附近,且变量之间呈正相关关系,不符合题意.
故选B.
3.A 由正相关、负相关的定义可知x与y负相关,x与z负相关.故选A.
4.D 由X与Y的对应数据可得,Y随X的增大而减小,故X与Y呈负相关关系,故r1<0;
由U与V的对应数据可得,V随U的增大而增大,故U与V呈正相关关系,故r2>0,
故r1<0故选D.
5.A 由题中的散点图可以看出,图1和图3对应的两变量正相关,则样本相关系数大于0,即r1>0,r3>0;图2和图4对应的两变量负相关,则样本相关系数小于0,即r2<0,r4<0.又图1和图2中的点相对于图3和图4中的点更加集中,所以r1更接近1,r2更接近-1,所以r2解题模板 由散点图判断样本相关系数的大小关系时,一般先由散点图的分布(左下到右上、左上到右下)确定样本相关系数的符号,再由散点图是否集中在某条直线附近确定样本相关系数绝对值的大小.
6.B 样本相关系数r的绝对值越接近1,两变量的相关性越强;样本相关系数r的绝对值越接近0,两变量的相关性越弱.
破题关键
对于A,①组数据对应变量的样本相关系数r1=0,故①组数据对应的两变量无线性关系,样本点不在同一直线上,故A错误;
对于B、C,②组数据对应变量的样本相关系数的绝对值|r2|=0.95,为四组样本相关系数中绝对值的最大值,故②组数据对应的两变量线性相关性最强,故B正确,C错误;
对于D,①组数据对应变量的样本相关系数r1=0,为四组样本相关系数中绝对值的最小值,故①组数据对应的两变量线性相关性最弱,故D错误.故选B.
7.答案 0.98
解析 由题表知,×(2+4+5+6+8)=5,
×(3+4+5+6+7)=5,
所以)=(2-5)×(3-5)+(4-5)×(4-5)+(5-5)×(5-5)+(6-5)×(6-5)+(8-5)×(7-5)=14,
)2=(2-5)2+(4-5)2+(5-5)2+(6-5)2+(8-5)2=20,
)2=(3-5)2+(4-5)2+(5-5)2+(6-5)2+(7-5)2=10,
所以样本相关系数r==0.98.
8.C
思路分析 由经验回归方程求出,再求出新样本数据的平均数,从而求出新的经验回归方程,然后求出预测值,进而得到残差.
解析 将=2代入=2x-0.4,得=2×2-0.4=3.6,
去除两个样本数据(-3,-1)和(3,-3)后,=5,又新的经验回归直线的斜率为3,故其截距,故新的经验回归方程为,当x=4时,,则样本数据(4,8)对应的残差为8-=-1.5.
故选C.
9.BCD 对于10组数据,×(165+168+170+172+173+174+175+177+179+182)=173.5,
因为离群点(168,89)的横坐标168小于平均值173.5,纵坐标89相对较大,
所以去掉离群点后经验回归直线的截距变小而斜率变大,所以,故A错误,B正确;
去掉离群点后,成对样本数据的线性相关程度更强,拟合效果会更好,所以|r1|<|r2|,
由题中表格可知,x与y正相关,所以00,所以,故C,D正确.
故选BCD.
10.AC 由题中散点图可知,去掉B(7,35)后,变量x与y的相关性变强,故决定系数R2变大,故A正确,B错误;
因为x与y是负相关,所以样本相关系数r的绝对值变大,故C正确;
设y关于x的经验回归方程为,
去掉B(7,35)后,=36,
xi'yi'=4×50+10×37+13×33+17×24=1 407,
x'2i =42+102+132+172=574,
所以≈-1.97,
'=36+1.97×11=57.67,
所以y关于x的经验回归方程为=-1.97x+57.67,
当x=11时,=-1.97×11+57.67=36,
故当气温为11 ℃时,估计卖出热茶的杯数为36,故D错误.
故选AC.
11.解析 (1)由题表可得=5,
=400,
所以)=(-3)×(-100)+(-1)×0+0×0+1×0+3×100=600,
)2=(-3)2+(-1)2+02+12+32=20,
)2=(-100)2+02+02+02+1002=20 000,
所以r=≈0.95.
因为|r|>0.75,所以可以用一元线性回归模型拟合y与x的关系.
(2)结合(1)知,=30,
所以=400-5×30=250,
所以=30x+250.
当x=15时,=30×15+250=700,
故估计当液体肥料每亩使用量为15千克时,西红柿亩产量的增加量为700千克.
12.C 对y=cekx两边同时取以e为底的对数,得ln y=ln(cekx)=ln c+ln ekx=kx+ln c.
因为z=ln y,所以z=kx+ln c,
又=0.2x+3,所以=0.2,ln =3,
所以=e3.
13.B 设z=x2,则,则
z 1 4 9 16 25 36
y 2.5 3.6 4.4 5.4 6.6 7.5
则,
=5,
则≈2.88.
故选B.
14.解析 (1)由题表得×(59+61+64+68+73)=65,
所以)2=10,
所以=3.5,
=65-3.5×3=54.5.
由题知,t=x2,则y=c+dx2=c+dt,
易得×(12+22+32+42+52)=11,
≈0.6,
则=65-0.6×11=58.4.
所以两种模型的回归方程分别为=0.6x2+58.4.
(2)对于模型=3.5x+54.5,其残差平方和为(59-58)2+(61-61.5)2+(64-65)2+(68-68.5)2+(73-72)2=3.5.
对于模型=0.6x2+58.4,其残差平方和为(59-59)2+(61-60.8)2+(64-63.8)2+(68-68)2+(73-73.4)2=0.24.
因为0.24<3.5,所以模型=0.6x2+58.4的拟合效果更好.
当x=13时,=0.6×132+58.4=159.8,
故预测2030年该农户种植药材的平均收入为159.8千元,即15.98万元.
能力提升练
1.B 2.D 3.D
1.B 由题意得×(30+40+50+60+70)=50,
∵经验回归直线过样本点的中心(5,50),
∴50=7×5+,解得=15,
∴经验回归方程为=7x+15.
当x=10时,=7×10+15=85,
故当投入10万元广告费时,销售额的估计值为85万元.
故选B.
2.D 由题意可得m=3×2+2=8,假设甲输入的(x1,y1)为(6,4),
则6+x2+x3+…+x7=2×7=14,则x2+x3+…+x7=8,
同理,4+y2+y3+…+y7=7×8=56,则y2+y3+…+y7=52,
将(6,4)改为(4,6)后,有4+x2+x3+…+x7=12,即,
同理,有6+y2+y3+…+y7=58,即,所以修正后的样本点的中心为,
将x+4,得+4,解得.
故选D.
3.D 对于A,因为经验回归直线必过样本点的中心(8,25),
所以在m,n确定的条件下,去掉样本点(8,25),样本相关系数r不变,所以A错误;
对于B,将(8,25)代入,可得25=2.6×8+,解得=4.2,所以B错误;
对于C,由B中分析知=2.6x+4.2,当x=12时,=35.4,则对应残差为35-35.4=-0.4,所以C错误;
对于D,由题得17+m+25+n+35=25×5,解得m+n=48,又18≤m≤24,26≤n≤34,故m可取18,19,20,21,22,对应的n可取30,29,28,27,26,
即(m,n)的取值为(18,30),(19,29),(20,28),(21,27),(22,26),
所以事件“m=20,n=28”发生的概率为,所以D正确.
故选D.
4.解析 (1)由题意知样本相关系数r==0.875.
因为y与x的样本相关系数接近于1,
所以y与x之间具有较强的线性相关关系,可用一元线性回归模型进行拟合.
(2)设y关于x的经验回归方程为,
则=8.75,
=200-8.75×4=165,
所以=8.75x+165.
(3)以频率估计概率,设购买一台甲款垃圾处理机器减去政府支持费用后的垃圾处理费用为X万元,其概率分布为
X -50 0 50 100
P 0.1 0.4 0.3 0.2
则E(X)=-50×0.1+0×0.4+50×0.3+100×0.2=30,
设购买一台乙款垃圾处理机器减去政府支持费用后的垃圾处理费用为Y万元,其概率分布为
Y -30 20 70 120
P 0.3 0.4 0.2 0.1
则E(Y)=-30×0.3+20×0.4+70×0.2+120×0.1=25.
因为E(X)>E(Y),所以该机构选择购买一台甲款垃圾处理机器更划算.
5.解析 (1)由题表2,可得共统计了2+2+7+5=16个消费者信心指数,其中不小于115的共有5个,
所以从2016年至2019年该城市各季度的消费者信心指数中任取2个,其中至少有一个不小于115的概率为.
(2)由题意可知X的可能取值为102.5,107.5,112.5,117.5,
其中P(X=102.5)=,
P(X=112.5)=,
所以随机变量X的概率分布为
X 102.5 107.5 112.5 117.5
P
数学期望E(X)=102.5×≈112.19.
(3)由题知=112.5,
则)=(1-2.5)×(105-112.5)+(2-2.5)×(112-112.5)+(3-2.5)×(114-112.5)+(4-2.5)×(119-112.5)=22,
)2=(1-2.5)2+(2-2.5)2+(3-2.5)2+(4-2.5)2=5,
所以=4.4,
=112.5-4.4×2.5=101.5,
所以变量y关于x的经验回归方程为=4.4x+101.5,
2020年对应的年份序号为5,当x=5时,=4.4×5+101.5=123.5,故估计2020年该城市消费者信心指数的年平均值为123.5.
6.答案 3e4
解析 由题意得=7,
因为()在经验回归直线x+4上,
所以7=+4,解得=3,
由y=aekx得z=ln y=ln a+kx,
又=3x+4,所以ln =3,故=e4,
所以估计ak=3e4.
7.解析 (1)根据题中的散点图判断,y=c·dx(c,d均为大于零的常数)适宜作为非原料总成本y关于生产该产品的数量x的回归方程类型.
(2)对y=c·dx两边同时取常用对数,得lg y=lg(c·dx)=lg c+xlg d.
由题知,v=lg y,∴v=lg c+xlg d,
∵xivi=50.12,
∴lg =0.25,
lg lg =1.54-4×0.25=0.54,
∴=0.54+0.25x,∴lg =0.54+0.25x,
∴=100.54+0.25x=3.47×100.25x,
即y关于x的回归方程为=3.47×100.25x.
(3)设生产了x千件该产品,生产总成本为g(x)元,则g(x)=3.47×100.25x+x×10×1 000=3.47×100.25x+10 000x,
又g(x)=3.47×100.25x+10 000x在其定义域内单调递增,且g(12)=3.47×103+120 000=123 470,
所以估计最多能生产12千件该产品.
方法总结 当两个变量不具有线性相关关系时,不能直接利用经验回归方程建立两个变量的关系,可以通过变换将其转化为一元线性回归模型,如y=c1,我们可以通过对数变换把指数关系变为线性关系,令z=ln y,则变换后样本点应该分布在直线z=bx+a(a=ln c1,b=c2)的附近.
21世纪教育网 www.21cnjy.com 精品试卷·第 2 页 (共 2 页)
21世纪教育网(www.21cnjy.com)