8.2.2 一元线性回归模型参数的最小二乘估计 同步练习(2课时,含答案)2024~2025学年高二数学人教A版(2019)选择性必修3

文档属性

名称 8.2.2 一元线性回归模型参数的最小二乘估计 同步练习(2课时,含答案)2024~2025学年高二数学人教A版(2019)选择性必修3
格式 docx
文件大小 327.9KB
资源类型 教案
版本资源 人教A版(2019)
科目 数学
更新时间 2025-05-22 20:09:37

图片预览

文档简介

8.2.2 一元线性回归模型参数的最小二乘估计(1)
一、 单项选择题
1 (2024吕梁月考)统计x与y两个变量的五组对应数据如下表所示,已知y与x之间的经验回归方程为=x+83.5,估计当x=9时,y的值为(  )
x 1 2 3 4 5
y 85 100 100 105 110
A. 125 B. 130 C. 133 D. 166
2 最小二乘法的原理是(  )
A. 使得[yi-(a+bxi)]最小
B. 使得[yi-(a+bxi)2]最小
C. 使得[yi-(a+bxi)]2最小
D. 使得[yi-(a+bxi)2]2最小
3已知x与y之间的几组数据如下表:
x 1 2 3 4 5 6
y 0 2 1 3 3 4
假设根据上表数据所得经验回归方程为=x+.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b'x十a' ,则下列结论中正确的是(  )
>b',>a' B. >b',C. o D. 4 某产品的广告费用x与销售额y的统计数据如下表:
广告费用x(万元) 4 2 3 5
销售额y(万元) 49 26 39 54
根据上表可得经验回归方程=x+中的为9.4,据此模型预报广告费用为6万元时的销售额为(  )
A. 63.6万元 B. 65.5万元
C. 67.7万元 D. 72.0万元
5 (2024蚌埠模拟)为了维护市场秩序,保护消费者权益,在“五一”假期来临之际,我市物价部门对某商品在5家商场的售价x(单位:元)及其一天的销售量y(单位:件)进行调查,得到五对数据(xi,yi)(i=1,2,3,4,5),经过分析、计算,得=10,=8,y关于x的经验回归方程为=-3x+,则相应于点(9,10)的残差为(  )
A. -1 B. 1 C. -3 D. 3
6 已知某一家旗舰店近五年“五一”黄金周期间的成交额如下表:
年份 2020 2021 2022 2023 2024
年份代号t 1 2 3 4 5
成交额y(万元) 50 60 70 80 100
若y关于t的经验回归方程为=12t+,则根据回归方程预测该店2025年“五一”黄金周的成交额是(  )
A. 84万元 B. 96万元
C. 108万元 D. 120万元
二、 多项选择题
7 (2023揭阳期末)2023年入冬以来,流感高发,某医院统计了一周中连续5天的流感就诊人数y与第x(x=1,2,3,4,5)天的数据如表所示.
x 1 2 3 4 5
y 21 10a 15a 90 109
根据表中数据可知x,y具有较强的线性相关关系,其经验回归方程为=20x+10,则下列结论中正确的是(  )
A. 样本相关系数在区间(0,1]内
B. 当x=2时,残差为-2
C. 点(3,15a)一定在经验回归直线上
D. 第6天到该医院就诊人数的预测值为130
8 (2024杭州期中)已知由样本数据(xi,yi)(i=1,2,3,…,10)组成的一个样本,得到的经验回归方程为=-x+2,且=4.剔除一个偏离直线较大的异常点(-14,-2)后,得到新的经验回归直线经过点(7,-4),则下列说法中正确的是(  )
A. 相关变量x,y具有正相关关系
B. 剔除该异常点后,样本相关系数的绝对值变大
C. 剔除该异常点后的经验回归直线经过点(6,-2)
D. 剔除该异常点后,随着x值的增加,相关变量y值减小的速度变小
三、 填空题
9 (2024通化期末)某产品的广告费用与销售额的统计数据如下表:
广告费用x/万元 1.8 2.2 3 5
销售额y/万元 t 2t+1 14 16
根据上表数据得到y关于x的经验回归方程为=3.75x-1.25,则t=________.
10 (2024绥化期中)某研究机构对高三学生的记忆力x和判断力y进行统计分析,统计数据如下表:
x 6 8 10 12
y 2 3 5 6
请根据上表提供的数据,求出y关于x的经验回归方程为________,据此可预测判断力为4的同学的记忆力为________.(参考公式:经验回归方程=x+的斜率和截距的最小二乘估计公式分别为=,=-)
11 (2024重庆三模)对具有线性相关关系的变量x,y有一组观测数据(xi,yi)(i=1,2,…,10),=5,=-4,其经验回归方程为=-3.2x+,则在样本点(3,2.9)处的残差为________.
四、 解答题
12 某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元) 8 8.2 8.4 8.6 8.8 9
销量y(件) 90 84 83 80 75 68
(1) 求经验回归方程=x+ ,其中=-20,=-;
(2) 预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元? (利润=销售收入-成本)
13 (2024莆田期末)人均可支配收入的高低,直接影响到居民的生活质量水平,是衡量一个国家或地区经济发展状况的重要依据.下图是某市2015~2023年城镇居民人均可支配收入(单位:万元)的折线图,发现城镇居民人均可支配收入与年份(注:年份代码1~9分别对应年份2015~2023)具有线性相关关系.
(1) 建立y关于t的经验回归方程(系数精确到0.01),并预测2024年该市城镇居民人均可支配收入;
(2) 为进一步对该市城镇居民人均可支配收入结构进行分析,某分析员从2015~2023年中任取两年的数据进行分析,将选出的人均可支配收入超过4.5万元的年份数记为X,求随机变量X的分布列与数学期望.
参考数据:=35.37,=191.16.
参考公式:经验回归方程=t+的斜率和截距的最小二乘估计公式分别为=,=-.
8.2.2 一元线性回归模型参数的最小二乘估计(2)
一、 单项选择题
1 如图,若5组数据(x,y)中去掉点D(3,10)后,则下列说法中错误的是(  )
A. 残差平方和变大
B. 相关系数r变大
C. 决定系数R2变大
D. 解释变量x与预报变量y的相关性变强
2 (2024芜湖期末)为研究数学成绩x(单位:分,满分为150分)与物理成绩y(单位:分,满分为100分)之间的关系,随机抽取了5名同学这两科考试的成绩(取高二学年这两科所有考试成绩的均分),统计如下表:
数学成绩x 100 137 116 142 125
物理成绩y a 89 89 97 85
根据表中的五组数据,用最小二乘法得到的经验回归方程为=x+28,由此可知表中的实数a的值为(  )
A. 78 B. 85 C. 88 D. 90
3 (2024焦作期末)小明利用课余时间参与科学探究活动——观察蒜苗的生长,下表记录了大蒜发芽后第4天至第8天的蒜苗高度,已知用最小二乘法算得蒜苗高度y(单位:cm)与时间x(单位:天)的经验回归方程为=x-4.4,根据回归方程预测,蒜苗高度开始大于20 cm从(  )
时间x/天 4 5 6 7 8
蒜苗高度y/cm 1 2.4 4.6 5.6 6.4
A. 第15天 B. 第16天 C. 第17天 D. 第18天
4 已知变量y关于x的经验回归方程为=ebx-0.5,其一组数据如下表所示:
x 1 2 3 4
y e e3 e4 e6
若x=5,则预测y的值可能为(  )
A. e5 B. e C. e7 D. e
5 已知指数曲线y=aebx进行线性变换后得到的经验回归方程为=1-0.6x,则函数y=x2+bx+a的单调增区间为(  )
A. (0,+∞) B.
C. D. (1,+∞)
6 若某地财政收入x与支出y满足经验回归方程=bx+a+e(单位:亿元),其中b=0.8,a=2,|e|≤0.5.如果今年该地区财政收入10亿元,那么年支出预计不会超过(  )
A. 10亿元 B. 9亿元
C. 10.5亿元 D. 9.5亿元
二、 多项选择题
7 (2024泉州期末)下列命题中,正确的是(  )
A. 线性相关模型中,决定系数R2越大相关性越强,相关系数r越大相关性也越强
B. 经验回归直线至少会经过其中一个样本点(xi,yi)
C. 已知一系列样本点(xi,yi)(i=1,2,3…)的经验回归方程为=2x+,若样本点(m,2)与(3,n)的残差相等,则2m+n=8
D. 以y=aebx模型去拟合某组数据时,为了求出回归方程,设z=ln y,将其变换后得到线性方程z=4x+ln 3,则a,b的值分别为3,4
8 (2024广州月考)使用统计手段科学预测传染病,可以保障人民群众的生命健康.下表和散点图为某段时间内全球某传染病的感染病例在第一次监测到之后的数量随时间的变化,以时间为自变量x(单位:天),以监测到的病例总数为因变量y,选择以下两个回归模型拟合y随x的变化:①y=k1x+b1(x>0);②y=k2emx(x>0),通过计算得出k1=5.14,b1=-16.3;k2=2.5,m=0.2,则下列说法中正确的是(  )
x 1 5 7 12 16 20
y 2 9 12 29 63 101
 
A. 使用回归模型①拟合的决定系数R2大于使用回归模型②的决定系数R2
B. 通过回归模型②得出的经验回归方程的预测效果好于通过回归模型①得出的经验回归方程
C. 在首例病例出现后45天,该传染病感染人数很有可能在200人左右
D. 在首例病例出现后45天,该传染病的感染人数很有可能超过10 000人
三、 填空题
9 关于变量x与y,根据表中数据得到如下的两个模型:①=6.5x+17.5;②=7x+15.通过残差分析发现线性模型①比②拟合效果好,则R________R,Q1________Q2.(填“>”或“<”,R2,Q分别是决定系数和残差平方和)
x 2 4 5 6 8
y 30 40 60 50 70
10 (2024上海松江月考)从非洲蔓延到东南亚的蝗虫灾害严重威胁了国际农业生产,影响了人民生活.世界性与区域性温度的异常、旱涝的频繁发生,给蝗灾发生创造了机会.已知蝗虫的产卵量y与温度x的关系可以用模型y=c1ec2x(其中e为自然对数的底数)拟合,设z=ln y,其变换后得到的一组数据如下:
x 20 23 25 27 30
z 2 2.4 3 3 4.6
由上表可得经验回归方程为z=0.2x+a,则当x=35时,蝗虫的产卵量y的估计值为__________.
11 (2024石嘴山期中)红铃虫是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数y(单位:个)和温度x(单位:℃)的8组观测数据,制成如图1所示的散点图.现用两种模型:①y=ebx+a,②y=cx2+d分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到如图2所示的残差图.
图1 产卵数散点图 图2 两种模型的残差图
根据收集到的数据,计算得到如下值:
25 2.9 646 168
422 688 50.4 70 308
表中zi=ln yi;=;ti=x;=,
(1) 根据残差图,比较模型①,②的拟合效果,模型    比较合适;
(2) 根据(1)中所选择的模型,求出y关于x的回归方程为    .
附:对于一组数据(ω1,v1),(ω2,v2),…,(ωn,vn),其回归直线=+ω的斜率和截距的最小二乘估计公式分别为=,=-.
四、 解答题
12 生物学家认为,睡眠中的恒温动物依然会消耗体内能量,主要是为了保持体温.脉搏率f是单位时间心跳的次数,医学研究发现,动物的体重W(单位:g)与脉搏率f存在着一定的关系.如表给出一些动物体重与脉搏率对应的数据,图1画出了体重W与脉搏率f的散点图,图2画出了lg W与lg f的散点图.
动物名 鼠 大鼠 豚鼠 兔 小狗 大狗 羊
体重 25 200 300 2 000 5 000 30 000 50 000
脉搏率 670 420 300 200 120 85 70
图1 图2
为了较好地描述体重和脉搏率的关系,现有以下两种模型供选择:
①f=kW+b;②lg f=k lg W+b.
(1) 选出你认为最符合实际的函数模型,并说明理由;
(2) 不妨取表中豚鼠和兔的体重脉搏率数据代入所选函数模型,求出f关于W的函数解析式;
(3) 若马的体重是兔的256倍,根据(2)的结论,预计马的脉搏率.
(参考数据:lg 2≈0.3,lg 3≈0.5)
13 (2024内江模拟)当前,人工智能技术以前所未有的速度迅猛发展,并逐步影响生活的方方面面,人工智能被认为是推动未来社会发展和解决人类面临的全球性问题的重要手段.某公司在这个领域逐年加大投入,以下是近年来该公司对产品研发年投入额x(单位:百万元)与其年销售量y(单位:千件)的数据统计表.
x/百万元 1 2 3 4 5
y/千件 0.5 1 1.5 3 5.5
(1) 若该公司科研团队计划用模型①=x+作为年销售量y关于年投资额x的回归分析模型,请根据统计表的数据及参考公式,确定该经验回归方程;
(2) 若该公司科研团队计划用模型②=e0.59x-1.27作为年销售量y关于年投资额x的回归分析模型,=e0.59x-1.27的残差平方和=0.1122,请根据统计表的数据及参考公式,比较两种模型的拟合效果哪种更好?并选择拟合精度更高的模型,预测年投入额为6百万元时,产品的销售量约为多少(计算结果保留到小数点后两位)?
参考公式及数据:==,=-,R2=1-,e2.27≈9.68,e2.28≈9.78.
8.2.2 一元线性回归模型参数的最小二乘估计(1)
1. C 由表中数据可求得=3,=100,因为回归直线必过样本中心点(,),即点(3,100),所以100=3+83.5,解得=5.5,所以=5.5x+83.5,故当x=9时,=5.5×9+83.5=133.
2. C 因为最小二乘法的原理是使样本数据的点到回归直线的距离的平方和最小,即使得[yi-(a+bxi)]2最小.
3. C 由=×(1+2+3+4+5+6)=,=×(0+2+1+3+3+4)=,得===,=-=-.又直线y=b′x+a′过点(1,0),(2,2),则b′==2,a′=0-1×2=-2,故a′.
4. B 由题意,得=×(4+2+3+5)=,=×(49+26+39+54)=42.因为回归直线=x+必过样本中心点(,),所以42=×9.4+,解得=9.1,所以经验回归方程为=9.4x+9.1,所以当x=6时,=9.4×6+9.1=65.5.
5. A 因为回归直线过样本点中心(,),即(10,8),将其代入=-3x+,可得8=-3×10+,解得=38,当x=9时,=-3×9+38=11,所以残差为10-11=-1.
6. C 由表中数据可求得==3,==72,将(3,72)代入=12t+可得=72-12×3=36,故=12t+36,所以当t=6时,=12×6+36=108(万元).
7. AD 由题意可知x,y具有较强的正相关关系,故样本相关系数在区间(0,1]内,故A正确;根据题意得==3,==44+5a.又回归直线必过样本中心点(,),所以44+5a=20×3+10,解得a=5.2,故当x=2时,=20×2+10=50,残差为10a-50=2,故B错误;点(3,15a)即点(3,78),当x=3时,=20×3+10=70,即点(3,15a)不在经验回归直线上,故C错误;当x=6时,=20×6+10=130,即第6天到该医院就诊人数的预测值为130,故D正确.故选AD.
8. BC 对于A,由经验回归方程为=-x+2,可得=-1<0,所以相关变量x,y具有负相关关系,故A错误;对于B,剔除一个偏离直线较大的异常点(-14,-2)后,变量的拟合程度变大,所以样本相关系数的绝对值变大,故B正确;对于C,由经验回归方程为=-x+2,且=4,可得=-2,剔除一个偏离直线较大的异常点(-14,-2)后,得到==6,==-2,即新的经验回归直线经过点(6,-2),故C正确;对于D,由新的经验回归直线经过点(7,-4),(6,-2),得解得=10,=-2,所以新的经验回归方程为=-2x+10,斜率由-1变成-2,所以剔除该异常点后,随着x值的增加,相关变量y值减小的速度变大,故D错误.故选BC.
9. 3 由题意,得==3,=,所以=3.75×3-1.25,解得t=3.
10. =0.7x-2.3 9 设y关于x的经验回归方程为=x+,由表格数据可求得==9,==4,=6×2+8×3+10×5+12×6=158,=62+82+102+122=344,则===0.7,所以=-=4-0.7×9=-2.3,即经验回归方程为=0.7x-2.3.将y=4代入方程,得x=9,即可预测判断力为4的同学的记忆力为9.
11. 0.5 将=5,=-4代入=-3.2x+,得-4=-3.2×5+,解得=12,所以=-3.2x+12,故当x=3时,=-3.2×3+12=2.4,所以残差e=2.9-2.4=0.5.
12. (1) =×(8+8.2+8.4+8.6+8.8+9)=8.5,
=×(90+84+83+80+75+68)=80.
因为=-20,=-,
所以=80+20×8.5=250,
所以经验回归方程为=-20x+250.
(2) 设工厂获得的利润为L元,
可得L=x(-20x+250)-4(-20x+250)=-20(x-8.25)2+361.25,
所以该产品的单价应定为8.25元.
13. (1) 由题意,得==5,==3.93,
又=191.16,=285,
则===0.2385≈0.24,=-=3.93-0.238 5×5=2.737 5≈2.74,所以y关于t的经验回归方程为=0.24t+2.74.
2024年即t=10,=0.24×10+2.74=5.14,所以预测2024年该市城镇居民人均可支配收入为5.14万元.
(2) 2015~2023年中,人均可支配收入超过4.5万元的年份有3个,则X的所有可能取值为0,1,2,
且P(X=0)===,P(X=1)===,P(X=3)===,
所以随机变量X的分布列为
X 0 1 2
P
故数学期望E(X)=0×+1×+2×=.
8.2.2 一元线性回归模型参数的最小二乘估计(2)
1. A 由散点图知,去掉点D(3,10)后,y与x的线性相关加强,且为正相关,所以r变大,R2变大,残差平方和变小.
2. D 由表数据计算可==124,==,又经验回归直线必过样本中心点,则=×124+28,解得a=90.
3. D 由表中数据可求得=6,=4,代入经验回归方程=-4.4,解得=1.4,所以=1.4x-4.4,令1.4x-4.4>20,解得x>17.43,因为x∈N*,所以x≥18,即从第18天蒜苗高度开始大于20 cm.
4. D 由=ebx-0.5,得ln=bx-0.5,令z=ln ,则z=bx-0.5,则
x 1 2 3 4
z 1 3 4 6
所以==2.5,==3.5.
因为(,)满足z=bx-0.5,所以3.5=b×2.5-0.5,解得b=1.6,所以z=1.6x-0.5,所以=e1.6x-0.5,当x=5时,=e1.6×5-0.5=e.
5. B 因为y=aebx,所以两边取对数,作线性变换,得ln y=ln (aebx)=ln a+ln ebx=ln a+bx.因为指数曲线y=aebx进行线性变换后得到的经验回归方程为=1-0.6x,则=ln y,ln a=1,b=-0.6,即a=e.因为函数y=x2+bx+a为二次函数,图象开口向上,对称轴为直线x=-=,所以函数y=x2+bx+a的单调增区间为.
6. C 代入数据得=10+e.因为|e|≤0.5,所以9.5≤y≤10.5,故不会超过10.5亿元.
7. CD 对于A,在线性相关模型中,决定系数R2越大,即残差平方和越小,所以拟合效果越好,相关系数|r|越大,相关性越强,故A错误;对于B,经验回归直线=x+不一定过样本点,故B错误;对于C,经验回归方程为=2x+,且样本点(m,2)与(3,n)的残差相等,则2-(2m+)=n-(2×3+),化简得2m+n=8,故C正确;对于D,因为y=aebx,所以两边取对数,可得ln y=ln (a·ebx)=ln a+ln ebx=ln a+bx,令z=ln y,可得z=ln a+bx.因为z=4x+ln 3,所以ln a=ln 3,b=4,即a=3,b=4,故D正确.故选CD.
8. BD 根据散点图可知模型②的拟合效果更好,拟合效果越好的模型的决定系数R2越大,所以使用回归模型①拟合的决定系数R2小于使用回归模型②的决定系数R2,故A错误,B正确;因为模型②的拟合效果好,预报更准确,根据已知y=k2emx(x>0),k2=2.5,m=0.2,可得y=2.5e0.2x,将x=45代入经验回归方程,有y=2.5e9≈20 258,故C错误,D正确.故选BD.
9. > < 由决定系数R2的性质可得,R2越大的模型的拟合效果越好,所以R>R.由残差的性质可得,残差平方和越小的模型的拟合效果越好,所以Q110. e5 由表格数据可求得=×(20+23+25+27+30)=25,=×(2+2.4+3+3+4.6)=3.因为经验回归方程必过样本中心点(,),且z=0.2x+a,则a=3-0.2×25=-2,所以z=0.2x-2,即ln y=0.2x-2,可得y=e0.2x-2,当x=35时,可得y=e5,即当x=35时,蝗虫的产卵量y的估计值为e5.
11. (1) ① 因为模型①残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型②的窄,所以模型①的拟合精度更高,回归方程的预报精度相应就会越高,故选模型①比较合适.
(2)=e0.3x-4.6 令z=ln y,则z=+x,所以===0.3,=-=2.9-0.3×25=-4.6,则z关于x的线性回归方程为=0.3x-4.6,即ln y=0.3x-4.6,所以产卵数y关于温度x的经验回归方程为=e0.3x-4.6.
12. (1) 模型②lg f=k lg W+b最符合实际.
根据散点图的特征,图2基本上呈直线形式,所以可选择一次函数来刻画lg W和lg f的关系.
(2) lg 200=2+lg 2≈2.3,lg 2 000=3+lg 2≈3.3,lg 300=2+lg 3≈2.5,
由题意知
解得所以lg f=-lg W+,
所以f关于W的函数解析式为f=10·.
(3) 设马的体重和脉搏率分别为W1,f1,兔的体重和脉搏率分别为W2,f2,由题意知=256,
所以=====.
因为f2=200,所以f1=50,即马的脉搏率为50.
13. (1) 由题意,得==3,
==2.3,
=46.5,==1.2,
=2.3-1.2×3=-1.3,
所以经验回归方程为=1.2x-1.3.
(2) 由(1)可得=1.2x-1.3,
根据题意可得如下数据:
x 1 2 3 4 5
y 0.5 1 1.5 3 5.5
-0.1 1.1 2.3 3.5 4.7
模型①的残差平方和为0.62+(-0.1)2+(-0.8)2+(-0.5)2+0.82=1.9,
因为1.9>0.112 2,
所以模型②的拟合效果更好.
当x=6时,y=e0.59×6-1.27=e2.27≈9.68(千件),
故当年投入额为6百万元时,产品的销售量约为9.68千件.