4.3 统计模型
4.3.1 一元线性回归模型
第1课时 相关关系与回归直线方程
一、选择题
1.若回归直线方程为=2-1.5x,则变量x 增加1个单位时 ( )
A.平均增加1.5个单位
B.平均增加2个单位
C.平均减少1.5个单位
D.平均减少2个单位
2.为了解某商品的销售量y(件)与销售价格x(元/件)的关系,统计了(x,y)的10组数据,并画成散点图如图,则y关于x的回归直线方程可能是 ( )
A.=-10x-198 B.=-10x+198
C.=10x+198 D.=10x-198
3.[2023·广西百色高二期末] 具有线性相关关系的变量x,y的回归方程为=2-x,则下列选项正确的是 ( )
A.变量x与y是函数关系
B.变量x与y正相关
C.当x=4时,y的预测值为2
D.若x增加1个单位,则y约减少1个单位
4.某同学在研究性学习中,收集到某制药厂今年前5个月甲胶囊的产量(单位:万盒)的数据如下表所示:
月份x 1 2 3 4 5
产量y(万盒) 5 5 6 6 8
通过上面五组数据得到y关于x的回归直线方程为=0.7x+,预测该制药厂今年7月份甲胶囊的产量为 ( )
A.7.3万盒 B.7.8万盒
C.8.3万盒 D.8.8万盒
5.已知x,y之间的一组数据如下表所示.
x 2 3 4 5 6
y 3 4 6 8 9
则y关于x的回归直线方程的是 ( )
A.=x+1 B.=2x-1
C.=x- D.=x+1
6.已知两个变量x和y之间具有线性相关关系,经调查得到如下样本数据.
x 3 4 5 6 7
y 3.5 2.4 1.1 -0.2 -1.3
根据表格中的数据求得回归直线方程为=x+,则下列说法中正确的是 ( )
A.>0,>0 B.>0,<0
C.<0,>0 D.<0,<0
7.由表中三个样本点通过最小二乘法计算得到y关于x的回归直线方程为=2x+,且当x=10时,=23,则2m-n= ( )
x 12 m 13
y 27 25 n
A.6 B.-6 C.7 D.-7
8.(多选题)某公司为了增加某商品的销售利润,调查了该商品投入的广告费用x(万元)与销售利润y(万元)的统计数据,如下表所示,由表中数据得y关于x的回归直线方程为=x+,则下列结论正确的是 ( )
广告费用x/万元 3 4 6 7
销售利润y/万元 6 8 10 12
A.>0
B.>0
C.回归直线必过点(5,9)
D.回归直线必过点(3,6)
9.(多选题)已知y关于x的回归直线方程为=0.7x+1.05,且变量x,y之间的一组相关数据如下表所示,则下列说法正确的是 ( )
x 2 3 4 5
y 2.5 3 m 4.5
A.m=4
B.回归直线必过点(3.5,3.5)
C.x与y正相关
D.当x=10时,y的估计值为9.05
二、填空题
10.[2023·成都双流中学高二月考] 某商品的广告费用x(万元)与销售额y(万元)的统计数据如下表:
广告费用x(万元) 2 3 5 6
销售额y(万元) 28 31 41 48
根据表中数据可得回归直线方程为=5x+,则预测当广告费用为8万元时,销售额为 万元.
11.某同学收集了具有线性相关关系的两个变量x,y的一组样本数据(xi,yi)(i=1,2,…,10),经计算得到回归直线方程为=-2x+,且xi=20,yi=-25,则= .
12.已知由一组样本数据确定的回归直线方程为=1.5x+1,且=2,发现有两组数据(2.2,2.9)与(1.8,5.1)的误差较大,去掉这两组数据后,重新求得的回归直线的斜率为1,那么当x=4时,y的估计值为 .
三、解答题
13.[2023·四川广安二中高二月考] 为加强社区居民的垃圾分类意识,推动社区垃圾正确投放,某社区在健身广场举办了“垃圾分类,从我做起”生活垃圾分类大型宣传活动,号召社区居民用实际行动为建设绿色家园贡献一份力量,为此需征集一部分垃圾分类志愿者.某垃圾站的日垃圾分拣量y(千克)与垃圾分类志愿者人数x(人)的数据统计如下:
志愿者人数x(人) 2 3 4 5 6
日垃圾分拣量y(千克) 25 30 40 45 60
通过观察散点图,发现日垃圾分拣量y(千克)与垃圾分类志愿者人数x(人)具有线性相关关系.
(1)求y关于x的回归直线方程;
(2)预测日垃圾分拣量为80千克时,需要的垃圾分类志愿者人数.
参考公式:=,=-.
14.[2024·辽宁盘锦辽东湾高中高二月考] 某科技公司研发了一项新产品A,销售小组进行市场调研,对公司1月份至6月份产品A的销售量及销售单价进行统计,销售单价x(千元)和销售量y(千件)之间的一组数据如下表所示.
月份i 1 2 3 4 5 6
销售单价xi 9 9.5 10 10.5 11 8
销售量yi 11 10 8 6 5 15
(1)试根据1至5月份的数据,建立y关于x的回归直线方程;
(2)若由回归直线方程得到的估计数据与剩下的检验数据的误差不超过0.65,则认为所得到的回归直线方程是理想的,试问(1)中所得到的回归直线方程是否理想
参考公式:在=x+中,=,=-.
参考数据:xiyi=392,=502.5.
15.某校为了解本校高一男生身高和体重的相关关系,在该校高一年级随机抽取了7名男生,测量了他们的身高和体重统计得到下表.
身高x (单位:cm) 167 173 175 177 178 180 181
体重y (单位:kg) 90 54 59 64 67 72 76
由表格制作如图所示的散点图:
由最小二乘法计算得到回归直线l1的方程为=x+;经过残差分析,点(167,90)对应残差过大,把它去掉后,再用剩下的6组数据计算得到回归直线l2的方程为=x+.则下列选项正确的是 ( )
A.<,>
B.<,<
C.>,<
D.>,>
16.[2023·江苏常州高二期末] 已知两个变量y与x线性相关,某研究小组为得到其具体的线性关系进行了10次试验,得到10个样本点,研究小组去掉了明显偏差较大的2个样本点,剩余的8个样本点(xi,yi)(i=1,2,3,…,8)满足xi=32,yi=132,根据这8个样本点求得的线性回归方程为=3x+.后为稳妥起见,研究小组又增加了2次试验,得到2个偏差较小的样本点(2,11),(6,22),根据这10个样本点重新求得线性回归方程为=x+.
(1)求的值;
(2)证明:回归直线=x+经过点(4,16.5).
4.3 统计模型
4.3.1 一元线性回归模型
第1课时 相关关系与回归直线方程
1.C [解析] 因为回归直线方程为=-1.5x+2,回归直线的斜率为-1.5,所以变量x增加1个单位时,平均减少1.5个单位.故选C.
2.B [解析] 设y关于x的回归直线方程为=x+,则由题图知<0,>0,故B满足题意.故选B.
3.D [解析] 变量x与y是相关关系,不是函数关系,所以A不正确;变量x与y负相关,所以B不正确;当x=4时,y的预测值为-2,所以C不正确;若x增加1个单位,则y约减少1个单位,所以D正确.故选D.
4.D [解析] 由题知==3,==6,将其代入=0.7x+中,得=6-0.7×3=3.9,故y关于x的回归直线方程为=0.7x+3.9,当x=7时,=0.7×7+3.9=8.8.故选D.
5.C [解析] 由题得==4,==6,经验证可知,=x+1,=2x-1,=x-,=x+1这四条直线中过点(4,6)的只有=x-.故选C.
6.B [解析] 由已知数据可知y随着x的增大而减小,则变量x和y负相关,所以<0.因为=×(3+4+5+6+7)=5,=×(3.5+2.4+1.1-0.2-1.3)=1.1,所以1.1=5+,则=1.1-5>0.故选B.
7.D [解析] ∵当x=10时,=23,∴23=20+,解得=3,即=2x+3.∵==,==,∴=2×+3,∴2m-n=-7.故选D.
8.ABC [解析] 由表格数据得==5,==9,所以回归直线必过点(5,9),故C正确,D错误;===1.4,则9=1.4×5+,解得=2,故A,B正确.故选ABC.
9.ABC [解析] 由题知,==3.5,则=0.7×3.5+1.05=3.5,又==,所以=3.5,解得m=4,故A正确;回归直线必过点(3.5,3.5),故B正确;由回归直线方程为=0.7x+1.05知x与y正相关,故C正确;当x=10时,=0.7×10+1.05=8.05,故D错误.故选ABC.
10.57 [解析] 由题知,==4,==37,所以37=5×4+,解得=17,所以预测当广告费用为8万元时,销售额为5×8+17=57(万元).
11. [解析] 由题意知,=xi=2,=yi=-,所以=-+2×2=.
12.6 [解析] ∵=2,∴=1.5×2+1=4.由题意知去掉两组数据(2.2,2.9)和(1.8,5.1)后,和没变,设重新求得的回归直线方程为=x+,将(2,4)代入,解得=2,则=x+2,∴当x=4时,=4+2=6.
13.解:(1)由题知==4,==40,(xi-)(yi-)=(2-4)×(25-40)+(3-4)×(30-40)+(4-4)×(40-40)+(5-4)×(45-40)+(6-4)×(60-40)=85,
(xi-)2=(2-4)2+(3-4)2+(4-4)2+(5-4)2+(6-4)2=10,所以===8.5,=-=40-8.5×4=6.所以回归直线方程为=8.5x+6.
(2)当y=80时,80=8.5x+6,解得x≈9.
所以需要的垃圾分类志愿者人数为9.
14.解:(1)因为=×(9+9.5+10+10.5+11)=10,=×(11+10+8+6+5)=8,所以==-3.2,所以=8-(-3.2)×10=40,
所以y关于x的回归直线方程为=-3.2x+40.
(2)当x=8时,=-3.2×8+40=14.4,
则|-y|=|14.4-15|=0.6<0.65,
所以可以认为所得到的回归直线方程是理想的.
15.A [解析] 身高的平均数为=≈176,因为点(167,90)的横坐标167小于平均值176,纵坐标90相对过大,所以去掉(167,90)后回归直线的纵截距变小而斜率变大,故<,>.故选A.
16.解:(1)由题知=xi=×32=4,=yi=×132=16.5,则=-3=16.5-3×4=4.5.
(2)证明:样本点(2,11),(6,22)分别记为(x9,y9),(x10,y10),则这10个样本点横坐标的平均数'=xi=(x9+x10+xi)=×(2+6+32)=4,纵坐标的平均数'=yi=(y9+y10+yi)=×(11+22+132)=16.5,
所以回归直线=x+经过点(4,16.5).第2课时 相关系数与非线性回归
一、选择题
1.若回归直线的斜率∈(0,+∞),则相关系数r的取值范围是 ( )
A.(0,1] B.[-1,0)
C.(0,+∞) D.无法确定
2.在一项调查中有两个变量x和y,图是由这两个变量近8年来的取值数据得到的散点图,那么适宜作为y关于x的回归模型的是 ( )
A.y=a+bx B.y=c+d
C.y=m+nx2 D.y=p+qcx(q>0)
3.在建立两个变量y与x的回归模型时,分别选取了4个不同的模型,模型1的相关系数为0.88,模型2的相关系数为0.66,模型3的相关系数为0.945,模型4的相关系数为0.01,其中拟合效果最好的模型是 ( )
A.模型1 B.模型2
C.模型3 D.模型4
4.[2023·辽宁东北育才学校高二期末] 某科技公司为加强研发能力,研发费用逐年增加,最近6年的研发费用y(单位:亿元)与年份编号x的样本数据为(xi,yi)(i=1,2,3,4,5,6),令zi=ln yi,并将(xi,zi)绘制成如图所示的散点图.若y关于x的回归方程为=,则 ( )
A.>1,>0 B.>1,<0
C.0<<1,>0 D.0<<1,<0
5.[2023·四川宜宾南溪一中高二期末] 下表为某外来物种入侵某河流生态后前3个月的繁殖数量y(单位:百只)的数据,通过相关理论进行分析,可用模型y=e1+at(a∈R)对y与t的关系进行拟合,则根据该回归模型,预测第7个月该物种的繁殖数量为 ( )
第t个月 1 2 3
繁殖数量y(单位:百只) e1.4 e2.2 e2.4
A.e3百只 B.e3.5百只
C.e4百只 D.e4.5百只
6.[2023·湖北随州高二期末] 某兴趣小组研究光照时长x(单位:h)和向日葵种子发芽数量y(单位:颗)之间的关系,采集到5组数据,作出如图所示的散点图.若去掉点D(10,2)后,下列说法正确的是 ( )
A.相关系数r的绝对值变小
B.相关系数r的值不变
C.残差平方和变大
D.x与y的线性相关性变强
7.[2023·四川仁寿文宫中学高二月考] 某企业推出了一款新食品,为了解该食品中某种营养成分的含量x(单位:克)与顾客的满意率y的关系,通过调查研究发现可选择函数模型y=ekx+c来拟合y与x的关系,根据以下数据可求得y关于x的回归方程为 ( )
营养成分含量x/克 1 2 3 4 5
ln(100y) 4.34 4.36 4.44 4.45 4.51
A.y=e0.043x+4.291 B.y=e0.043x-4.291
C.y=e0.043x+4.291 D.y=e0.043x-4.291
8.(多选题)[2023·山东潍坊高二期末] 下列说法正确的是 ( )
A.回归直线方程=x+对应的回归直线至少经过其样本点数据中的一个点
B.若回归直线方程为=1.1x-5,则当x增大1个单位时,y增大1.1个单位
C.设两个变量x,y之间的线性相关系数为r,则|r|=1的充要条件是成对数据构成的点都在回归直线上
D.在残差的散点图中,残差分布的水平带状区域的宽度越窄,其模型的拟合效果越好
9.(多选题)为了研究某种病毒在特定环境下随时间变化的繁殖情况,得到了一些数据,绘制成散点图,发现用模型y=cekx拟合比较合适.令=ln y,得到=1.3x+,经计算发现x,z满足下表,则 ( )
x 2 3 4 5 6
z 1.5 4.5 5.5 6.5 7
A.c=e-0.2 B.k=1.3
C.c=e0.2 D.k=-1.3
二、填空题
10.若回归直线方程中的回归系数=0,则相关系数r= .
11.为宣传环保知识,加强垃圾分类的意识,某单位举行了环保知识问答竞赛,某人很喜欢“挑战答题”模块,他记录了自己连续七次每次最多答对的题数如下表:
第x次 1 2 3 4 5 6 7
每次最多答对题数y 12 15 16 18 21 24 27
参考数据:=4,=19,=140,=2695,xiyi=600,≈2.45,
相关系数r==.
由表中数据可知该人每次最多答对题数y与次数x之间是 相关(填“正”或“负”),其相关系数r≈ .(保留两位小数)
12.[2023·江西萍乡高二期末] 近几年预制菜市场快速增长.某城市调查近4个月的预制菜市场规模y(万元)得到如表所示的数据,根据数据得到y关于时间代码x的非线性回归方程为=.
x 1 2 3 4
y e3 e4 e5 e6
按照这样的速度,预估第8个月的预制菜市场规模为 万元.(结果用e表示)
三、解答题
13.某公司为适应市场并增强市场竞争力,逐年增加研发人员,使得整体研发创新能力持续提升,现对该公司2019~2023年的研发人数作了相关统计,如图.
2019~2023年公司的研发人数情况(年份代码1~5分别对应2019~2023年)
(1)根据条形统计图中数据,计算该公司研发人数y与年份代码x的相关系数r,并由此判断其相关性的强弱;
(2)试求出y关于x的线性回归方程,并预测2025年该公司的研发人数.(结果取整数)
参考数据:(yi-)2=55 960,≈37.4.
参考公式:相关系数r=.回归直线方程的斜率=,截距=-.
附:
|r| [0,0.25] (0.25,0.75) [0.75,1]
相关性 弱 一般 强
14.某机构调查了本地区不同身高(单位:厘米)的未成年男性,得到他们的体重(单位:千克)的平均值,并对数据做了初步处理,得到下面的散点图(如图)及一些统计量的值.
135 35.7 3.4 18 750
4000 1.6 3×108 1296
(xi-)(yi-) (xi-)(ωi-) (ui-)(yi-)
2375 76 6×105
(其中ω=ln y,u=x2)
(1)根据散点图判断回归方程①=·,②=+x2都可以作为这个地区未成年男性体重y与身高x的回归方程.请结合相关系数判断哪一个回归方程更合适 并说明理由.
(2)根据(1)的判断结果及表中的数据写出体重y与身高x的回归方程.
(3)若体重超过相同身高男性体重的平均值的1.2倍为偏胖,低于平均值的0.8为偏瘦,现该地区有一名身高170厘米的未成年男性,根据(2)中的结果请你给出一个合理建议,指出他的体重应该控制在多少千克的范围内
15.[2024·山东青岛高二期末] 为研究某池塘中水生植物的覆盖面积x(单位:dm2)与水生植物的株数y(单位:株)之间的相关关系,收集了4组数据,用模型y=cekx(c>0)去拟合x与y的关系.设z=ln y,x与z的数据如下表所示,得到x与z的回归直线方程为=1.2x+,则=( )
x 3 4 6 7
z 2 2.5 4.5 7
A.-2 B.-1
C.e-2 D.e-1
16.害虫防控对于提高农作物产量具有重要意义.已知某种害虫产卵数y(单位:个)与温度x(单位:℃)有关,测得一组数据(xi,yi)(i=1,2,…,20),可用模型y=c1进行拟合,利用z=ln y变换得到的回归直线方程为=0.3x+.若xi=600,ln yi=120,则的值为 .
第2课时 相关系数与非线性回归
1.A [解析] 由相关系数与回归直线的斜率之间的关系可知,相关系数r的取值范围是(0,1].故选A.
2.B [解析] 因为散点图中的点集中在一条曲线附近,且曲线的形状与函数y=的图象相似,所以选B.
3.C [解析] 由题得模型3的相关系数为0.945,其绝对值最接近于1,拟合效果最好.故选C.
4.A [解析] 由zi=ln yi,得z与x的回归直线方程为=x+ln .由散点图可知,z与x正相关,所以>0.由散点图可知,直线=x+ln 的纵截距大于0,即ln >0,所以>1.故选A.
5.D [解析] y=e1+at的两边取自然对数得ln y=1+at,令u=ln y,则u=1+at.=(ln y1+ln y2+ln y3)×=2,=(t1+t2+t3)×=2,∴2=2+1,解得=,∴=1+,则=.当t=7时,=e4.5.故选D.
6.D [解析] 由题图可知D(10,2)距离其他点较远,且其他点大致分布在一条直线附近,所以去掉点D(10,2)后,x与y的线性相关性变强.|r|越接近于1,线性相关性越强,所以去掉点D(10,2)后,相关系数r的绝对值变大,故A错误,B错误;去掉点D(10,2)后,x与y的线性相关程度变强,所以残差平方和变小,x与y的相关性变强,故C错误,D正确.故选D.
7.A [解析] 由y=ekx+c,得100y=ekx+c,两边同时取对数,得ln(100y)=kx+c.由表中数据可知==3,ln(100y)的平均数为=4.42.对于A,由y=e0.043x+4.291,得ln(100y)=0.043x+4.291,将=3代入,可得ln(100y)=0.043×3+4.291=4.42,与题中数据吻合,故A正确;对于B,由y=e0.043x-4.291,得ln(100y)=0.043x-4.291,将=3代入,可得ln(100y)=0.043×3-4.291=-4.162≠4.42,故B错误;对于C,由y=e0.043x+4.291,得ln y=0.043x+4.291,而表中所给数据为ln(100y)的相关量,故C错误;对于D,由y=e0.043x-4.291,得ln y=0.043x-4.291,而表中所给数据为ln(100y)的相关量,故D错误.故选A.
8.CD [解析] 对于A,回归直线方程=x+对应的回归直线有可能不经过其样本点数据中的任意一个点,故A不正确;对于B,回归直线方程为=1.1x-5,则当x增大1个单位时,增大1.1个单位,故B不正确;对于C,设两个变量x,y之间的线性相关系数为r,则|r|=1的充要条件是成对数据构成的点都在回归直线上,故C正确;对于D,在残差的散点图中,残差分布的水平带状区域的宽度越窄,其模型的拟合效果越好,故D正确.故选CD.
9.AB [解析] 因为==4,==5,所以直线=1.3x+过点(4,5),可得=5-1.3×4=-0.2,由=ln y,y=cekx,得=ln(cekx)=kx+ln c,所以k=1.3,ln c=-0.2,即c=e-0.2.故选AB.
10.0 [解析] 相关系数r=,与=的分子相同,故r=0.
11.正 0.99 [解析] 由表中数据得y随x的增大而增大,所以该人每次最多答对题数y与次数x之间是正相关,r===≈≈0.99.
12.e10 [解析] 令z=ln y,由题得=x-.==,==,所以=-,解得=-2,所以=x+2.将x=8代入上式,得=10,所以=e10,所以预估第8个月预制菜市场规模为e10万元.
13.解:(1)由条形统计图得=×(1+2+3+4+5)=3,
=×(204+220+298+396+482)=320,
所以(xi-)2=(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2=10,(xi-)(yi-)=(-2)×(-116)+(-1)×(-100)+0×(-22)+1×76+2×162=732,所以r==
=≈≈0.98.
因为|r|接近1,所以y与x具有很强的线性相关关系.
(2)因为===73.2,
所以=-=320-73.2×3=100.4,
所以=73.2x+100.4.
由题意知,2025年对应的年份代码为7,
当x=7时,=73.2×7+100.4=612.8,
故预测2025年该公司的研发人数约为613.
14.解:(1)由=·,得ln =ln +xln ,令=ln ,则=ln +xln ,由题意可得其相关系数r1===0.95.
由=+x2,u=x2,得=+u,由题意可得其相关系数r2==≈0.96.因为0.96>0.95,所以y与u的线性相关性较强,
所以回归方程=+x2更合适.
(2)由(1)可知=+x2更适合作为这个地区未成年男性体重y与身高x的回归方程,则===0.002,=-=35.7-0.002×18 750=-1.8,所以=0.002x2-1.8.
(3)当x=170时,=0.002×1702-1.8=56.
因为56×0.8=44.856×1.2=67.2,所以该未成年男性的体重应控制在[44.8,67.2]内.
15.C [解析] 由已知可得,==5,==4,所以4=1.2×5+,解得=-2,所以=1.2x-2.由z=ln y,得ln =1.2x-2,所以=e1.2x-2=e-2·e1.2x,则=e-2.故选C.
16.e-3 [解析] 对y=c1两边同时取对数可得ln y=ln(c1)=ln c1+ln =c2x+ln c1,即=x+ln =0.3x+,可得=0.3,ln =.由xi=600,ln yi=120,可得=30,==6,代入=0.3x+,可得=-3,则ln ==-3,所以=e-3.