8.2一元线性回归模型及其应用
基 础 练
巩固新知 夯实基础
1.下列说法中表述恰当的个数为( )
①R2可以刻画回归模型的拟合效果,R2越接近于1,说明模型的拟合效果越好;
②在线性回归模型中,R2表示解释变量对于预报变量的贡献率,R2越接近于1,表示解释变量和预报变量的线性相关关系越强;
③若残差图中个别点的残差比较大,则应确认在采集样本点的过程中是否有人为的错误或模型是否恰当.
A.0 B.1
C.2 D.3
2.已知x,y之间的数据如下表所示,则y与x之间的线性回归方程过点( )
x 1.08 1.12 1.19 1.28
y 2.25 2.37 2.40 2.55
A.(0,0) B.(1.167 5,0)
C.(0,2.392 5) D.(1.167 5,2.392 5)
3.已知具有线性相关关系的变量x,Y满足一组数据如表所示.若Y关于x的经验回归方程为=3x-1.5,则m的值为( )
x 0 1 2 3
Y -1 1 m 8
A.4 B. C.5 D.6
4.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R2分别如表:
甲 乙 丙 丁
R2 0.98 0.78 0.50 0.85
哪位同学建立的回归模型拟合效果最好( )
A.甲 B.乙 C.丙 D.丁
5.观测两个相关变量,得到如下数据:
x -1 -2 -3 -4 -5 5 4 3 2 1
y -0.9 -2 -3.1 -3.9 -5.1 5 4.1 2.9 2.1 0.9
则两变量之间的线性回归方程为( )
A.=0.5x-1 B.=x
C.=2x+0.3 D.=x+1
6.一位母亲记录了儿子3~9岁的身高,数据(略),由此建立的身高与年龄的回归模型为=7.19x+73.93,用这个模型预测这个孩子10岁时的身高,则正确的叙述是( )
A.身高一定是145.83 cm B.身高在145.83 cm以上
C.身高在145.83 cm左右 D.身高在145.83 cm以下
7.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为 =0.85x-85.71,则下列结论中不正确的是( )
A.y与x具有正的线性相关关系
B.回归直线过样本中心点(,)
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg
8.某种产品的广告费支出x与销售额y(单位:万元)之间有下表关系
x 2 4 5 6 8
y 30 40 60 50 70
y与x的线性回归方程为 =6.5x+17.5,当广告支出5万元时,随机误差的效应(残差)为 .
9.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y=ebx+a的周围,令z=lny,求得回归直线方程为 =0.25x-2.58,则该模型的回归方程为 .
10.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元) 8 8.2 8.4 8.6 8.8 9
销量y(件) 90 84 83 80 75 68
(1)求回归直线方程 = x+,其中 =-20, =- ;
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)
能 力 练
综合应用 核心素养
11.下列说法不正确的是( )
A.回归分析中,R2的值越大,说明残差平方和越小
B.若一组观测值(x1,y1),(x2,y2),…,(xn,yn)满足yi=bxi+a+ei(i=1,2,…,n),若ei恒为0,则R2=1
C.回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法
D.画残差图时,纵坐标为残差,横坐标一定是编号
12.(2020·深圳一模)某食品研究部门为了解一种酒品的储藏年份与芳香度之间的相关关系,在市场上收集到了一部分不同年份的该酒品,并测定了其芳香度(如表).
年份x 0 1 4 5 6 8
芳香度y 1.3 1.8 5.6 7.4 9.3
由最小二乘法得到回归方程=1.03x+1.13,但不小心在检测后滴到表格上一滴检测液,污损了一个数据,请你推断该数据为( )
A.6.1 B.6.28
C.6.5 D.6.8
13.2020年初,新型冠状病毒引起的肺炎疫情暴发以来,各地医疗机构采取了各种针对性的治疗方法,取得了不错的成效,某地开始使用中西医结合方法后,每周治愈的患者人数如表所示:
周数(x) 1 2 3 4 5
治愈人数(Y) 2 17 36 103 142
由表格可得Y关于x的非线性经验回归方程为=6x2+a,则此回归模型第4周的残差(实际值与预报值之差)为( )
A.5 B.-13 C.13 D.0
14.在生物学上,有隔代遗传的现象.已知某数学老师的体重为62 kg,他的曾祖父、祖父、父亲、儿子的体重分别为58 kg、64 kg、58 kg、60 kg.如果体重是隔代遗传,且呈线性相关,根据以上数据可得解释变量x与预报变量的回归方程为=x+,其中=0.5,据此模型预测他的孙子的体重约为( )
A.58 kg B.61 kg C.65 kg D.68 kg
15.对具有线性相关关系的变量x,y有一组观测数据(xi,yi)(i=1,2,…,8),其回归直线方程为 =x+,且x1+x2+…+x8=2(y1+y2+…+y8)=6,则实数 等于( )
A. B.
C. D.
16.已知n组成对样本数据确定的经验回归方程为=-x+2且=4,通过残差分析,发现两组成对样本数据(-1.7,2.9),(-2.3,5.1)误差较大,除去这两组成对样本数据后,重新求得经验回归直线的斜率估计值为-1.5,则当x=-4时,=________.
17.以模型y=cekx去拟合一组数据时,为了求出非经验回归方程,设z=ln y,其变换后得到经验回归方程=0.3x+4,则c=________.
18.某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得,i=60,i=1 200,(xi-)2=80,(yi-)2=9 000,(xi-)(yi-)=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数r=,≈1.414.
【参考答案】
1.D 解析:由回归分析的相关概念知①②③都正确.
2.D 解析:线性回归方程一定经过样本点的中心(,).
3.A 解析:由题意可知,样本点的中心一定在回归直线上,所以代入方程可得m=4.
4.A 解析:相关指数R2越大,表示回归模型的效果越好.
5.B 解析:因为=0,==0,根据回归直线方程必经过样本中心点(,)可知,回归直线方程过点(0,0),所以选B.
6.C 解析:将x的值代入回归方程=7.19x+73.93时,得到的值是年龄为x时,身高的估计值,故选C.
7. D 解析:D选项中,若该大学某女生身高为170 cm,则可断定其体重约为:0.85×170-85.71=58.79 kg.故D不正确.
8. 10 解析:因为y与x的线性回归方程为 =6.5x+17.5,当x=5时, =50,当广告支出5万元时,由表格得:y=60,故随机误差的效应(残差)为60-50=10.
9. =e0.25x-2.58 解析:由z=lny, =0.25x-2.58,得ln =0.25x-2.58,∴ =e0.25x-2.58.故该模型的回归方程为 =e0.25x-2.58.
10. 解:(1)==8.5,==80.又 =-20, =80-(-20)×8.5=250.
∴ =-20x+250.
(2)设工厂获得利润为z元.则z=(x-4)· =(x-4)(-20x+250)=-20(x-)2+361.25.即x==8.25元时工厂获利润最大.
11. D 解析:残差图中横坐标可以是样本编号,也可以是身高数据,还可以是体重估计值等,故选D.
12.A 解析:由表中数据:=(0+1+4+5+6+8)=4,回归方程=1.03x+1.13,
∴=1.03×4+1.13=5.25,∴=(1.3+1.8+5.6+?+7.4+9.3)=5.25,解:?=6.1.故选A.
13.C解析:因为=(1+4+9+16+25)=11,=(2+17+36+103+142)=60,所以a=60-6×11=-6,则Y关于x的非线性经验回归方程为=6x2-6.取x=4,得=6×42-6=90,所以此回归模型第4周的预报值为90,则此回归模型第4周的残差为103-90=13.
14.B解析:由于体重是隔代遗传,且呈线性相关,则取数据(58,58),(64,62),(58,60),
得==60,==60,即样本点的中心为(60,60),代入=x+,得=60-0.5×60=30,则=0.5x+30,取x=62,可得=0.5×62+30=61 kg.故预测他的孙子的体重约为61 kg.
15.B 解析:由x1+x2+…+x8=2(y1+y2+…+y8)=6,得=,=.由于回归直线方程 =x+ 过样本点的中心(,),则=+,解得 =.
16. 7 解析:由样本数据点集{(xi,yi)|i=1,2,…,n}求得的经验回归方程为=-x+2,且=4,所以=-2,故数据的样本中心点为(-2,4),去掉(-1.7,2.9),(-2.3,5.1),重新求得的经验回归直线的斜率估计值为-1.5,经验回归方程设为:=-1.5x+,代入(-2,4),求得=1,所以经验回归直线的方程为:y=-1.5x+1,将x=-4代入经验回归方程,求得y的估计值为-1.5×(-4)+1=7.
17. e4 解析:由题意,得ln(cekx)=0.3x+4,所以ln c+kx=0.3x+4,所以ln c=4,所以c=e4.
18. 解: (1)样区野生动物平均数为i=×1 200=60,
地块数为200,该地区这种野生动物的估计值为200×60=12 000.
(2)样本(xi,yi)(i=1,2,…,20)的相关系数为r===≈0.94.
(3)由(2)知各样区的这种野生动物的数量与植物覆盖面积有很强的正相关性,由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物的数量差异很大,采用分层抽样的方法较好地保持了样本结构与总体结构得以执行,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.