课件53张PPT。第一章 统计案例第一章 统计案例相关关系求回归直线方程预报样本点的中心随机误差预报接近于1比较均匀越高越好本部分内容讲解结束按ESC键退出全屏播放 [A 基础达标]
1.在画两个变量的散点图时,下列叙述正确的是( )
A.预报变量在x轴上,解释变量在y轴上
B.解释变量在x轴上,预报变量在y轴上
C.可以选择两个变量中任意一个变量在x轴上
D.可以选择两个变量中任意一个变量在y轴上
解析:选B.结合线性回归模型y=bx+a+e可知,解释变量在x轴上,预报变量在y轴上.
2.四名同学根据各自的样本数据研究变量x,y之间的相关关系,求得回归直线方程,并分别得到以下四个结论:
①y与x负相关且=2.347x-6.423;
②y与x负相关且=-3.476x+5.648;
③y与x正相关且=5.437x+8.493;
④y与x正相关且=-4.326x-4.578.
其中一定不正确的结论的序号是( )
A.①② B.②③
C.③④ D.①④
解析:选D.x的系数符号决定变量x,y之间的正、负相关关系,x的系数大于0为正相关,小于0为负相关,易知①④不正确.
3.对两个变量y和x进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),…,(xn,yn),则下列说法中不正确的是( )
A.由样本数据得到的线性回归方程=x+必过样本点的中心(,)
B.残差平方和越小的模型,拟合的效果越好
C.用相关指数R2来刻画回归效果,R2的值越小,说明模型的拟合效果越好
D.若变量y和x之间的相关系数r=-0.936 2,则变量y与x之间具有线性相关关系
解析:选C.R2的值越接近1,说明残差平方和越小,也就是说模型的拟合效果越好.
4.如图所示的是一组观测值的四个线性回归模型对应的残差图,则对应的线性回归模型的拟合效果最好的残差图是( )
解析:选A.残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,所以选A.
5.某产品的广告费用x与销售额y的统计数据如表:
广告费用x(万元)
4
2
3
5
销售额y(万元)
49
26
39
54
根据上表可得线性回归方程=x+中的为9.4,据此模型预测广告费用为6万元时销售额为( )
A.63.6万元 B.65.5万元
C.67.7万元 D.72.0万元
解析:选B.由表可计算==,==42,因为点在回归直线=x+上,且为9.4,所以42=9.4×+,解得=9.1,故线性回归方程为=9.4x+9.1,令x=6,得=65.5.
6.如果散点图中的所有的点都在一条斜率不为0的直线上,则残差为________,相关指数R2=________.
解析:由题意知,yi=i,所以相应的残差i=yi-i=0.
相关指数R2=1-=1.
答案:0 1
7.已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线方程是________.
解析:斜率的估计值为1.23,且回归直线一定经过样本点的中心(4,5),可得-5=1.23(x-4),即=1.23x+0.08.
答案:=1.23x+0.08
8.若对于变量y与x的10组统计数据的回归模型,R2=0.95,又知残差平方和为120.53,那么(yi-)2的值为________.
解析:由R2=1-得1-=0.95,得(yi-)2=2 410.6.
答案:2 410.6
9.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如表数据:
单价x(元)
8
8.2
8.4
8.6
8.8
9
销售y(件)
90
84
83
80
75
68
(1)求线性回归直线方程=x+,其中=-20,=-;
(2)预计在今后的销售中,销售与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)
解:(1)由于=(8+8.2+8.4+8.6+8.8+9)=8.5,
=(90+84+83+80+75+68)=80,
又=-20,
所以=-=80+20×8.5=250,
从而线性回归直线方程为=-20x+250.
(2)设工厂获得的利润为L元,依题意得
L=x(-20x+250)-4(-20x+250)
=-20x2+330x-1 000
=-20(x-8.25)2+361.25.
当且仅当x=8.25时,L取得最大值.
故当单价定为8.25元时,工厂可获得最大利润.
10.已知某商品的价格x(元)与需求量y(件)之间的关系有如下一组数据:
x
14
16
18
20
22
y
12
10
7
5
3
(1)画出y关于x的散点图;
(2)求出回归直线方程;
(3)计算R2的值,并说明回归模型拟合程度的好坏.(参考数据:=18,=7.4,x=1660, y=327, xiyi=620, (yi-i)2=0.3,(yi-)2=53.2)
解:(1)散点图如图所示:
(2)因为=18,=7.4,x=1 660,, xiyi=620,
所以==-1.15
=-=28.1.
即所求回归直线方程为:
-1.15x+28.1.
(3)因为(yi-i)2=0.3,
(yi-)2=53.2,
所以R2=1-≈0.994,
故回归模型的拟合效果较好.
[B 能力提升]
11.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
收入x(万元)
8.2
8.6
10.0
11.3
11.9
支出y(万元)
6.2
7.5
8.0
8.5
9.8
根据上表可得回归直线方程=x+,其中=0.76,=-.据此估计,该社区一户年收入为15万元家庭的年支出为( )
A.11.4万元 B.11.8万元
C.12.0万元 D.12.2万元
解析:选B.先求,再利用回归直线方程预测.
由题意知,
==10,
==8,
所以=8-0.76×10=0.4,
所以当x=15时,=0.76×15+0.4=11.8(万元).
12.关于x与y有如下数据:
x
2
4
5
6
8
y
30
40
60
50
70
为了对x,y两个变量进行统计分析,现有以下两种线性模型:甲:=6.5x+17.5,乙:=7x+17,则________(填“甲”或“乙”)模型拟合的效果更好.
解析:设甲模型的相关指数为R,则R=1-=1-=0.845;
设乙模型的相关指数为R,
则R=1-=0.82.
因为0.845>0.82,即R>R,所以甲模型拟合效果更好.
答案:甲
13.假定小麦基本苗数x与成熟期有效穗数y之间存在相关关系,今测得5组数据如下:
x
15.0
25.8
30.0
36.6
44.4
y
39.4
42.9
42.9
43.1
49.2
(1)以x为解释变量,y为预报变量,作出散点图;
(2)求y与x之间的回归方程,对于基本苗数56.7预报有效穗数;
(3)计算各组残差,并计算残差平方和;
(4)求相关指数R2,并说明残差变量对有效穗数的影响占百分之几.
解:(1)散点图如下.
(2)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.
设回归方程为=x+,=30.36,=43.5,
x=5 101.56
=1 320.66, 2=1 892.25,2=921.729 6, xiyi=6 746.76.
由=≈0.29,=-≈34.70.
故所求的回归直线方程为=34.70+0.29x.
当x=56.7时,=34.70+0.29×56.7=51.143.
因此估计成熟期的有效穗数为51.143.
(3)由ei=yi-i,可分别求得e1=0.35,e2=0.718,e3=-0.50,e4=-2.214,e5=1.624,
残差平方和:(yi-i)2=8.427 196.
(4)可得:(yi-)2=50.18,
所以R2=1-≈0.832.
所以解释变量(小麦基本苗数)对预报变量(成熟期有效穗数)约贡献了83.2%,
残差变量贡献了约1-83.2%=16.8%.
14.(选做题)为了研究某种细菌随时间x变化时,繁殖个数y的变化,收集数据如下:
时间x/天
1
2
3
4
5
6
繁殖数y/个
6
12
25
49
95
190
(1)用时间x作解释变量,繁殖个数y作预报变量,作出这些数据的散点图;
(2)描述解释变量x与预报变量y之间的关系;
(3)计算R2.
解:(1)所作散点图如图所示.
(2)由散点图看出样本点分布在一条指数函数y=c1ec2x的周围,于是令z=ln y,则
x
1
2
3
4
5
6
z
1.79
2.48
3.22
3.89
4.55
5.25
故=0.69x+1.115,则有=e0.69x+1.115.
(3)
6.08
12.12
24.17
48.18
96.06
191.52
y
6
12
25
49
95
190
=( yi-i)2=4.816 1
(yi-)2=24 642.8,R2=1-≈0.999 8,
即解释变量时间对预报变量繁殖个数解释了99.98%.