课件51张PPT。第三章 统计案例第三章 统计案例相关关系画出两个变量的散点图求回归直线方程样本点的中心随机误差解释预报接近于1比较均匀越窄小线性回归方程线性回归分析非线性回归分析按ESC键退出全屏播放本部分内容讲解结束
[A 基础达标]
1.关于回归分析,下列说法错误的是( )
A.回归分析是研究两个具有相关关系的变量的方法
B.散点图中,解释变量在x轴,预报变量在y轴
C.回归模型中一定存在随机误差
D.散点图能明确反映变量间的关系
解析:选D.用散点图反映两个变量间的关系时,存在误差.
2.根据如下样本数据得到的回归方程为=x+,若=5.4,则x每增加1个单位,估计y( )
x
3
4
5
6
7
y
4
2.5
-0.5
0.5
-2
A.增加0.9个单位 B.减少0.9个单位
C.增加1个单位 D.减少1个单位
解析:选B.由题意可得,=5,=(4+2.5-0.5+0.5-2)=0.9,因为回归方程=x+,若=5.4,且回归直线过点(5,0.9),所以0.9=5+5.4,解得=-0.9,所以x每增加一个单位,估计y减少0.9个单位.
3.对具有线性相关关系的变量x,y有一组观测数据(xi,yi)(i=1,2,…,8),其回归直线方程是=x+,且x1+x2+x3+…+x8=2(y1+y2+y3+…+y8)=6,则实数的值是( )
A. B.
C. D.
解析:选C.因为x1+x2+x3+…+x8=6,y1+y2+y3+…+y8=3,所以=,=,所以样本点的中心坐标为,代入回归直线方程得=×+,解得=.
4.如图,5个(x,y)数据,去掉D(3,10)后,下列说法错误的是( )
A.相关系数r变大
B.残差平方和变大
C.相关指数R2变大
D.解释变量x与预报变量y的相关性变强
解析:选B.依据线性相关的有关知识可知,去掉数据D(3,10)后相关系数r变大;相关指数R2也变大;同时解释变量x与预报变量y的相关性也变强,相应的残差平方和变小.
5.若某地财政收入x与支出y满足线性回归方程y=bx+a+e(单位:亿元),其中b=0.8,a=2,|e|≤0.5.如果今年该地区财政收入10亿元,则年支出预计不会超过( )
A.10亿元 B.9亿元
C.10.5亿元 D.9.5 亿元
解析:选C.代入数据y=10+e,因为|e|≤0.5,
所以9.5≤y≤10.5,故不会超过10.5亿元.
6.某市居民2014~2018年家庭年平均收入x(单位:万元)与年平均支出y(单位:万元)的统计资料如表:
年份
2014
2015
2016
2017
2018
收入x
11.5
12.1
13
13.5
15
支出y
6.8
8.8
9.8
10
12
根据统计资料,居民家庭年平均收入的中位数是________,家庭年平均收入与年平均支出有________(填“正”或“负”)线性相关关系.
解析:把2014~2018年家庭年平均收入按从小到大顺序排列为11.5,12.1,13,13.5,15,因此中位数为13(万元),由统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正线性相关关系.
答案:13 正
7.关于变量x,y的一组样本数据(a1,b1),(a2,b2),…,(an,bn)(n≥2,a1,a2,…,an不全相等)的散点图中,若所有样本点(ai,bi)(i=1,2,…,n)恰好都在直线y=-2x+1上,则根据这组样本数据推断的变量x,y的相关系数为________.
解析:所有样本点都在直线上,说明这两个变量间完全负相关,故其相关系数为-1,故填-1.
答案:-1
8.某种产品的广告费支出x与销售额y(单位:万元)之间的关系如下表:
x
2
4
5
6
8
y
30
40
60
50
70
y与x的线性回归方程为=6.5x+17.5,当广告支出5万元时,随机误差的效应(残差)为________.
解析:因为y与x的线性回归方程为=6.5x+17.5,当x=5时,=50,当广告支出5万元时,由表格得y=60,故随机误差的效应(残差)为60-50=10.
答案:10
9.某个服装店经营某种服装,在某周内获纯利y(元)与该周每天销售这种服装件数x之间的一组数据关系见表:
x
3
4
5
6
7
8
9
y
66
69
73
81
89
90
91
已知x=280,xiyi=3 487.
(1)求,;
(2)已知纯利y与每天销售件数x线性相关,试求出其回归方程.
解:(1)==6,
==.
(2)因为y与x有线性相关关系,
所以===4.75,
=-6×4.75=≈51.36.
故回归方程为=4.75x+51.36.
10.某企业为了对新研发的一批产品进行合理定价,将产品按事先拟定的价格进行试销,得到一组销售数据(xi,yi)(i=1,2,…,6),如表所示:
试销单价x/元
4
5
6
7
8
9
产品销量y/件
q
84
83
80
75
68
已知=80,
(1)求q的值;
(2)已知变量x,y具有线性相关性,求产品销量y关于试销单价x的线性回归方程=x+.可供选择的数据xiyi=3 050,x=271.
(3)用表示(2)中所求的线性回归方程得到的与xi对应的产品销量yi的估计值.当销售数据(xi,yi)(i=1,2,…,6)对应的残差的绝对值|i-yi|≤1时,则将销售数据(xi,yi)称为一个“好数据”.试求这6组销售数据中的“好数据”.
参数数据:线性回归方程中,的最小二乘估计分别是=,=-.
解:(1)因为=,
又因为=80,所以=80,
所以q=90.
(2)==.
所以==-4,
所以=80-(-4)×=106,所以=-4x+106.
(3)因为=-4x+106,
所以1=-4x1+106=90,|1-y1|=|90-90|=0<1,
所以(x1,y1)=(4,90)是好数据;
2=-4x2+106=86,|2-y2|=|86-84|=2>1,
所以(x2,y2)=(5,84)不是好数据;
3=-4x3+106=82,|3-y3|=|82-83|=1=1,
所以(x3,y3)=(6,83)是好数据;
4=-4x4+106=78,|4-y4|=|78-80|=2>1,
所以(x4,y4)=(7,80)不是好数据;
5=-4x5+106=74,|5-y5|=|74-75|=1=1,
所以(x5,y5)=(8,75)是好数据;
6=-4x6+106=70,|6-y6|=|70-68|=2>1,
所以(x6,y6)=(9,68)不是好数据;
所以好数据为(4,90),(6,83),(8,75).
[B 能力提升]
11.对于给定的样本点所建立的模型A和模型B,它们的残差平方和分别是a1,a2,R2的值分别为b1,b2,下列说法正确的是( )
A.若a1
B.若a1C.若a1b2,A的拟合效果更好
D.若a1b2,B的拟合效果更好
解析:选C.由残差平方和以及R2的定义式可得若a1b2,A的拟合效果更好.
12.某品牌手机销售商今年1,2,3月份的销售量分别是1万部,1.2万部,1.3万部,为估计以后每个月的销售量,以这三个月的销售为依据,用一个函数模拟该品牌手机的销售量y(单位:万部)与月份x之间的关系,现从二次函数y=ax2+bx+c(a≠0)或函数y=abx+c(b>0,b≠1)中选用一个效果好的函数进行模拟,如果4月份的销售量为1.37万部,则5月份的销售量为________万部.
解析:由题意可得,当选用函数f(x)=ax2+bx+c时,解得
所以f(x)=-0.05x2+0.35x+0.7,f(4)=1.3,
当选用函数g(x)=abx+c时
解得
所以g(x)=-0.8×0.5x+1.4,g(4)=1.35,
因为g(4)更接近于1.37,选用函数g(x)=abx+c拟合效果较好,所以g(5)=1.375,5月份的销售量为1.375万部.
答案:1.375
13.(2018·高考全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:y^=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:y^=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
解:(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元).
利用模型②,该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
14.(选做题)某地区不同身高的未成年男性的体重平均值如表所示:
身高x(cm)
60
70
80
90
100
110
体重y(kg)
6.13
7.90
9.99
12.15
15.02
17.50
身高x(cm)
120
130
140
150
160
170
体重y(kg)
20.92
26.86
31.11
38.85
47.25
55.05
(1)试建立y与x之间的回归方程;
(2)如果体重超过相同身高男性体重平均值的1.2倍为偏胖,低于0.8倍为偏瘦,那么这个地区一名身高175 cm、体重82 kg的在校男生体重是否正常?
解:(1)根据题表中的数据画出散点图如图所示.
由图可看出,样本点分布在某条指数函数曲线y=c1ec2x的周围,
于是令z=ln y,得下表:
x
60
70
80
90
100
110
z
1.81
2.07
2.30
2.50
2.71
2.86
x
120
130
140
150
160
170
z
3.04
3.29
3.44
3.66
3.86
4.01
作出散点图如图所示:
由表中数据可得z与x之间的回归直线方程为=0.662 5+0.020x,
则有=e0.662 5+0.020x.
(2)当x=175时,预报平均体重为=e0.662 5+0.020×175≈64.23,
因为64.23×1.2≈77.08<82,所以这个男生偏胖.