(共50张PPT)
第八章 成对数据的统计分析
因变量
响应变量
自变量
解释变量
截距
斜率
随机误差
经验回归直线
最小二乘法
残差
答案:A
丁
答案:A
答案:C
答案:B
+X
wuH
IV
1=0310
0:哪-D,90
Ta
g
+X)
1=10813
0-D900=m7
S03
y元
80
75
65
55
51015202530
x亿乙元
元线性经验回归方程的
回归模型「求法
经验回归经验回归方程拟
方程
知识
合效果的判断方方法
残差分析
法
决定系数R排线性经验回归
方程的求法
数据分析数学运算
素养或思想A级 基础巩固
1.已知利用回归分析得到两个变量x,y的经验回归方程为=0.8x-3.2,若其中有两对样本数据(6,1.5),(10,5),则这两对样本数据的残差分别为( )
A.0.1,0.2 B.-0.1,-0.2
C.1.6,4.8 D.-0.1,0.2
解析:因为当x=6时的预测值为=0.8×6-3.2=1.6,所以它的残差为1.5-1.6=-0.1.因为当x=10时的预测值为=0.8×10-3.2=4.8,所以它的残差为5-4.8=0.2.
答案:D
2.在大学生建模比赛中,编号为1,2,3,4的4名同学对得到的数据进行分析,其中对变量x,y进行回归分析,得到的结果如表所示.
编号 1 2 3 4
残差平方和 12.37 13.98 9.817 14.32
决定系数R2 0.873 4 0.930 2 0.959 2 0.766 5
则这4名同学中建立的经验回归方程的拟合效果最好的是 ( )
A.1号 B.2号 C.3号 D.4号
解析:根据回归分析的思想,残差平方和越小,模型拟合效果越好,决定系数R2越接近于1,经验回归方程的拟合效果越好,所以由表格中的数据得出3号同学的经验回归方程拟合效果最好.
答案:C
3.根据表中的样本数据得到的经验回归方程为=x+,若=7.9,则x每增加1,估计y ( )
x 3 4 5 6 7
y 4 2.5 -0.5 0.5 -2
A.增加1.4 B.减少1.4 C.增加1 D.减少1
解析:由题意可得,=5,=0.9.因为经验回归方程为=x+, =7.9,且经验回归直线过点(5,0.9),所以0.9=5+7.9,解得=-1.4,所以x每增加1,估计y减少1.4.
答案:B
4.已知一组观测数据(x1,y1),(x2,y2),…,(xn,yn)之间满足yi=bxi+a+ei
(i=1,2,…,n),若ei恒为0,则R2的值为1.
解析:由ei恒为0,知yi=,即yi-=0,
故R2=1-=1-0=1.
5.某考察团对全国十大城市居民人均工资水平x(单位:千元)与居民人均消费水平y(单位:千元)进行统计调查,调查发现y与x具有线性相关关系,经验回归方程为=0.66x+1.562.若其中某城市居民人均消费水平为7.675千元,估计该城市人均消费额占人均工资收入的百分比约为83%.
解析:将y=7.675代入经验回归方程=0.66x+1.562,可计算得x≈9.262,所以该城市人均消费额占人均工资收入的百分比约为×100%≈83%.
6.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了四次试验,所得数据如下表所示:
加工零件的数量x/个 2 3 4 5
加工的时间y/h 2.5 3 4 4.5
(1)求y关于x的经验回归方程.
(2)预测加工10个零件需要多少时间
参考公式:
==, =-.
解:(1)由已知可得,=3.5,=3.5,
xiyi=2×2.5+3×3+4×4+5×4.5=52.5,
=4+9+16+25=54,
所以===0.7,
所以=3.5-0.7×3.5=1.05,
所以所求经验回归方程为=0.7x+1.05.
(2)当x=10时, =0.7×10+1.05=8.05,
所以预测加工10个零件需要8.05 h.
B级 拓展提高
7.四张残差图如图所示,其中模型的拟合效果最好的是 ( )
A B
C D
解析:四张残差图中,只有选项A,B中的残差图中的残差是均匀地分布在以横轴为对称轴的水平带状区域内,且选项B中的残差分布集中在更狭窄的范围内,所以选项B中模型的拟合效果最好.
答案:B
8.已知函数模型y=sin2α+2sin α+1,若将y转化为关于t的经验回归方程,则需作变换t=(sin α+1)2.
解析:因为要转化为y关于t的经验回归方程,实际上就是y关于t的一次函数.由y=(sin α+1)2,若令t=(sin α+1)2,则可得y与t的函数关系式为y=t,此时变量y与变量t呈现出线性相关关系.
9.假设关于某设备的使用年限x(单位:年)和支出的维修费用y(单位:万元),统计资料如下表所示.
x/年 2 3 4 5 6
y/万元 2.2 3.8 5.5 6.5 7.0
由资料知y与x之间具有线性相关关系.
(1)求经验回归方程=x+.
(2)估计使用年限为10年时,维修费用是多少
(3)计算残差平方和.
(4)求R2,并说明模型的拟合效果.
解:(1)由已知条件,得
i 1 2 3 4 5
xi 2 3 4 5 6
yi 2.2 3.8 5.5 6.5 7.0
xiyi 4.4 11.4 22.0 32.5 42.0
4 9 16 25 36
=4;=5;=90;xiyi=112.3
所以====1.23,
所以=-=5-1.23×4=0.08,
所以经验回归方程是=1.23x+0.08.
(2)当x=10时, =1.23×10+0.08=12.38,即估计使用10年时维修费用是12.38万元.
(3)因为=2.54,=3.77,=5,=6.23,=7.46,
所以残差平方和为(yi-)2=0.651.
(4)R2=1-=1-≈0.958 7,R2的取值接近1,说明模型的拟合效果较好.
10.某共享单车企业在A城市就“每天一辆单车平均成本y(单位:元)与租用单车数量x(单位:千辆)之间的关系”进行了调查,并将相关数据统计如下表所示.
租用单车数量x/千辆 2 3 4 5 8
每天一辆单车平均成本y/元 3.2 2.4 2 1.9 1.5
根据以上数据,研究人员设计了两种不同的回归分析模型,得到两个拟合函数:
模型甲:=+0.8,模型乙:=+1.6.
(1)为了评价两种模型的拟合效果,完成以下任务:
①完成下表(计算结果精确到0.1元);
租用单车数量x/千辆 每天一辆单车平均成本y/元 模型甲 模型乙
预测值 残差 预测值 残差
2 3.2
3 2.4 2.4 0 2.3 0.1
4 2 2.0 0 2.0 0
5 1.9 1.8 0.1 1.9 0
8 1.5 1.4 0.1
②分别计算模型甲与模型乙的残差平方和Q1及Q2,并通过比较Q1,Q2的大小,判断哪个模型拟合效果更好.
(2)这家企业在A城市投放共享单车后,受到广大市民的热烈欢迎并供不应求,于是该企业决定增加单车的投放量.根据市场调查,市场投放量达到1万辆时,平均每辆单车一天能收入8元、6元的概率分别为0.6,0.4;市场投放量达到1.2万辆时,平均每辆单车一天能收入8元、6元的概率分别为0.4,0.6.若按(1)中拟合效果较好的模型计算一天中一辆单车的平均成本,则该企业投放量选择1万辆还是1.2万辆能获得更多利润(利润=收入-成本) 请说明理由.
解:(1)①经计算,可得下表:
租用单车数量x/千辆 每天一辆单车平均成本y/元 模型甲 模型乙
预测值 残差 预测值 残差
2 3.2 3.2 0 3.2 0
3 2.4 2.4 0 2.3 0.1
4 2 2.0 0 2.0 0
5 1.9 1.8 0.1 1.9 0
8 1.5 1.4 0.1 1.7 -0.2
②由①中数据,得Q1=0.12+0.12=0.02,
Q2=0.12+(-0.2)2=0.05.
因为Q1(2)若投放量为1万辆,由(1)中模型甲可知,
每天一辆单车平均成本约为+0.8=1.28(元),
这样一天获得的总利润为(8×0.6+6×0.4-1.28)×10 000=59 200(元).
若投放量为1.2万辆,由(1)中模型甲可知,
每天一辆单车平均成本约为+0.8=1.2(元),
这样一天获得的总利润为(8×0.4+6×0.6-1.2)×12 000=67 200(元).
因为67 200>59 200,
所以选择投放1.2万辆能获得更多利润.
C级 挑战创新
11.多选题散点图中的5个散点如下图所示,去掉点D(3,10)后,下列说法正确的是 ( )
A.样本相关系数r变大
B.残差平方和变大
C.决定系数R2变大
D.解释变量x与响应变量y的相关性变强
解析:依据线性相关的有关知识可知,去掉散点D(3,10)后样本的相关系数r变大,决定系数R2变大,同时解释变量x与响应变量y的相关性变强,相应的残差平方和变小.
答案:ACD