(共59张PPT)
第一课时 一元线性回归模型及其参数的最小二乘估计
1. 结合实例,了解一元线性回归模型的含义,了解模型参数的统计意义
(数学抽象).
2. 了解最小二乘法的思想,会求经验回归方程(数学运算、数学建模).
课标要求
通过前面的学习我们已经了解到,根据成对样本数据的散点图和样本相关
系数,可以推断两个变量是否存在相关关系、是正相关还是负相关,以及
线性相关程度的强弱等.进一步地,如果能像建立函数模型刻画两个变量
之间的确定性关系那样,通过建立适当的统计模型刻画两个随机变量的相
关关系,那么我们就可以利用这个模型研究两个变量之间的随机关系,并
通过模型进行预测.那么如何利用成对样本数据建立模型呢?
情境导入
知识点一 一元线性回归模型
01
知识点二 最小二乘法和经验回归方程
02
知识点三 利用经验回归方程进行预测
03
课时作业
04
目录
知识点一 一元线性回归模型
01
PART
问题1 生活经验告诉我们,儿子的身高与父亲的身高具有正相关的关
系,为了进一步研究两者之间的关系,有人调查了某所高校14名男大学生
的身高及其父亲的身高,得到的数据如表所示:
编号 1 2 3 4 5 6 7
父亲身高/cm 174 170 173 169 182 172 180
儿子身高/cm 176 176 170 170 185 176 178
编号 8 9 10 11 12 13 14
父亲身高/cm 172 168 166 182 173 164 180
儿子身高/cm 174 170 168 178 172 165 182
我们画出散点图(教材P105图8.2-1)并通过计算得到样本相关系数
r≈0.886.
(1)由样本相关系数可以得到什么结论?
提示:通过样本相关系数可知儿子的身高与父亲的身高正线性相关,且相
关程度较高.
(2)这两个变量之间的关系可以用函数模型来刻画吗?
提示:不能.因为这两个变量之间不是函数关系,也就不能用函数模型
刻画.
【知识梳理】
一元线性回归模型:我们称 为Y关于x的一元
线性回归模型.其中,Y称为 或 ,x称为
或 ; 称为截距参数, 称为斜率参数;e
是 与 之间的随机误差,如果e= ,那么Y与x之间
的关系就可以用一元线性函数模型来描述.
因变量
响应变量
自变
量
解释变量
a
b
Y
bx+a
0
【例1】 判断下列变量间哪些能用函数模型刻画,哪些能用回归模型
刻画?
(1)某公司的销售收入和广告支出;
(2)某城市写字楼的出租率和每平方米月租金;
(3)航空公司的顾客投诉次数和航班正点率;
(4)某地区的人均消费水平和人均国内生产总值(GDP);
(5)学生期末考试成绩和考前用于复习的时间;
解:(1) (2)(3)(4)(5)能用回归模型刻画,
(6)一辆汽车在某段路程中的行驶速度和行驶时间;
(7)正方形的面积与周长.
解: (6) (7)能用函数模型刻画.
【规律方法】
在一元线性回归模型Y=bx+a+e中,模型中的Y也是随机变量,其值虽
然不能由变量x的值确定,但是却能表示为bx+a与e的和(叠加),前一
部分由x所确定,后一部分是随机的.
训练1 (1)在一元线性回归模型Y=bx+a+e中,下列说法正确的是
( C )
A. Y=bx+a+e是一次函数
B. 响应变量Y是由解释变量x唯一确定的
C. 响应变量Y除了受解释变量x的影响外,可能还受到其他因素的影响,
这些因素会导致随机误差e的产生
D. 随机误差e是由于计算不准确造成的,可通过精确计算避免随机误差e
的产生
C
解析: 对于A,一元线性回归模型Y=bx+a+e中,方程表示的不
是确定性关系,因此不是一次函数,所以A错误;对于B,响应变量Y不是
由解释变量x唯一确定的,所以B错误;对于C,响应变量Y除了受解释变
量x的影响外,可能还受到其他因素的影响,这些因素会导致随机误差e的
产生,所以C正确;对于D,随机误差是不能避免的,只能将误差缩小,所
以D错误.故选C.
(2)若某地财政收入x与支出Y满足一元线性回归模型Y=bx+a+e
(单位:亿元),其中b=0.7,a=3,|e|≤0.5,如果今年该地区财
政收入10亿元,年支出预计不会超过( D )
A. 9亿元 B. 9.5亿元
C. 10亿元 D. 10.5亿元
解析: 由题意知Y=0.7x+3+e.当x=10时,得Y=0.7×10+3+
e=10+e,又|e|≤0.5,即-0.5≤e≤0.5,所以9.5≤Y≤10.5,所
以年支出预计不会超过10.5亿元.
D
知识点二 最小二乘法和经验回归方程
02
PART
问题2 在一元线性回归模型中,表达式Y=bx+a+e刻画了变量Y与x
之间的线性相关关系,其中参数a和b未知,确定参数a和b的原则是什
么?
提示:使表示成对样本数据的各散点在整体上与一条适当的直线尽可能地
接近.
【知识梳理】
最小二乘法:我们将 = x+ 称为Y关于x的经验回归方程,也称经验回
归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程
的方法叫做最小二乘法,求得的 , 叫做b,a的最小二乘估计,其中,
= = , = - .
提醒:(1)经验回归直线不一定过成对样本数据(x1,y1),(x2,
y2),…,(xn,yn)中的某一点;(2)经验回归直线一定经过样本点的
中心( , ).
【例2】 (链接教材P113例)某班5名学生的数学和物理成绩如下表:
学生 A B C D E
数学成绩x/分 88 76 73 66 63
物理成绩y/分 78 65 71 64 61
(1)画出散点图;
解: 散点图如图所示.
(2)求物理成绩y关于数学成绩x的经验回归方程(结果保留三位小数).
参考公式: = = , = - .
解: 因为 = ×(88+76+73+66+63)=73.2, = ×(78+
65+71+64+61)=67.8,
xiyi=88×78+76×65+73×71+66×64+63×61=25 054,
=882+762+732+662+632=27 174,
所以 = ≈0.625,
= - ≈67.8-0.625×73.2=22.05.
因此y关于x的经验回归方程为 =22.05+0.625x.
【规律方法】
求经验回归方程的基本步骤
(1)画出散点图,从直观上分析数据间是否存在线性相关关系;
(2)计算 , , xiyi(或 (xi- )(yi- )), (或
(xi- )2);
(3)代入公式求出 = x+ 中参数 , 的值;
(4)写出经验回归方程并对实际问题作出估计.
提醒:只有在散点图大致呈线性时,求出的经验回归方程才有实
际意义.
训练2 若根据变量x与y的对应关系(如表),求得y关于x的经验回归方
程为 =6.5x+17.5,则表中m的值为( A )
x 2 4 5 6 8
y 30 40 m 50 70
A. 60 B. 55
A
解析: 由表中数据,得 = ×(2+4+5+6+8)=5, = ×(30+
40+m+50+70)=38+ ,因为经验回归直线 =6.5x+17.5过点(5,
38+ ),所以38+ =6.5×5+17.5,解得m=60.
C. 50 D. 45
知识点三 利用经验回归方程进行预测
03
PART
【例3】 某商场为了迎接暑期旅游旺季,确定暑期营销策略,进行了投
入促销费用x和商场实际销售额y的试验,得到如下四组数据.
投入促销费用x/万元 2 3 5 6
商场实际销售额y/万元 100 200 300 400
(1)画出上述数据的散点图,并据此判断两个变量是否具有较强的线性
相关关系;
解: 散点图如图所示.
从散点图上可以看出两个变量具有较强的线性相关关系.
(2)求出x,y之间的经验回归方程 = x+ ;
解: 因为 = =4,
= =250,
xiyi=2×100+3×200+5×300+6×400=4 700,
=22+32+52+62=74,
所以 = = =70, = - =250-70×4=-
30.
故所求的经验回归方程为 =70x-30.
(3)若该商场计划实际销售额不低于600万元,则至少要投入多少万元的
促销费用?
参考公式: = , = - .
解: 由题意得70x-30≥600,即x≥ =9,
所以若该商场计划实际销售额不低于600万元,则至少要投入9万元的促销
费用.
【规律方法】
1. 判断两个变量是否线性相关:可以利用经验,也可以画散点图.
2. 求经验回归方程:注意运算的正确性,要根据题目给出的数据选择公式
求 .
3. 根据经验回归方程进行预测估计:估计值不是实际值,两者会有一定的
误差.
训练3 恩格尔系数法是国际上常用的一种测定贫困线的方法,是指居民
家庭年人均食物支出占年人均消费总支出的比重,它随家庭收入的增加而
下降,即恩格尔系数越大,生活越贫困.某调研小组通过调查得到了某地
年人均消费总支出x(万元)与恩格尔系数y的五组数据如下表:
x 1 1.5 2 2.5 3
y 0.9 0.7 0.5 0.3 0.2
(1)请根据表中数据,用最小二乘法求出y关于x的经验回归方程;
解: 由题意可得 = ×(1+1.5+2+2.5+3)=2,
= ×(0.9+0.7+0.5+0.3+0.2)=0.52.
(xi- )(yi- )=-1×0.38-0.5×0.18+0.5×(-0.22)+
1×(-0.32)=-0.9,
(xi- )2=1+0.25+0.25+1=2.5,
则 =- =-0.36,
= - =1.24,故 =-0.36x+1.24.
(2)若该地某居民家庭年人均消费总支出为2.6万元,估计该居民家庭的
恩格尔系数.
参考公式:经验回归方程 = x+ 中斜率和截距的最小二乘估计公式分
别为 = = , = - .
解: 当x=2.6时, =-0.36×2.6+1.24=0.304,
故估计该居民家庭的恩格尔系数为0.304.
1. 〔多选〕下列有关经验回归方程 = x+ 的叙述正确的是( )
A. 反映 与x之间的函数关系
B. 反映y与x之间的函数关系
C. 表示 与x之间不确定关系
D. 表示最接近y与x之间真实关系的一条直线
解析: = x+ 表示 与x之间的函数关系,而不是y与x之间的
函数关系,但它反映的关系最接近y与x之间的真实关系,故选A、D.
√
√
2. 在对两个变量x,y进行线性回归分析时一般有下列步骤:①对所求出
的回归方程作出解释;②收集数据(xi,yi),i=1,2,…,n;③求线
性回归方程;④根据所搜集的数据绘制散点图.若根据实际情况能够判定
变量x,y具有线性相关性,则在下列操作顺序中正确的是( )
A. ①②④③ B. ③②④①
C. ②③①④ D. ②④③①
解析: 根据实际情况能够判定变量x,y具有线性相关性的顺序为:收
集数据(xi,yi),i=1,2,…,n;根据所搜集的数据绘制散点图;求
线性回归方程;对所求出的回归方程作出解释.故选D.
√
3. 对具有线性相关关系的变量x,y,测得一组数据如下表,根据表中数
据,利用最小二乘法得到经验回归方程为 =10.5x+ ,据此模型预测
当x=20时,y的估计值为( )
x 2 4 5 6 8
y 20 40 60 70 80
A. 210 B. 210.5 C. 211.5 D. 212.5
√
解析: 由题意可知, = =5, = =54.
∵经验回归直线经过样本中心点,∴54=10.5×5+ , =1.5,经验回
归方程为 =10.5x+1.5,当x=20时,y的估计值为10.5×20+1.5=
211.5.故选C.
4. 若根据5名儿童的年龄x(岁)和体重y(kg)的数据用最小二乘法得到
用年龄预报体重的经验回归方程是 =2x+18,已知这5名儿童的年龄分
别是3,5,2,6,4,则这5名儿童的平均体重是 kg.
解析:由题意得, = =4,由于经验回归直线过样本的中心点
( , ),所以 =2 +18=2×4+18=26,则这5名儿童的平均体重是
26 kg.
26
课堂小结
1. 理清单
(1)一元线性回归模型;
(2)最小二乘法、经验回归方程的求法;
(3)利用经验回归方程进行预测.
2. 应体会
(1)利用公式法求线性回归方程;
(2)利用经验回归方程对总体进行预测体现了转化与化归思想.
3. 避易错
利用公式 = 求值时易发生计算错误.
课时作业
04
PART
1. 在有线性相关关系的两个变量建立的经验回归方程 = + x中,
( )
A. 不能小于0 B. 不能大于0
C. 不能等于0 D. 只能小于0
解析: 当 =0时,不具有线性相关关系,但 能大于0,也能小于0.
1
2
3
4
5
6
7
8
9
10
11
12
13
√
2. 已知某经验回归方程为 =2-3x,则当解释变量增加1个单位时,响应
变量平均( )
A. 增加3个单位 B. 增加 个单位
C. 减少3个单位 D. 减少 个单位
解析: 依题意,经验回归方程为 =2-3x,所以当解释变量增加1个
单位时,响应变量平均减少3个单位.故选C.
√
1
2
3
4
5
6
7
8
9
10
11
12
13
3. 用最小二乘法得到一组数据(xi,yi)(i=1,2,3,4,5,6)的经
验回归方程为 =2x+3,若 xi=30,则 yi=( )
A. 11 B. 13 C. 63 D. 78
解析: 依题意,因为 xi=30,所以 = =5,因为经验回归方程
=2x+3一定过点( , ),所以 =2 +3=2×5+3=13,所以 yi=
6×13=78.故选D.
√
1
2
3
4
5
6
7
8
9
10
11
12
13
4. 经过对中学生记忆能力x和识图能力y进行统计分析,得到如下数据:
记忆能力x 4 6 8 10
识图能力y 3 5 6 8
由表中数据,求得经验回归方程为 = x+ ,若小明同学的记忆能力为
15,则可预测其识图能力为( )
A. 8 B. 9.6
C. 11.2 D. 11.9
√
1
2
3
4
5
6
7
8
9
10
11
12
13
解析: 由表中数据可得, = ×(4+6+8+10)=7, = ×(3+
5+6+8)=5.5,又经验回归方程为 = x+ ,则5.5= ×7+ ,解得
=-0.1,故 = x- ,当x=15时, = ×15- =11.9.故选D.
1
2
3
4
5
6
7
8
9
10
11
12
13
5. 〔多选〕数据(x,y)的5组测量值(xi,yi)(i=1,2,3,4,
5),已知 =90, xiyi=112, xi=20, yi=25.若y对x的经
验回归方程记作 = x+ ,则( )
A. =1.2
B. =0.2
C. y与x正相关
D. x=8时,y的估计值为9
√
√
√
1
2
3
4
5
6
7
8
9
10
11
12
13
解析: 由已知的数据可得 = xi=4, = yi=5, =
= = =1.2, = - =5-1.2×4
=0.2,所以经验回归方程为 =1.2x+0.2.因为 =1.2>0,所以y与x
正相关.当x=8时, =1.2×8+0.2=9.8.故A、B、C选项正确,D选项
错误.
1
2
3
4
5
6
7
8
9
10
11
12
13
6. 如图是一组数据(x,y)的散点图,经最小二乘估计公式计算,y与x
之间的经验回归方程为 = x+1,则 = .
解析:由题图知 = =2, = =2.6,将(2,2.6)
代入 = x+1中,解得 =0.8.
0.8
1
2
3
4
5
6
7
8
9
10
11
12
13
7. 为了研究某班学生的脚长x(单位:cm)和身高y(单位:cm)的关
系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间
有线性相关关系,设其经验回归方程为 = x+ ,已知 xi=225,
yi=1 600, =4.该班某学生的脚长为24 cm,据此估计其身高
为 cm.
解析:由题意可知 =4x+ ,又 =22.5, =160,∴160=22.5×4+
,得 =70,因此 =4x+70.当x=24时, =4×24+70=96+70=
166.
166
1
2
3
4
5
6
7
8
9
10
11
12
13
8. 从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千
元)与月储蓄yi(单位:千元)的数据资料,算得 xi=80, yi=20,
xiyi=184, =720.
(1)求家庭的月储蓄y与月收入x的经验回归方程 = x+ ;
1
2
3
4
5
6
7
8
9
10
11
12
13
解: 由题意,知n=10, = xi= =8, = yi= =2,
又 -10 =720-10×82=80,
xiyi-10 =184-10×8×2=24,则 = =0.3,
= - =2-0.3×8=-0.4,
故所求经验回归方程为 =0.3x-0.4.
1
2
3
4
5
6
7
8
9
10
11
12
13
(2)判断变量x与y之间是正相关还是负相关;
解: 由于变量y的值随x值的增加而增加( =0.3>0),故x与y之
间是正相关.
(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.
附:经验回归方程 = x+ 中, = , = - ,其中
, 为样本平均值.
解: 将x=7代入经验回归方程可以预测该家庭的月储蓄为 =
0.3×7-0.4=1.7(千元).
1
2
3
4
5
6
7
8
9
10
11
12
13
9. 根据以下样本数据
x 1 3 5 7
y 6 4.5 3.5 2.5
得到经验回归方程为 = x+ .则( )
A. <0, <0 B. >0, >0
C. <0, >0 D. >0, <0
解析: 由表中数据可得随着x的增大,y越来越小,所以 <0,又因
为当x=1时,y=6,所以当x=0时,y>6,所以 >0,故选D.
√
1
2
3
4
5
6
7
8
9
10
11
12
13
10. 〔多选〕已知两个变量y与x线性相关,为研究其具体的线性关系进行
了10次试验.试验中不慎丢失2个数据点,根据剩余的8个数据点求得的经
验回归方程为 =3x+4.5,且 =4,又增加了2次试验,得到2个数据点
(2,11),(6,22),根据这10个数据点重新求得经验回归方程为 =
mx+n(其中m,n∈R),则( )
A. 变量y与x正相关
B. m<3
C. n<4.5
D. 经验回归直线 =mx+n经过点(4,16.5)
√
√
√
1
2
3
4
5
6
7
8
9
10
11
12
13
解析: 设A(2,11),B(6,22),由kAB= <3,而8个数据点
的经验回归方程中 =3,∴0<m<3,A、B正确;10个数据点的 '=
=4, '= =16.5,∴经验回归直线过定点
(4,16.5),则16.5=4m+n,n=16.5-4m,0<m<3,0<4m<
12,-12<-4m<0,4.5<16.5-4m<16.5,即4.5<n<16.5,∴D正
确,C错误.
1
2
3
4
5
6
7
8
9
10
11
12
13
11. 〔多选〕月亮公转与自转的周期大约为30天,阴历是以月相变化为依
据.人们根据长时间的观测,统计了月亮出来的时间y(简称“月出时
间”,单位:小时)与天数x(x为阴历日数,x∈N*,且0≤x≤30)的有
关数据如表,并且根据表中数据,求得y关于x的经验回归方程为 =0.8x
+ .
x 2 4 7 10 15 22
y 8.1 9.4 12 14.4 18.5 24
其中,阴历22日是分界线,从阴历22日开始月亮就要到第二天(即23日
0:00)才升起.则( )
1
2
3
4
5
6
7
8
9
10
11
12
13
A. 经验回归直线过点(10,14.4)
B. =6.8
C. 预测月出时间为16时的那天是阴历13日
D. 预测阴历27日的月出时间为阴历28日早上4:00
解析: = =10, = =
14.4,故经验回归直线过点(10,14.4),选项A正确;将点(10,
14.4)代入 =0.8x+ ,得 =6.4,B错误;∵ =0.8x+6.4,当y=
16时,x=12,∴月出时间为阴历12日,选项C错误;∵阴历27日时,即x
=27,代入得 =0.8×27+6.4=28,∴日出时间应该为28日早上4:00,
选项D正确.
√
√
1
2
3
4
5
6
7
8
9
10
11
12
13
12. 为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表
记录了小李某月1号到5号每天打篮球时间x(单位:h)与当天投篮命中率
y之间的关系:
时间x 1 2 3 4 5
命中率y 0.4 0.5 0.6 0.6 0.4
小李这5天的平均投篮命中率为 ;用线性回归分析的方法,预
测小李该月6号打6小时篮球的投篮命中率为 .
0.5
0.53
1
2
3
4
5
6
7
8
9
10
11
12
13
解析:小李这5天的平均投篮命中率 = ×(0.4+0.5+0.6+0.6+
0.4)=0.5, =3,计算得 = =0.01, = - =0.5-0.03=
0.47.∴经验回归方程为 =0.01x+0.47,则当x=6时, =0.53.∴预
测小李该月6号打6小时篮球的投篮命中率为0.53.
1
2
3
4
5
6
7
8
9
10
11
12
13
13. 一台还可以用的机器由于使用的时间较长,它按不同的转速生产出来
的某机械零件有一些会有缺陷,每小时生产有缺陷零件的多少随机器运转
的速率而变化,下表为抽样试验结果:
转速x(转/秒) 16 14 12 8
每小时生产有缺 陷的零件数y(件) 11 9 8 5
(1)画出散点图;
解: 画出散点图,如图所示.
1
2
3
4
5
6
7
8
9
10
11
12
13
(2)如果y与x有线性相关的关系,求经验回归方程;
解: ∵ =12.5, =8.25, xiyi=438, =660,
∴ = = ≈0.728 6,
= - ≈8.25-0.728 6×12.5=-0.857 5.
故经验回归方程为 =0.728 6x-0.857 5.
1
2
3
4
5
6
7
8
9
10
11
12
13
(3)若实际生产中,允许每小时生产的产品中有缺陷的零件最多为10
件,那么机器的运转速度应控制在什么范围内?(结果保留一位小数)
解: 要使y≤10,则0.728 6x-0.857 5≤10,得x<14.901 9.
故机器的转速应控制在14.9转/秒及以下.
1
2
3
4
5
6
7
8
9
10
11
12
13
THANKS
演示完毕 感谢观看