预习课本P54~59,思考并完成以下问题
(1)最小二乘法的概念是什么?
(2)线性回归方程的概念是什么?
(3)如何计算线性回归方程的系数a和b?
1.最小二乘法
(1)定义:如果有n个点(x1,y1),(x2,y2),…,(xn,yn),可以用下面的表达式来刻画这些点与直线y=a+bx的接近程度:[y1-(a+bx1)]2+[y2-(a+bx2)]2+…+[yn-(a+bxn)]2.使得上式达到最小值的直线y=a+bx就是我们所要求的直线,这种方法称为最小二乘法.
(2)应用:利用最小二乘法估计时,要先作出数据的散点图.如果散点图呈现出线性关系,可以用最小二乘法估计出线性回归方程;如果散点图呈现出其他的曲线关系,我们就要利用其他的工具进行拟合.
2.线性回归方程
用表示,用表示,
由最小二乘法可以求得
b=,a=-b ,这样得到的直线方程y=a+bx称为线性回归方程,a,b是线性回归方程的系数.
[点睛] 由a=-b可知,回归直线一定经过点(,),因此点(,)通常称为样本点的中心.
1.判断正误.(正确的打“√”,错误的打“×”)
(1)用最小二乘法求出的回归系数b可能是正的,也可能是负的.( )
(2)用最小二乘法求出的系数可以使回归直线更贴近实际情况.( )
(3)若回归系数b是负的,则y的值随x的增大而减小.( )
(4)根据最小二乘法求出回归系数,从而可以表示出线性回归方程,这个方程可以准确表示每一个数据.( )
答案:(1)√ (2)√ (3)√ (4)×
2.在最小二乘法中,用来刻画各样本点到直线y=a+bx“距离”的量是( )
A.|yi-| B.(yi-)2
C.|yi-(a+bxi)| D.[yi-(a+bxi)]2
解析:选D 最小二乘法的定义明确给出,用[yi-(a+bxi)]2来刻画各个样本点与这条直线之间的“距离”(即二者之间的接近程度),用它们的和表示这些点与这条直线的接近程度.
3.线性回归方程y=a+bx表示的直线必定过( )
A.(0,0)点 B.(,0)点
C.(0,)点 D.(,)点
解析:选D 回归系数a,b有公式a=-b,即=a+b,所以直线y=a+bx必定过(,)点.
4.在一次实验中,测得(x,y)的四组值为(1,2),(2,3),(3,4),(4,5),则y与x之间的线性回归方程为( )
A.y=x+1 B.y=x+2
C.y=2x+1 D.y=x-1
解析:选A 法一:易知在直角坐标系中这四个点都在直线y=x+1上.
法二:因为==2.5,=3.5,而回归直线必过点(,),所以把点(2.5,3.5)代入各个选项检验可知选A.
求线性回归方程
[典例] 一个车间为了规定工时定额,需要确定加工零件所花费的时间.为此进行了10次试验,测得数据如下:
零件数/个
10
20
30
40
50
60
70
80
90
100
加工时间/分
62
68
75
81
89
95
102
108
115
122
请判断其是否具有线性相关关系,如果具有线性相关关系,求线性回归方程.
[解] 在直角坐标系中画出数据的散点图,如图所示.
观察判断出散点在一条直线附近,故具有线性相关关系.由测得的数据列表如下:
i
xi
yi
x
xiyi
1
10
62
100
620
2
20
68
400
1 360
3
30
75
900
2 250
4
40
81
1 600
3 240
5
50
89
2 500
4 450
6
60
95
3 600
5 700
7
70
102
4 900
7 140
8
80
108
6 400
8 640
9
90
115
8 100
10 350
10
100
122
10 000
12 200
合计
550
917
38 500
55 950
平均
55
91.7
3 850
5 595
b==≈0.668,
a≈-b=91.7-0.668×55=54.96.
所以线性回归方程为y=54.96+0.668x.
求线性回归方程的技巧和注意点
(1)求解线性回归方程时,需要进行复杂的计算,采用列表法会使计算进行得更有条理.表格可以参考如下方法设计:
i
xi
yi
x
xiyi
1
2
3
…
n
合计
平均
将需要计算的量列在表格中,再按照公式求解线性回归方程即可.
(2)若已知变量x,y成线性相关关系,无需检验相关性即可求解线性回归方程,否则需要根据散点图判断变量x,y之间是否存在线性相关关系,再求解线性回归方程.
[活学活用]
某化工厂为预测某产品的回收率y,需要研究它和原料有效成分含量之间的相关关系.现取了8对观测值,计算得i=52,i=228,=478,iyi=1 849,则y对x的线性回归方程是( )
A.y=11.47+2.62x B.y=-11.47+2.62x
C.y=2.62+11.47x D.y=11.47-2.62x
解析:选A 利用题目中的已知条件可以求出=6.5,=28.5,然后利用线性回归方程的计算公式得b==≈2.62,a≈-b=11.47,因此线性回归方程为y=11.47+2.62x.
线性回归方程的应用
[典例] 下表是某厂节能降耗技术改进后生产甲产品过程中记录的产量x(单位:吨)与相应的生产能耗y(单位:吨标准煤)的几组对照数据.
x
3
4
5
6
y
2.5
3
4
4.5
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y=a+bx;
(3)已知该厂技术改进前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测该厂技术改进后生产100吨甲产品的生产能耗比技术改进前降低多少吨标准煤?
[解] (1)散点图如图所示,显然y与x是线性相关的.
(2)计算可得=4.5,=3.5,3×2.5+4×3+5×4+6×4.5=66.5,32+42+52+62=86.
代入公式得b==0.7,a=3.5-0.7×4.5=0.35,
所以线性回归方程为y=0.35+0.7x.
(3)当x=100时,y=0.35+0.7x=70.35,90-70.35=19.65,所以预测该厂技术改进后生产100吨甲产品的生产能耗比技术改进前降低19.65吨标准煤.
应用线性回归方程解题的常见思路
(1)利用回归直线过样本点的中心,可以求参数问题,参数可涉及回归方程或样本点数据.
(2)利用回归方程中系数b的意义,分析实际问题.
(3)利用回归直线进行预测时需关注两点:①所得的值只是一个估计值,不是精确值;②变量x与y成线性相关关系时,线性回归方程才有意义,否则即使求出线性回归方程也是毫无意义的,用其估计和预测的量也是不可信的.
[活学活用]
1.根据如下样本数据得到的回归方程为y=bx+a,则( )
x
3
4
5
6
7
8
y
4.0
2.5
-0.5
0.5
-2.0
-3.0
A.a>0,b>0 B.a>0,b<0
C.a<0,b>0 D.a<0,b<0
解析:选B 画出散点图,如图所示.
观察图像可知,回归直线y=bx+a的斜率b<0,截距a>0.故a>0,b<0.
2.某产品的广告费用x与销售额y的统计数据如下表:
广告费用x(万元)
4
2
3
5
销售额y(万元)
49
26
39
54
根据上表可得回归方程y=bx+a中的b为9.4,据此模型预报广告费用为6万元时销售额为( )
A.63.6万元 B.65.5万元
C.67.7万元 D.72.0万元
解析:选B 样本点的中心是(3.5,42),则a=-b=42-9.4×3.5=9.1,所以线性回归方程是y=9.4x+9.1,把x=6代入得y=65.5.
[层级一 学业水平达标]
1.已知x与y之间的一组数据:
x
0
1
2
3
y
1
3
5
7
则y与x的线性回归方程y=bx+a必过点( )
A.(2,2) B.(1.5,0)
C.(1,2) D.(1.5,4)
解析:选D 线性回归方程y=bx+a必过样本中心(,),==1.5,==4.
2.有人收集了春节期间平均气温x(单位:℃)与某取暖商品的销售额y(单位:万元)的有关数据如下表:
平均气温x(℃)
-2
-3
-5
-6
销售额y(万元)
20
23
27
30
根据以上数据,用线性回归的方法,求得销售额y与平均气温x之间的线性回归方程y=a+bx的系数b=-2.4.则预测平均气温为-8 ℃时,该商品的销售额为( )
A.34.6万元 B.35.6万元
C.36.6万元 D.37.6万元
解析:选A 由已知得==-4,==25,所以a=-b=25+2.4×(-4)=15.4,即线性回归方程为y=15.4-2.4x,当x=-8时,y=34.6.
3.一位母亲记录了儿子3~9岁的身高,由此确立的身高y(单位:cm)关于年龄x(单位:岁)的线性回归方程为y=7.19x+73.93,则这个孩子10岁时,下列叙述正确的是( )
A.身高在145.83 cm左右 B.身高在145.83 cm以上
C.身高在145.83 cm以下 D.身高一定是145.83 cm
解析:选A 当x=10时,y=145.83,利用线性回归方程预测时,估计值会存在偏差.
4.下列说法正确的是________(把正确说法的序号全填上).
①已知线性回归方程为y=0.5x+2,则当x=2时,变量y的值一定为3;
②已知一个线性回归方程为y=1.5x+45(xi=1,5,7,13,19,则=58.5;
③任给两组变量,我们都可以通过线性回归方程进行预测;
④散点图中的绝大多数点都表现出两变量线性相关,个别特殊点不影响线性回归.
解析:将x值代入线性回归方程所得的值是预测值,不一定是真实值,故①错;=(1+5+7+13+19)=9,代入线性回归方程,得=58.5,故②正确;只有当两个变量具有线性相关关系时,求回归直线方程才有意义,因此当两个变量之间不具有线性相关关系时,我们不能通过线性回归方程进行预测,故③错;④显然正确.
答案:②④
[层级二 应试能力达标]
1.由一组样本数据(x1,y1),(x2,y2),…,(xn,yn)得到线性回归方程y=bx+a,那么下面说法不正确的是( )
A.直线y=bx+a必经过点(,)
B.直线y=bx+a至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点
C.直线y=bx+a的斜率为
D.直线y=bx+a与各点(x1,y1),(x2,y2),…,(xn,yn)的接近程度yi-(bxi+a)]2是该坐标平面上所有直线与这些点的最接近的直线
解析:选B 直线y=bx+a一定过点(,),但不一定要过样本点.
2.设一个线性回归方程为y=2+1.2x,则变量x增加1个单位时( )
A.y平均增加1.2个单位
B.y平均减少1.2个单位
C.y平均增加2个单位
D.y平均减少2个单位
解析:选A 根据系数b的意义可得b=1.2>0,因此变量x增加1个单位时,y平均增加1.2个单位.
3.某考察团对全国10大城市进行职工人均工资水平x(千元)与居民人均消费水平y(千元)统计调查,y与x具有相关关系,线性回归方程为y=0.66x+1.562,若某城市居民人均消费水平为7.675千元,估计该城市人均消费额占人均工资收入的百分比约为( )
A.83% B.72%
C.67% D.66%
解析:选A 将y=7.675代入回归方程,可计算得x≈9.26,所以该城市人均消费额占人均工资收入的百分比约为7.675÷9.26≈0.83,即约为83%.
4.已知x与y之间的几组数据如下表:
x
1
2
3
4
5
6
y
0
2
1
3
3
4
假设根据上表数据所得线性回归直线方程为y=bx+a.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b′x+a′,则以下结论正确的是( )
A.b>b′,a>a′ B.b>b′,a<a′
C.b<b′,a>a′ D.b<b′,a<a′
解析:选C 法一:由两组数据(1,0)和(2,2)可求得直线方程为y=2x-2,故b′=2,a′=-2.
而利用线性回归方程回归系数b,a的计算公式与已知表格中的数据,可求得
b===,
a=-b=-×=-,
所以b<b′,a>a′.
法二:根据所给数据画出散点图(如图所示)直接判断,斜率b′>b,截距a>a′.
5.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:y=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.
解析:由线性回归方程中b的意义可知年饮食支出平均增加0.254万元.
答案:0.254
6.某地区近10年居民的年收入x与支出y之间的关系大致符合y=0.8x+0.1(单位:亿元),预计今年该地区居民收入为15亿元,则年支出估计是________亿元.
解析:由题意知,y=0.8×15+0.1=12.1(亿元),即年支出估计是12.1亿元.
答案:12.1
7.已知x,y之间的一组数据如下表:
x
2
3
4
5
6
y
3
4
6
8
9
对于表中数据,现给出如下拟合直线:①y=x+1;②y=2x-1;③y=x-;④y=x.则根据最小二乘法的思想求得拟合程度最好的直线是________(填序号).
解析:由题意知=4,=6,∴b==,
∴a=-b=-,∴y=x-,故填③.
答案:③
8.随着网络的普及,网上购物的方式已经受到越来越多年轻人的青睐,某家网络店铺商品的成交量x(件)与店铺的浏览量y(次)之间的对应数据如下表所示:
x/件
2
4
5
6
8
y/次
30
40
50
60
70
(1)画出表中数据的散点图;
(2)根据表中的数据,求出y关于x的线性回归方程;
(3)要使这种商品的成交量突破100件(含100件),则这家店铺的浏览量至少为多少?
解:(1)散点图如图所示.
(2)根据散点图,变量x与y之间具有线性相关关系.
数据列成下表:
i
xi
yi
x
xiyi
1
2
30
4
60
2
4
40
16
160
3
5
50
25
250
4
6
60
36
360
5
8
70
64
560
合计
25
250
145
1 390
由上表计算出==5,==50,代入公式得b===7,a=-b=50-7×5=15,故所求的线性回归方程是y=15+7x.
(3)根据上面求出的线性回归方程,当成交量突破100件(含100件),即x=≥100时,y≥715,所以店铺的浏览量至少为715次.
9.李军为了研究某种细菌个数y(个)随温度x(℃)变化的关系,收集有关数据,如下表所示:
x/℃
14
16
18
20
22
y/个
12
10
7
5
3
(1)画出表中数据的散点图;
(2)求细菌个数y关于温度x的线性回归方程;
(3)当细菌的个数为9时,预测温度是多少(精确到0.1).
解:(1)散点图如图所示.
(2)由图可知,y与x之间具有线性相关关系.
==18,
==7.4,
=142+162+182+202+222=1 660,
iyi=14×12+16×10+18×7+20×5+22×3=620,
则b===-=-1.15,
a=-b=7.4+1.15×18=28.1,
所以线性回归方程为y=28.1-1.15x.
(3)由上述线性回归方程可知,当细菌的个数为9时,则由9=28.1-1.15x,得x≈16.6,即预测温度是16.6 ℃.
课时跟踪检测(八) 最小二乘估计
1.由一组样本数据(x1,y1),(x2,y2),…,(xn,yn)得到线性回归方程y=bx+a,那么下面说法不正确的是( )
A.直线y=bx+a必经过点(,)
B.直线y=bx+a至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点
C.直线y=bx+a的斜率为
D.直线y=bx+a与各点(x1,y1),(x2,y2),…,(xn,yn)的接近程度yi-(bxi+a)]2是该坐标平面上所有直线与这些点的最接近的直线
解析:选B 直线y=bx+a一定过点(,),但不一定要过样本点.
2.设一个线性回归方程为y=2+1.2x,则变量x增加1个单位时( )
A.y平均增加1.2个单位
B.y平均减少1.2个单位
C.y平均增加2个单位
D.y平均减少2个单位
解析:选A 根据系数b的意义可得b=1.2>0,因此变量x增加1个单位时,y平均增加1.2个单位.
3.某考察团对全国10大城市进行职工人均工资水平x(千元)与居民人均消费水平y(千元)统计调查,y与x具有相关关系,线性回归方程为y=0.66x+1.562,若某城市居民人均消费水平为7.675千元,估计该城市人均消费额占人均工资收入的百分比约为( )
A.83% B.72%
C.67% D.66%
解析:选A 将y=7.675代入回归方程,可计算得x≈9.26,所以该城市人均消费额占人均工资收入的百分比约为7.675÷9.26≈0.83,即约为83%.
4.已知x与y之间的几组数据如下表:
x
1
2
3
4
5
6
y
0
2
1
3
3
4
假设根据上表数据所得线性回归直线方程为y=bx+a.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b′x+a′,则以下结论正确的是( )
A.b>b′,a>a′ B.b>b′,a<a′
C.b<b′,a>a′ D.b<b′,a<a′
解析:选C 法一:由两组数据(1,0)和(2,2)可求得直线方程为y=2x-2,故b′=2,a′=-2.
而利用线性回归方程回归系数b,a的计算公式与已知表格中的数据,可求得
b===,
a=-b=-×=-,
所以b<b′,a>a′.
法二:根据所给数据画出散点图(如图所示)直接判断,斜率b′>b,截距a>a′.
5.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:y=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.
解析:由线性回归方程中b的意义可知年饮食支出平均增加0.254万元.
答案:0.254
6.某地区近10年居民的年收入x与支出y之间的关系大致符合y=0.8x+0.1(单位:亿元),预计今年该地区居民收入为15亿元,则年支出估计是________亿元.
解析:由题意知,y=0.8×15+0.1=12.1(亿元),即年支出估计是12.1亿元.
答案:12.1
7.已知x,y之间的一组数据如下表:
x
2
3
4
5
6
y
3
4
6
8
9
对于表中数据,现给出如下拟合直线:①y=x+1;②y=2x-1;③y=x-;④y=x.则根据最小二乘法的思想求得拟合程度最好的直线是________(填序号).
解析:由题意知=4,=6,∴b==,
∴a=-b=-,∴y=x-,故填③.
答案:③
8.随着网络的普及,网上购物的方式已经受到越来越多年轻人的青睐,某家网络店铺商品的成交量x(件)与店铺的浏览量y(次)之间的对应数据如下表所示:
x/件
2
4
5
6
8
y/次
30
40
50
60
70
(1)画出表中数据的散点图;
(2)根据表中的数据,求出y关于x的线性回归方程;
(3)要使这种商品的成交量突破100件(含100件),则这家店铺的浏览量至少为多少?
解:(1)散点图如图所示.
(2)根据散点图,变量x与y之间具有线性相关关系.
数据列成下表:
i
xi
yi
x
xiyi
1
2
30
4
60
2
4
40
16
160
3
5
50
25
250
4
6
60
36
360
5
8
70
64
560
合计
25
250
145
1 390
由上表计算出==5,==50,代入公式得b===7,a=-b=50-7×5=15,故所求的线性回归方程是y=15+7x.
(3)根据上面求出的线性回归方程,当成交量突破100件(含100件),即x=≥100时,y≥715,所以店铺的浏览量至少为715次.
9.李军为了研究某种细菌个数y(个)随温度x(℃)变化的关系,收集有关数据,如下表所示:
x/℃
14
16
18
20
22
y/个
12
10
7
5
3
(1)画出表中数据的散点图;
(2)求细菌个数y关于温度x的线性回归方程;
(3)当细菌的个数为9时,预测温度是多少(精确到0.1).
解:(1)散点图如图所示.
(2)由图可知,y与x之间具有线性相关关系.
==18,
==7.4,
=142+162+182+202+222=1 660,
iyi=14×12+16×10+18×7+20×5+22×3=620,
则b===-=-1.15,
a=-b=7.4+1.15×18=28.1,
所以线性回归方程为y=28.1-1.15x.
(3)由上述线性回归方程可知,当细菌的个数为9时,则由9=28.1-1.15x,得x≈16.6,即预测温度是16.6 ℃.