§1 回归分析
1.1 回归分析
学习目标 1.会建立线性回归模型分析两个变量间的相关关系.2.掌握建立线性回归模型的步骤.
知识点 线性回归方程
思考 (1)什么叫回归分析?
(2)回归分析中,利用线性回归方程求出的函数值一定是真实值吗?
答案 (1)回归分析是对具有相关关系的两个变量进行统计分析的一种方法.
(2)不一定是真实值,利用线性回归方程求的值,在很多时候是个预报值,例如,人的体重与身高存在一定的线性关系,但体重除了受身高的影响外,还受其他因素的影响,如饮食、是否喜欢运动等.
梳理 (1)平均值的符号表示
假设样本点为(x1,y1),(x2,y2),…,(xn,yn),在统计上,用表示一组数据x1,x2,…,xn的平均值,即==i;用表示一组数据y1,y2,…,yn的平均值,即==i.
(2)参数a,b的求法
b===,a=-b.
(3)样本点的中心(,),回归直线过样本点的中心.
1.现实生活中的两个变量要么是函数关系,要么是相关关系.( × )
2.散点图能准确判定两个变量是否具有线性相关关系.( × )
3.回归直线不一定过样本中的点,但一定过样本点的中心.( √ )
类型一 概念的理解和判断
例1 有下列说法:
①线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的数学方法;
②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;
③通过回归方程y=bx+a可以估计观测变量的取值和变化趋势;
④因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.
其中正确命题的个数是( )
A.1B.2C.3D.4
考点 回归分析
题点 回归分析的概念和意义
答案 C
解析 ①反映的正是最小二乘法思想,正确;②反映的是画散点图的作用,正确;③反映的是回归方程y=bx+a的作用,正确;④不正确,在求回归方程之前必须进行相关性检验,以体现两变量的关系.
跟踪训练1 下列变量关系是相关关系的是( )
①学生的学习时间与学习成绩之间的关系;
②某家庭的收入与支出之间的关系;
③学生的身高与视力之间的关系;
④球的体积与半径之间的关系.
A.①② B.①③
C.②③ D.②④
考点 回归分析
题点 回归分析的概念和意义
答案 A
解析 对①,学习时间影响学生的学习成绩,但是学生学习的刻苦程度、学生的学习方法、教师的授课水平等其他因素也影响学生的成绩,因此学生的学习时间与学习成绩之间具有相关关系;对②,家庭收入影响支出,但支出除受收入影响外,还受其他因素影响,故它们是相关关系;对③,身高与视力之间互不影响,没有任何关系;对④,球的体积由半径决定,是一种确定性关系,故它们是函数关系.
类型二 回归分析
例2 某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:
x
6
8
10
12
y
2
3
5
6
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y=bx+a;
(3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.
考点 线性回归方程
题点 求线性回归方程
解 (1)如图:
(2)iyi=6×2+8×3+10×5+12×6=158,
==9,==4,
=62+82+102+122=344,
b===0.7,
a=-b=4-0.7×9=-2.3,
故线性回归方程为y=0.7x-2.3.
(3)由(2)中线性回归方程可知,当x=9时,y=0.7×9-2.3=4,预测记忆力为9的同学的判断力约为4.
反思与感悟 (1)求线性回归方程的基本步骤
①列出散点图,从直观上分析数据间是否存在线性相关关系.
②计算:,,,,iyi.
③代入公式求出y=bx+a中参数b,a的值.
④写出线性回归方程并对实际问题作出估计.
(2)需特别注意的是,只有在散点图大致呈线性时,求出的回归方程才有实际意义,否则求出的回归方程毫无意义.
跟踪训练2 已知某地区4~10岁女孩各自的平均身高数据如下:
年龄x/岁
4
5
6
7
8
9
10
身高y/cm
100
106
112
116
121
124
130
求y对x的线性回归方程.(保留两位小数)
考点 线性回归方程
题点 求线性回归方程
解 制表
i
1
2
3
4
5
6
7
xi
4
5
6
7
8
9
10
yi
100
106
112
116
121
124
130
xiyi
400
530
672
812
968
1116
1300
=7,=,=371,iyi=5798
b==≈4.82,
a=-b=-4.82×7≈81.83.
所以线性回归方程为y=81.83+4.82x.
例3 某商场经营一批进价是30元/台的小商品,在市场试验中发现,此商品的销售单价x(x取整数)(元)与日销售量y(台)之间有如下关系:
x
35
40
45
50
y
56
41
28
11
(1)画出散点图,并判断y与x是否具有线性相关关系;
(2)求日销售量y对销售单价x的线性回归方程;
(3)设经营此商品的日销售利润为P元,根据(2)写出P关于x的函数关系式,并预测当销售单价x为多少元时,才能获得最大日销售利润.
考点 线性回归分析
题点 回归直线方程的应用
解 (1)散点图如图所示,从图中可以看出这些点大致分布在一条直线附近,因此两个变量线性相关.
(2)因为=×(35+40+45+50)=42.5,
=×(56+41+28+11)=34.
iyi=35×56+40×41+45×28+50×11=5410.
=352+402+452+502=7350.
所以b===≈-3.
a=-b=34-(-3)×42.5=161.5.
所以线性回归方程为y=161.5-3x.
(3)依题意,有P=(161.5-3x)(x-30)=-3x2+251.5x-4845
=-32+-4845.
所以当x=≈42时,P有最大值,约为426元.即预测当销售单价为42元时,能获得最大日销售利润.
反思与感悟 解答线性回归题目的关键是首先通过散点图来分析两变量间的关系是否线性相关,然后再利用求线性回归方程的公式求解线性回归方程,在此基础上,借助线性回归方程对实际问题进行分析.
跟踪训练3 一台机器由于使用时间较长,生产的零件有一些会缺损,按不同转速生产出来的零件有缺损的统计数据如下表:
转速x(转/秒)
16
14
12
8
每小时生产缺损零件数y(件)
11
9
8
5
(1)作出散点图;
(2)如果y与x线性相关,求出线性回归方程;
(3)若在实际生产中,允许每小时的产品中有缺损的零件最多为10个,那么,机器的运转速度应控制在什么范围?
考点 线性回归分析
题点 回归直线方程的应用
解 (1)根据表中的数据画出散点图如图.
(2)设线性回归方程为:y=bx+a,并列表如下:
i
1
2
3
4
xi
16
14
12
8
yi
11
9
8
5
xiyi
176
126
96
40
=12.5,=8.25,=660,iyi=438,
所以b=≈0.73,a=8.25-0.73×12.5=-0.875,
所以y=0.73x-0.875.
(3)令0.73x-0.875≤10,解得x<14.9≈15,
故机器的运转速度应控制在15转/秒内.
1.某商品销售量y(件)与销售价格x(元/件)负相关,则其线性回归方程可能是( )
A.y=-10x+200 B.y=10x+200
C.y=-10x-200 D.y=10x-200
考点 线性回归分析
题点 线性回归方程的应用
答案 A
解析 因为y与x负相关,所以排除B,D,
又因为C项中x>0时,y<0不合题意,所以C错.
2.如图四个散点图中,适合用线性回归模型拟合其中两个变量的是( )
A.①②B.①③C.②③D.③④
考点 回归分析
题点 回归分析的概念和意义
答案 B
解析 由图易知①③两个图中样本点在一条直线附近,因此适合用线性回归模型.
3.下表是x和y之间的一组数据,则y关于x的回归直线必过点( )
x
1
2
3
4
y
1
3
5
7
A.(2,3) B.(1.5,4)
C.(2.5,4) D.(2.5,5)
考点 线性回归方程
题点 样本点中心的应用
答案 C
解析 回归直线必过样本点中心(,),即(2.5,4).
4.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本.某白酒酿造企业市场部对该企业9月份的产品销量x(单位:千箱)与单位成本y(单位:元)的资料进行线性回归分析,结果如下:=,=71,=79,iyi=1481,则销量每增加1000箱,单位成本下降________元.
考点 线性回归分析
题点 线性回归方程的应用
答案 1.8182
解析 由题意知,b=≈-1.8182,
a=71-(-1.8182)×≈77.36,
∴y关与x的线性回归方程为
y=-1.8182x+77.36,
即销量每增加1千箱,单位成本下降1.8182元.
5.已知x,y之间的一组数据如下表:
x
0
1
2
3
y
1
3
5
7
(1)分别计算:,,x1y1+x2y2+x3y3+x4y4,x+x+x+x;
(2)已知变量x与y线性相关,求出线性回归方程.
考点 线性回归方程
题点 求线性回归方程
解 (1)==1.5,==4,
x1y1+x2y2+x3y3+x4y4=0×1+1×3+2×5+3×7=34,
x+x+x+x=02+12+22+32=14.
(2)b==2,
a=-b=4-2×1.5=1,
故线性回归方程为y=2x+1.
回归分析的步骤
(1)确定研究对象,明确哪个变量是自变量,哪个变量是因变量.
(2)画出确定好的因变量关于自变量的散点图,观察它们之间的关系(如是否存在线性关系等).
(3)由经验确定回归方程的类型(如果呈线性关系,则选用线性回归方程y=bx+a).
(4)按一定规则估计回归方程中的参数.
一、选择题
1.对变量x,y由观测数据(xi,yi)(i=1,2,…,10),得散点图(1);对变量u,v由观测数据(ui,vi)(i=1,2,…,10),得散点图(2),由这两个散点图可以判断( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
考点 回归分析
题点 回归分析的概念和意义
答案 C
解析 由题图(1)可知,各点整体呈递减趋势,x与y负相关;
由题图(2)可知,各点整体呈递增趋势,u与v正相关.
2.某医学科研所对人体脂肪含量与年龄这两个变量研究得到一组随机样本数据,运用Excel软件计算得y=0.577x-0.448(x为人的年龄,y为人体脂肪含量).对年龄为37岁的人来说,下面说法正确的是( )
A.年龄为37岁的人体内脂肪含量为20.90%
B.年龄为37岁的人体内脂肪含量约为21.01%
C.年龄为37岁的人群中的大部分人的体内脂肪含量约为20.90%
D.年龄为37岁的人群中的大部分人的体内脂肪含量约为31.5%
考点 线性回归分析
题点 线性回归方程的应用
答案 C
解析 当x=37时,y=0.577×37-0.448=20.901≈20.90,
由此估计,年龄为37岁的人群中的大部分人的体内脂肪含量约为20.90%.
3.已知变量x和y满足关系y=-0.1x+1,变量y与z正相关,下列结论中正确的是( )
A.x与y负相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y正相关,x与z负相关
D.x与y负相关,x与z正相关
考点 回归分析
题点 回归分析的概念和意义
答案 A
解析 由正相关和负相关的定义知A正确.
4.某同学在研究性学习中,收集到某制药厂今年前5个月甲胶囊生产产量(单位:万盒)的数据如下表所示:
x(月份)
1
2
3
4
5
y(万盒)
5
5
6
6
8
若x,y线性相关,线性回归方程为y=0.7x+a,估计该制药厂6月份生产甲胶囊产量约为( )
A.8.0万盒B.8.1万盒C.8.9万盒D.8.6万盒
考点 线性回归分析
题点 线性回归方程的应用
答案 B
解析 回归直线一定过样本点中心.由已知数据可得=3,=6,代入回归方程,可得a=-0.7=3.9,即线性回归方程为y=0.7x+3.9.把x=6代入,可近似得y=8.1,故选B.
5.工人月工资y(单位:元)关于劳动生产率x(单位:千元)的回归方程为y=650+80x,下列说法中正确的个数是( )
①劳动生产率为1000元时,工资约为730元;
②劳动生产率提高1000元,则工资提高80元;
③劳动生产率提高1000元,则工资提高730元;
④当月工资为810元时,劳动生产率约为2000元.
A.1B.2C.3D.4
考点 线性回归分析
题点 线性回归方程的应用
答案 C
解析 代入方程计算可判断①②④正确.
6.某化工厂为预测某产品的回收率y,而要研究它和原料有效成分含量之间的相关关系,现取了8对观测值,计算得i=52,i=228,=478,iyi=1849,则y与x的线性回归方程是( )
A.y=11.47+2.62x B.y=-11.47+2.62x
C.y=2.62+11.47x D.y=11.47-2.62x
考点 线性回归方程
题点 求线性回归方程
答案 A
解析 由题中数据,得=6.5,=28.5,
∴b===≈2.62,
a=-b≈28.5-2.62×6.5=11.47,
∴y对x的线性回归方程是y=2.62x+11.47,故选A.
7.为研究变量x和y的线性相关性,甲、乙二人分别作了研究,利用线性回归方法得到回归直线l1和l2,两人计算知相同,也相同,下列正确的是( )
A.l1与l2一定重合
B.l1与l2一定平行
C.l1与l2相交于点(,)
D.无法判断l1和l2是否相交
考点 回归直线方程
题点 样本点中心的应用
答案 C
解析 因为两个人在试验中发现对变量x的观测数据的平均值都是,对变量y的观测数据的平均值都是,所以两组数据的样本点中心都是(,),因为回归直线经过样本点的中心,所以l1和l2都过(,).
二、填空题
8.某校小卖部为了了解奶茶销售量y(杯)与气温x(℃)之间的关系,随机统计了某4天卖出的奶茶杯数与当天的气温,得到下表中的数据,并根据该样本数据用最小二乘法建立了线性回归方程y=-2x+60,则样本数据中污损的数据y0应为________.
气温x(℃)
-1
13
10
18
杯数y
y0
34
38
24
考点 线性回归分析
题点 线性回归方程的应用
答案 64
解析 由表中数据易知=10,代入y=-2x+60中,
得y=40.由=40,得y0=64.
9.调查某移动公司的三名推销员,其工作年限与年推销金额的数据如下表所示.
推销员编号
1
2
3
工作年限x(年)
3
5
10
年推销金额y(万元)
2
3
4
由表中数据算出线性回归方程y=bx+a中的b=.
若该公司第四名推销员的工作年限为6年,则估计他的年推销金额约为________万元.
考点 线性回归分析
题点 线性回归方程的应用
答案 3
解析 =6,=3,由回归直线经过样本点中心可知,该推销员年推销金额约为3万元.
10.某人对一地区人均工资x(千元)与该地区人均消费y(千元)进行统计调查,发现y与x有相关关系,并得到线性回归方程y=0.66x+1.562.若该地区的人均消费水平为7.675千元,则估计该地区的人均消费额占人均工资收入的百分比约为________.(精确到0.1%)
考点 线性回归分析
题点 线性回归方程的应用
答案 82.9%
解析 当y=7.675时,x≈9.262,
所以该地区的人均消费额占人均工资收入的百分比约为×100%≈82.9%.
11.某数学老师身高为176cm,他爷爷、父亲和儿子的身高分别是173cm,170cm和182cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________cm.
考点 线性回归分析
题点 线性回归方程的应用
答案 183.5
解析 记从爷爷起向下各代依次为1,2,3,4,5,用变量x表示,其中5代表孙子.各代人的身高为变量y,则有
x
1
2
3
4
y
173
170
176
182
计算知=2.5,=175.25.由回归系数公式得b=3.3,a=-b=175.25-3.3×2.5=167,∴线性回归方程为y=3.3x+167,当x=5时,y=3.3×5+167=183.5,故预测其孙子的身高为183.5cm.
三、解答题
12.从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得i=80,i=20,iyi=184,=720.
(1)求家庭的月储蓄y对月收入x的线性回归方程y=bx+a;
(2)判断变量x与y之间是正相关还是负相关;
(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.
附:b=,a=-b.
考点 线性回归方程
题点 线性回归方程的应用
解 (1)由题意,n=10,i=80,i=20,
∴==8,==2.
又-102=720-10×82=80,iyi-10=184-10×8×2=24,
由此得b===0.3,a=-b=2-0.3×8=-0.4,
故所求线性回归方程为y=0.3x-0.4.
(2)由于变量y的值随x值的增加而增加(b=0.3>0),故x与y之间是正相关.
(3)将x=7代入回归方程可以预测该家庭的月储蓄约为y=0.3×7-0.4=1.7(千元).
13.随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:
年份
2010
2011
2012
2013
2014
时间代号t
1
2
3
4
5
储蓄存款y(千亿元)
5
6
7
8
10
(1)求y关于t的回归方程y=bt+a;
(2)用所求回归方程预测该地区2019年(t=10)的人民币储蓄存款.
附:回归方程y=bt+a中,b=,a=-b.
考点 线性回归方程
题点 求线性回归方程
解 (1)列表计算如下:
i
ti
yi
t
tiyi
1
1
5
1
5
2
2
6
4
12
3
3
7
9
21
4
4
8
16
32
5
5
10
25
50
∑
15
36
55
120
此时n=5,=i==3,=i==7.2.
又ltt=-n2=55-5×32=10,lty=iyi-n=120-5×3×7.2=12,
从而b===1.2,a=-b=7.2-1.2×3=3.6,
故所求回归方程为y=1.2t+3.6.
(2)将t=10代入回归方程,可预测该地区2019年的人民币储蓄存款为y=1.2×10+3.6=15.6(千亿元).
四、探究与拓展
14.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元)
8
8.2
8.4
8.6
8.8
9
销量y(件)
90
84
83
80
75
68
(1)求线性回归方程y=bx+a,其中b=-20,a=-b;
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)
解 (1)==8.5,
=(90+84+83+80+75+68)=80.
∵b=-20,a=-b,
∴a=80+20×8.5=250,
∴线性回归方程为y=-20x+250.
(2)设工厂获得的利润为L元,则
L=x(-20x+250)-4(-20x+250)=-202+361.25,
∴该产品的单价应定为元,才使工厂获得的利润最大.