高中数学必修三知识讲解,巩固练习(复习补习,期末复习资料):12【基础】线性回归方程

文档属性

名称 高中数学必修三知识讲解,巩固练习(复习补习,期末复习资料):12【基础】线性回归方程
格式 zip
文件大小 467.7KB
资源类型 教案
版本资源 人教新课标A版
科目 数学
更新时间 2019-07-18 11:00:30

图片预览

文档简介

变量的相关关系
【学习目标】
1.明确两个变量具有相关关系的意义;
2.知道回归分析的意义;
3.知道回归直线、回归直线方程、线性回归分析的意义;
4.掌握对两个变量进行线性回归的方法和步骤,并能借助科学计算器确定实际问题中两个变量间的回归直线方程;
【要点梳理】
要点一、变量之间的相关关系
变量与变量之间存在着两种关系:一种是函数关系,另一种是相关关系。
1.函数关系
函数关系是一种确定性关系,如y=kx+b,变量取的每一个值,都有唯一确定的值和它相对应。
2.相关关系
变量间确定存在关系,但又不具备函数关系所要求的确定性
相关关系分为两种:
正相关和负相关
要点诠释:
对相关关系的理解应当注意以下几点:
(1)相关关系与函数关系不同.因为函数关系是一种非常确定的关系,而相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系.而函数关系可以看成是两个非随机变量之间的关系.因此,不能把相关关系等同于函数关系.
(2)函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.例如,有人发现,对于在校儿童,鞋的大小与阅读能力有很强的相关关系.然而,学会新词并不能使脚变大,而是涉及到第三个因素——年龄.当儿童长大一些,他们的阅读能力会提高而且由于长大脚也变大.
(3)函数关系与相关关系之间有着密切联系,在一定的条件下可以相互转化.例如正方形面积S与其边长x间虽然是一种确定性关系,但在每次测量边长时,由于测量误差等原因,其数值大小又表现出一种随机性.而对于具有线性关系的两个变量来说,当求得其回归直线后,我们又可以用一种确定性的关系对这两个变量间的关系进行估计.
3.散点图
将收集到的两个变量的统计数据分别作为横、纵坐标,在直角坐标系中描点,这样的图叫做散点图。通过散点图可初步判断两个变量之间是否具有相关关系,她反映了各数据的密切程度。
要点二、正相关、负相关
(1)正相关:在统计数据中的两个变量,一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为正相关。如:家庭年收入越高,年饮食支出越高。反映在散点图上它们散布在从左下角到右上角的区域,按表中所列数据制作散点图如图
A
0
5
10
15
20
25
30
35
B
541.67
602.66
670.09
704.99
806.71
908.59
975.42
1034.75
/
(2)负相关:如果两个变量中,一个变量的值由小到大变化时,另一个变量的值由大到小变化,那么这种相关称为负相关。在散点图中,对应数据的位置为从左上角到右下角的区域。按表中所列数据制作的散点图如图。
C
5
8
16
18
28
30
35
D
64
56
50
42
37
32
21
/
(3)无相关关系:如果关于两个变量统计数据的散点图如下图所示,那么这两个变量之间不具有相关关系。例如,学生的身高与学生的学习成绩没有相关关系。
/
要点诠释:
利用散点图可以大致判断两个变量之间有无相关关系。
要点三、线性回归方程
1.回归直线方程
(1)回归直线:观察散点图的特征,发现各个大致分布在通过散点图中心的一条直线附近。如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线。求出的回归直线方程简称回归方程。
2.回归直线方程的求法
设与个观测点()最接近的直线方程为,其中a、b是待定系数.
则 .于是得到各个偏差
.
显见,偏差的符号有正有负,若将它们相加会造成相互抵消,所以它们的和不能代表几个点与相应直线在整体上的接近程度,故采用n个偏差的平方和.
表示n个点与相应直线在整体上的接近程度.
记.
上述式子展开后,是一个关于a、b的二次多项式,应用配方法,可求出使Q为最小值时的a、b的值.即
, ,
相应的直线叫做回归直线,对两个变量所进行的上述统计分析叫做回归分析 /
上述求回归直线的方法是使得样本数据的点到回归直线的距离的平方和最小的方法,叫做最小二乘法。
要点诠释:
1.对回归直线方程只要求会运用它进行具体计算a、b,求出回归直线方程即可.不要求掌握回归直线方程的推导过程.
2.求回归直线方程,首先应注意到,只有在散点图大致呈线性时,求出的回归直线方程才有实标意义.否则,求出的回归直线方程毫无意义.因此,对一组数据作线性回归分析时,应先看其散点图是否成线性.
3.求回归直线方程,关键在于正确地求出系数a、b,由于求a、b的计算量较大,计算时仔细谨慎、分层进行,避免因计算产生失误.
4.回归直线方程在现实生活与生产中有广泛的应用.应用回归直线方程可以把非确定性问题转化成确定性问题,把“无序”变为“有序”,并对情况进行估测、补充.因此,学过回归直线方程以后,应增强学生应用回归直线方程解决相关实际问题的意识.
【典型例题】
类型一:变量间的相关关系与函数关系
例1.下列图形中具有相关关系的两个变量是( )
/
【答案】 C
【解析】A、B中显然任给一个x都有唯一确定的y值和它对应,是函数关系;C中从散点图可看出所有点看上去都在某条直线附近波动,具有相关关系,因此变量间是不相关的。
举一反三:
【变式1】下列两变量中具有相关关系的是(   )
(A)正方体的体积与边长;(B)匀速行驶的车辆的行驶距离与时间;
(C)人的身高与体重;  (D)人的身高与视力
【答案】
选(C).
例2.某小卖部为了解热茶销售量与气温之间的关系,随机统计并制作了某6天卖出热茶杯数与当天气温的对比表。
气温x/℃
26
18
13
10
4
-1
杯数y
20
24
34
39
50
64
请画出散点图,并判断它们是否有相关关系。
【解析】 散点图如下图:
/
从图中发现气温与杯数之间具有相关关系,当气温的值由小到大变化时杯数值由大变小,所以气温和杯数成负相关。
【总结升华】画出散点图可帮助分析变量间是否具有相关关系,但不是唯一的判断途径。
举一反三:
【变式1】对变量x, y 有观测数据()(i=1,2,…,10),得散点图1;对变量u ,v 有观测数据()(i=1,2,…,10),得散点图2. 由这两个散点图可以判断
/
图1 图2
A.变量x 与y 正相关,u 与v 正相关
B.变量x 与y 正相关,u 与v 负相关
C.变量x 与y 负相关,u 与v 正相关
D.变量x 与y 负相关,u 与v 负相关
【答案】C
【变式2】下表是某地的年降雨量与年平均气温,判断两者是相关关系吗?求回归直线方程有意义吗?
年平均气温(℃)
12.51
12.74
12.74
13.69
13.33
12.84
13.05
年降雨量(mm)
748
542
507
813
574
701
432
【解析】 以x轴为年平均气温,y轴为年降雨量,可得相应的散点图如下图所示。
/
因为图中各点并不在一条直线的附近,所以两者不具有相关关系,求回归直线方程是没有意义的。
【总结升华】用回归直线进行拟合两变量关系的一般步骤为:
①作出散点图,判断各点是否散布在一条直线附近。
②如果各点散布在一条直线附近,那么可用公式求出线性回归方程;如果各点不在一条直线附近,那么求出的回归直线方程没有意义。
类型二:回归直线方程的求解
例3.(2017春 吉林龙井市期中)某产品的广告费与销售额有如下数据:
x
2
3
5
6
y
6
7
8
11
(1)求成本y与产量x之间的线性回归方程.
(2)若实际销售额不少于60万元,是广告费支出应该不少于多少?
【思路点拨】(1)先求出横标和纵标的平均数,得到这组数据的样本中心点,利用最小二乘法求出线性回归方程的系数,代入样本中心点求出a的值,写出线性回归方程.
(2)将y=60代入回归直线方程求出x的值即为实际销售额不少于60万元时广告费支出的估计值.
【答案】(1)y=1.1x+3.6;(2)51.2万元
【解析】(1),,,,
∴,a=8-1.1×4=3.6
故回归方程为y=1.1x+3.6
(2)当y=60时,1.1x+3.6=60,
解得x≈51.2,
若实际销售额不少于60万元,则广告费支出应不少于51.2万元.
举一反三:
【变式1】 某产品的广告费用x与销售额y的统计数据如下表:
广告费用x(万元)
4
2
3
5
销售额y(万元)
49
26
39
54
根据上表可得回归方程/中的/为9.4,据此模型预报广告费用为6万元时销售额为
A.63.6万元 B.65.5万元 C.67.7万元 D.72.0万元
【答案】选B
【解析】
,回归方程为,
当时,=65.5,故选B.
【变式2】 观察两相关变量得如下数据:
x
-1
-2
-3
-4
-5
5
3
4
2
1
y
-9
-7
-5
-3
-1
1
5
3
7
9
求两变量间的回归方程.
【答案】
【解析】列表:
i
1
2
3
4
5
6
7
8
9
10
xi
-1
-2
-3
-4
-5
5
3
4
2
1
yi
-9
-7
-5
-3
-1
1
5
3
7
9
xiyi
9
14
15
12
5
5
15
12
14
9
计算得:,。
,。
∴。

∴所求回归直线方程为。
类型三:利用回归直线对总体进行估计
例4.某5名学生的总成绩和数学成绩如下表:
学生
A
B
C
D
E
总成绩(分)
482
383
421
364
362
数学成绩(分)
78
65
71
64
61
(1)求数学成绩对总成绩的回归直线方程;
(2)如果一个学生的总成绩为450分,试预测这个学生的数学成绩。
【解析】(1)列表
i
1
2
3
4
5
xi
482
383
421
364
362
yi
78
65
71
64
61
xiyi
37596
24895
29891
23296
22082




∴回归方程为。
(2)根据上面求得的回归方程,当总成绩为450分时,。
即数学成绩大约为74分。
【总结升华】利用回归直线,可以进行预测,但并不是一定能达到预测的结果。事实上,有可能因其他的随机因素而出现偏差。
举一反三:
【变式1】(2017春 湖南娄底期中)假设关于某设备使用年限x(年)和所支出的维修费用y(万元)有如下统计资料:
x
1
2
4
5
y
1
1.5
5.5
8
若由资料可知y对x呈线性相关关系,则y与x的线性回归方程必过的点是( )
A.(2,2) B.(1,2) C.(3,4) D.(4,5)
【思路点拨】根据所给的两组数据,做出横标和纵标的平均数,写出这组数据的样本中心点,根据线性回归方程一定过样本中心点,得到线性回归直线一定过的点的坐标.
【答案】C
【解析】∵

∴这组数据的样本中心点是(3,4)
∵线性回归方程过样本中心点,
∴线性回归方程一定过点(3,4)
故选C.
【变式2】下表是某地搜集到的新房屋的销售价格y,(单位:万元)和房屋的面积x(单位:m。)的数据:
x
115
110
80
135
105
y
44.8
41.6
38.4
49.2
42
(1)画出散点图;
(2)求回归方程;
(3)根据(2)的结果估计当房屋面积为150 m2时的销售价格.
【解析】 据已知样本数据得到回归直线方程后,即得到两个变量之间相关关系的一个规律,因此可将给定的x值代入回归直线方程预测y值.
(1)散点图如图2-3-7所示.

(2)由散点图可以看出,这些点大致分布在一条直线的附近,可求回归方程.由表中的数据,用计算器计算得,,,.
则,
.故所求回归方程为.
(3)根据上面求得的回归方程,当房屋面积为1500时,销售价格的估计值为0.196×150+21.836=51.236(万元).
【巩固练习】
1.下列所给出的两个变量之间存在相关关系的是( ).
A.学生的座号与数学成绩
B.学生的学号与身高
C.曲线上的点与该点的坐标之间的关系
D.学生的身高与体重
2.下列各图中所示两个变量具有相关关系的是( ).
/
A.①② B.①③ C.②④ D.②③
3.一位母亲记录了她儿子3岁到9岁的身高,建立了儿子身高 (单位:cm)与年龄的回归方程为,用这个方程预测儿子10岁时的身高,则下面的叙述正确的是( ).
A.她儿子10岁时的身高一定是145.83 cm
B.她儿子10岁时的身高在145.83 cm以上
C.她儿子10岁时的身高在145.83 cm左右
D.她儿子10岁时的身高在145.83 cm以下
4.对变量x,y,有观测数据(xi,yi)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断( ).
/
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
5.下列说法中,错误的是( ).
A.如果变量x与y之间存在着线性相关关系,那么根据实验数据得到的点(xi,yi)(i=1,2,…,n)将散布在某一条直线的附近
B.如果变量x和y之间不存在线性相关关系,那么根据它们的一组数据(xi,yi)(i=1,2,…,n)不能写出一个线性回归方程
C.设x、y是具有相关关系的两个变量,且y关于x的线性回归方程为,、就是回归系数
D.为使求出的线性回归直线方程有意义,可用统计假设检验的方法来判断变量x和y之间是否存在线性相关关系
6.(2017春 广东湛江期末)如表是x和y之间的一组数据,则y关于x的回归直线方程必过( )
x
1
2
3
4
y
1
3
5
7
A.点(2,3) B.点(3,5) C.点(2.5,4) D.点(2.5,5)
7.对于回归分析,下列说法错误的是( ).
A.变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定
B.线性相关系数,可以是正的,也可以是负的
C.回归分析是对具有相关关系的两个变量进行统计分析的方法
D.任何一组数据都可以得到一个回归直线方程
8.由一组样本数据得到的回归直线,那么下面说法不正确的是(  )
A.直线必经过点
B.直线至少经过点中的一个点
C.直线的斜率为
D.直线和各点的偏差和是该坐标平面上所有直线与这些点的偏差和中最小的直线.
9.经实验得(x,y)的四个值,即(1,2),(2,3),(3,4),(4,5).y与x之间的回归直线方程是______.
10.回归分析是处理变量之间的________关系的一种统计方法.两个变量之间具有线性相关关系时,称相应的回归分析为________.
11.(2017 江西一模)今年一轮又一轮的寒潮席卷全国.某商场为了了解某品牌羽绒服的月销售量y(件)与月平均气温x(℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,数据如下表:
月平均气温x(℃)
17
13
8
2
月销售量y(件)
24
33
40
55
由表中数据算出线性回归方程中的b≈-2.气象部门预测下个月的平均气温约为6℃,据此估计,该商场下个月毛衣的销售量的件数约为________.
12.为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x(单位:小时)与当天投篮命中率y之间的关系:
时间x
1
2
3
4
5
命中率y
0.4
0.5
0.6
0.6
0.4
小李这5天的平均投篮命中率为________;用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为________。
13.(2017春 山东聊城月考)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:
零件的个数x(个)
2
3
4
5
加工的时间y(小时)
2.5
3
4
4.5
由表中数据算的线性回归方程中的b≈0.7,试预测加工10个零件需多少个小时.(已知)
14.给出了随机抽取的10位男性的收缩血压.
年龄x(岁)
收缩压y(毫米汞柱)
年龄x(岁)
收缩压y(毫米汞柱)
37
110
50
146
35
117
49
148
41
125
54
150
43
130
60
154
42
138
65
160
(1)画出散点图;
(2)求出收缩压与年龄之间的回归直线;
(3)利用所求回归直线分别预测20岁、45岁的人的收缩压是多少?
(4)就(3)所得预测结果,比较其预测的精确性。
【答案与解析】
1.【答案】D
【解析】A与B中的两个变量之间没有任何关系;C中的两个变量之间具有函数关系.故选D.
2.【答案】D
【解析】具有相关关系的两个变量的数据所对应的图形是散点图,②③能反映两个变量的变化规律,它们之间是相关关系.故选D.
3.【答案】C
【解析】利用回归方程进行预测,只能说身高在某一预测值附近.由回归方程预测儿子10岁时的身高(cm).故选C.
4.【答案】C
【解析】由这两个散点图可以判断,变量x与y负相关,u与v正相关.故选C.
5.【答案】B
【解析】x和y之间存在一组数据(xi,yi)(i=1,2…,n)就一定能写出y关于x的线性回归方程.x和y可能线性相关.也可能非线性相关,甚至不相关.
6.【答案】C
【解析】由已知得:


故y关于x的回归直线方程必过点(2.5,4),
故选:C.
7.【答案】D
【解析】B中,相关系数的正负体现两变量之间是正相关还是负相关.两变量若具有相关关系,才能进行回归分析.若不具有相关关系,求得的方程无意义,故D错,C对.
8.【答案】B
【解析】直线不一定经过样本点.
9.【答案】
【解析】 四个点的坐标适合方程x+1=y,所以回归直线方程.
10.【答案】相关 线性回归分析
【解析】了解回归分析是怎么回事,它的作用是什么.就可求解.
11.【答案】46
【解析】由表格得为:(10,38),
又在回归方程上且b≈-2
∴38=10×(-2)+a,
解得:a=58,
∴.
当x=6时,.
故答案为:46
12.【答案】0.5 0.53
【解析】 平均命中率y=×(0. 4+0.5+0.6+0.6+0.4)=0.5;而,
(-2)×(-0.1)+( -1)×0+0×0.1+1×0.1+2×(-0.1)=0.1,
(-2)2+(-1)2+02+12+22=10,于是,,
∴,令x=6,得。
13.【答案】8.05小时
【解析】由表中数据得:,,,.

故a=3.5-0.7×3.5=1.05,
∴y=0.7x+1.05.
将x=10代入回归直线方程,得y=0.7×10+1.05=8.05(小时).
∴预测加工10个零件需要8.05小时.
14.【解析】(1)散点图为:
(2)收缩压与年龄之间的回归直线
序号
x
y
x2
xy
1
37
110
1369
4070
2
35
117
1225
4095
3
41
125
1681
5125
4
43
130
1849
5590
5
42
138
1764
5796
6
50
146
2500
7300
7
49
148
2401
7252
8
54
150
2916
8100
9
60
154
3600
9240
10
65
160
4225
10400
求和
476
1378
23530
66968
列表:
所以y对x的回归直线方程为:
(3)根据所求的回归直线方程可以预测20岁的收缩压为
445岁的收缩压为:毫米汞柱
(4)预测20岁的结果时,20是外推的,所以不是很精确;而45是内插值,所以精确性比20的预测结果要好。