高中数学苏教版(2022春 )选择性必修第二册 9.1.2 线性回归方程(87张PPT)

文档属性

名称 高中数学苏教版(2022春 )选择性必修第二册 9.1.2 线性回归方程(87张PPT)
格式 pptx
文件大小 2.9MB
资源类型 教案
版本资源 苏教版(2019)
科目 数学
更新时间 2022-02-16 11:42:23

图片预览

文档简介

(共87张PPT)
9.1.2 线性回归方程
第9章 §9.1 线性回归分析
学习目标
1.能结合实例,根据散点图,判断两个变量是否具有相关关系.
2.了解最小二乘法原理,会求线性回归方程,并能根据线性回归
方程进行预测.
恩格尔系数(Engel’s Coefficient)是根据恩格尔定律得出的比例数,指居民家庭中食物支出占消费总支出的比重,是衡量生活水平高低的一个指标.其计算公式:恩格尔系数=食物支出金额÷总支出金额.
导语
一个家庭收入越少,家庭收入中或者家庭总支出中用来购买食物的支出所占的比例就越大,随着家庭收入的增加,家庭收入中或者家庭支出中用来购买食物的支出所占比例将会下降.
恩格尔系数是预测生活水平高低的一个模型,那么当两个变量线性相关时,我们如何对样本数据建立一个模型进行预测?
随堂演练
课时对点练
一、线性回归模型
二、利用线性回归方程对总体进行估计
三、非线性回归问题
内容索引
一、线性回归模型
问题 如果散点图中的样本点大体分布在一条直线附近,怎样选择恰当的直线反映两个变量之间的线性相关关系?
提示 可以用y=a+bx+ε来反映两个变量之间的线性关系.
知识梳理
1.随机误差
具有线性相关关系的两个变量的取值x,y,y的值不能由x完全确定,它们之间是统计相关关系,可将x,y之间的关系表示为y=a+bx+ε,其中 是确定性函数, 称为随机误差.
2.随机误差产生的主要原因
(1)所用的 不恰当引起的误差;
(2)忽略了 ;
(3)存在 误差.
a+bx
确定性函数
某些因素的影响
观测
ε
a+bx+ε
回归
截距
回归系数
回归值
例1 某种产品的广告费支出x(单位:百万元)与销售额y(单位:百万元)之间有如下对应数据:
x 2 4 5 6 8
y 30 40 60 50 70
求线性回归方程.
解 列出下表,并用科学计算器进行有关计算.
i 1 2 3 4 5
xi 2 4 5 6 8
yi 30 40 60 50 70
xiyi 60 160 300 300 560
4 16 25 36 64
反思感悟 求线性回归方程可分如下四步来完成
(4)写:写出线性回归方程.
跟踪训练1 某班5名学生的数学和物理成绩如表:
学生 学科 A B C D E
数学成绩(x) 88 76 73 66 63
物理成绩(y) 78 65 71 64 61
求物理成绩y对数学成绩x的线性回归方程.
=25 054.
≈0.625,
二、利用线性回归方程对总体进行估计
例2 某研究机构对高三学生的记忆力x和判断力y进行统计分析,得如表数据:
(1)请画出上表数据的散点图;
x 6 8 10 12
y 2 3 5 6
解 散点图如图所示.
x 6 8 10 12
y 2 3 5 6
(3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.
反思感悟 (1)判断两个变量是否线性相关:可以利用经验,也可以画散点图.
(2)求线性回归方程,注意运算的正确性.
(3)根据线性回归方程进行预测估计:估计值不是实际值,两者会有一定的误差.
跟踪训练2 假设关于某种设备的使用年限x(单位:年)与所支出的维修费用y(单位:万元)有如下统计资料:
x 2 3 4 5 6
y 2.2 3.8 5.5 6.5 7.0
(1)计算y与x之间的相关系数(精确到0.001),并求出线性回归方程;
≈0.987.
(2)根据线性回归方程,预测假设使用年限为10年时,维修费用约是多少万元?
即假设使用10年时,维修费用约为12.38万元.
三、非线性回归问题
解非线性回归分析问题的一般步骤
有些非线性回归分析问题并不给出函数,这时我们可以根据已知数据画出散点图,与学过的各种函数(幂函数、指数函数、对数函数等)的图象进行比较,挑选一种跟这些散点拟合得最好的函数,用适当的变量进行变换,把问题转化为线性回归分析问题,使之得到解决.
知识梳理
说明:由于涉及的数据比较多,考虑到可操作性,考试时往往会给出散点图,或将画散点图这一步骤省略,只需要选一些数据,画一下草图,作出判断即可,并且相关数据都会直接给出.
一般步骤为:
例3 某企业为确定下一年投入某种产品的研发费用,需了解年研发费用x(单位:千万元)对年销售量y(单位:千万件)的影响,统计了近10年投入的年研发费用xi与年销售量yi(i=1,2,…,10)的数据,得到散点图如图所示.
(1)利用散点图判断y=a+bx和y=c·xd(其中c,d均为大于0的常数)哪一个更适合作为年销售量y和年研发费用x的回归方程类型(只要给出判断即可,不必说明理由);
解 由散点图可知,选择回归类型y=c·xd更适合.
(2)对数据作出如下处理,令μ1=ln xi,vi=ln yi,得到相关统计量的值如下表:
解 对y=c·xd两边取对数,得ln y=ln c+dln x,
即v=ln c+du.
即c= .
所以年销售量y与年研发费用x的回归方程为y=
反思感悟 非线性回归问题的处理方法
(1)指数函数型y=ebx+a
①函数y=ebx+a的图象,如图所示.
②处理方法:两边取对数得ln y=ln ebx+a,即ln y=bx+a.令z=ln y,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b.
(2)对数函数型y=bln x+a
①函数y=bln x+a的图象,如图所示.
②处理方法:设x′=ln x,原方程可化为y=bx′+a,
再根据线性回归模型的方法求出a,b.
(3)y=bx2+a型
处理方法:设x′=x2,原方程可化为y=bx′+a,再根据线性回归模型的方法求出a,b.
跟踪训练3 某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每件产品的非原料成本y(元)与生产该产品的数量x(千件)有关,经统计得到如下数据:
根据以上数据,绘制了散点图.
x 1 2 3 4 5 6 7 8
y 112 61 44.5 35 30.5 28 25 24
(1)用反比例函数模型求y关于x的回归方程;
(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到0.01),并用其估计产量为10千件时每件产品的非原料成本;
因为|r1|<|r2|,所以用反比例函数模型拟合效果更好,
所以当产量为10千件时,每件产品的非原料成本为21元.
(3)该企业采取订单生产模式(根据订单数量进行生产,即产品全部售出).根据市场调研数据,若该产品单价定为100元,则签订9千件订单的概率为0.8,签订10千件订单的概率为0.2;若单价定为90元,则签订10千件订单的概率为0.3,签订11千件订单的概率为0.7.已知每件产品的原料成本为10元,根据(2)的结果,企业要想获得更高利润,产品单价应选择100元还是90元,请说明理由.
解 ①当产品单价为100元,设订单数为m千件,因为签订9千件订单的概率为0.8,签订10千件订单的概率为0.2,
所以E(m)=9×0.8+10×0.2=9.2,
所以企业利润为
②当产品单价为90元,设订单数为n千件,
因为签订10千件订单的概率为0.3,签订11千件订单的概率为0.7,
所以E(n)=10×0.3+11×0.7=10.7,
故企业要想获得更高利润,产品单价应选择90元.
所以企业利润为
1.知识清单:
(1)线性回归模型.
(2)利用线性回归方程对总体进行估计.
(3)非线性回归问题.
2.方法归纳:最小二乘法、转化化归、公式法.
3.常见误区:不判断变量间是否具有线性相关关系,盲目求解线性回归方程致误.
课堂小结
随堂演练
1.(多选)以下四个散点图中,两个变量的关系适合用线性回归模型刻画的是
1
2
3
4


解析 AC中的点分布在一条直线附近,适合用线性回归模型刻画.
1
2
3
4
2.已知人的年龄x与人体脂肪含量的百分数y的线性回归方程为 =0.577x-0.448,如果某人36岁,那么这个人的脂肪含量
A.一定是20.3%
B.在20.3%附近的可能性比较大
C.无任何参考数据
D.以上解释都无道理
解析 将x=36代入线性回归方程得 =0.577×36-0.448≈20.3,故这个人的脂肪含量在20.3%附近的可能性较大,故选B.

1
2
3
4
x 0 1 2 3 4
y 2.2 4.3 4.5 4.8 6.7
A.8.4 B.8.3 C.8.2 D.8.1

当x=6时,y的预测值为0.95×6+2.6=8.3.
1
2
3
4
课时对点练
基础巩固
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
1.已知变量x,y之间具有线性关系,其散点图如图所示,则其线性回归方程可能为
16

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
解析 回归直线一定过样本点的中心.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
3.某医学科研所对人体脂肪含量与年龄这两个变量研究得到一组随机样本数据,运用Excel软件计算得y=0.577x-0.448(x为人的年龄,y为人体脂肪含量).对年龄为37岁的人来说,下面说法正确的是
A.年龄为37岁的人体内脂肪含量一定为20.90
B.年龄为37岁的人体内脂肪含量约为21.01
C.年龄为37岁的人群中的体内脂肪含量平均为20.90
D.年龄为37岁的人群中的大部分人的体内脂肪含量约为31.5

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
4.已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
解析 因为y=-0.1x+1,-0.1<0,所以x与y负相关.
又y与z正相关,故可设z=ay+b(a>0),
所以z=-0.1ax+a+b,-0.1a<0.所以x与z负相关.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
解析 线性回归方程是一个模拟函数,它表示的是一系列离散的点大致所在直线的位置及其大致变化规律,所以有些散点不一定在回归直线上.



1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
6.(多选)已知在最小二乘法原理下,具有相关关系的变量x,y之间的线性回归方程为 =-0.7x+10.3,且变量x,y之间的相关数据如表所示,则下列说法错误的是
A.变量x,y之间呈正相关关系
B.可以预测,当x=20时, =3.7
C.可求得表中m=4.7
D.由表格数据知,该回归直线必过点(9,4)
x 6 8 10 12
y 6 m 3 2



1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
解析 由x与y的线性回归方程可知,
回归系数为-0.7,且-0.7<0,
∴变量x,y之间呈负相关关系,故A错误;
解得m=5,故C错误;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
∴回归直线必过点(9,4),故D正确.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
63
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
9.某地区2013年至2019年农村居民家庭人均纯收入y(单位:千元)的数据如下表:
(1)求y关于t的线性回归方程;
年份 2013 2014 2015 2016 2017 2018 2019
年份代号t 1 2 3 4 5 6 7
人均纯收入y 2.9 3.3 3.6 4.4 4.8 5.2 5.9
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
解 由所给数据计算得
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
(2)利用(1)中的线性回归方程,分析2013年至2019年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2021年农村居民家庭人均纯收入.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
故预测该地区2021年农村居民家庭人均纯收入为6.8千元.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
10.根据统计,某蔬菜基地西红柿亩产量的增加量y(百千克)与某种液体肥料每亩使用量x(千克)之间的对应数据的散点图如图所示.
(1)依据数据的散点图可以看出,可用线性回归模型拟合y与x的关系,请计算相关系数r并加以说明(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合);
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
因为|r|>0.75,所以可用线性回归模型拟合y与x的关系.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
(2)求y关于x的线性回归方程,并预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量y约为多少?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
综合运用
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
12.某校小卖部为了了解奶茶销售量y(杯)与气温x(℃)之间的关系,随机统计了某4天卖出的奶茶杯数与当天的气温,得到下表中的数据,并根据该样本数据用最小二乘法建立了线性回归方程 =-2x+60,则样本数据中污损的数据y0应为
气温x(℃) -1 13 10 18
杯数y y0 34 38 24
A.58 B.64 C.62 D.60

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
气温x(℃) -1 13 10 18
杯数y y0 34 38 24
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
x 3 4 5 6 7 8
y 4.0 2.5 -0.5 0.5 -2.0 -3.0


解析 作出散点图如右:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
14.已知y与x之间具有很强的线性相关关系,现观测得到x,y的四组观测值并制作了对照表.
x 15 17 11 -3
y 6 17 21 36
80
拓广探究
5
6
7
8
9
10
11
12
13
14
15
16
1
2
3
4
x 1 2 3 4
y e e3 e4 e6
若x=5,则预测y的值可能为
A.e5 B. C.e7 D.

5
6
7
8
9
10
11
12
13
14
15
16
1
2
3
4
列出x,z的取值对应的表格如下:
x 1 2 3 4
z 1 3 4 6
5
6
7
8
9
10
11
12
13
14
15
16
1
2
3
4
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
16.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元) 8 8.2 8.4 8.6 8.8 9
销量y(件) 90 84 83 80 75 68
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)
解 设工厂获得的利润为L元,依题意得L=x(-20x+250)-4(-20x+250)=-20x2+330x-1 000=-20(x-8.25)2+361.25.
故当单价定为8.25元时,工厂可获得最大利润.
本课结束