高中数学(人教版A版选修2-3)配套课件、教案、学案、同步练习题,补习复习资料:3.1 回归分析的基本思想及其初步应用

文档属性

名称 高中数学(人教版A版选修2-3)配套课件、教案、学案、同步练习题,补习复习资料:3.1 回归分析的基本思想及其初步应用
格式 zip
文件大小 3.4MB
资源类型 教案
版本资源 人教新课标A版
科目 数学
更新时间 2019-08-15 12:08:13

文档简介

课件47张PPT。第三章3.1
回归分析的基本思想及其初步应用2 突破常考题型题型一1 理解教材新知题型二题型三3 跨越高分障碍4 应用落实体验随堂即时演练课时达标检测知识点一知识点二[提出问题]回归直线方程 提示:不是.
问题2:所有的两个相关变量都可以求回归方程吗?
提示:可以,但拟合程度很差.[导入新知]相关关系[化解疑难] 线性回归分析 提示:不一定.提示:越小越好.R2越接近于1 求线性回归方程 (1)试根据散点图判断变量y与x是否相关?
(2)若y与x相关,求出回归直线方程.线性回归分析 非线性回归分析 [解析] |r|越接近于1,相关程度越高.
[答案] B[易错防范]答案:C 解析:样本的相关系数应满足-1≤r≤1.
答案:D 答案:C 答案:85% 15%第三章 统计案例
3.1 回归分析的基本思想及其初步应用
第1课时 线性回归模型
A级 基础巩固
一、选择题
1.有下列说法:
①线性回归分析就是由样本点去寻找一条直线,贴近这些样本点的数学方法;
②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;
③通过回归方程=x+及其回归系数b,可以估计和观测变量的取值和变化趋势;
④因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.
其中正确说法的个数是(   )
A.1     B.2     C.3     D.4
解析:①反映的是最小二乘法思想,故正确.②反映的是画散点图的作用,也正确.③反映的是回归模型y=bx+a+e,其中e为随机误差,故也正确.④不正确,在求回归方程之前必须进行相关性检验,以体现两变量的关系.
答案:C
2.设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的斜率是b,纵轴上的截距是a,那么必有(   )
A.b与r的符号相同 B.a与r的符号相同
C.b与r的符号相反 D.a与r的符号相反
解析:因为b>0时,两变量正相关,此时r>0;b<0时,两变量负相关,此时r<0.
答案:A
3.实验测得四组(x,y)的值为(1,2),(2,3),(3,4),(4,5),则y与x之间的回归直线方程为(   )
A.=x+1 B.=x+2
C.=2x+1 D.=x-1
解析:求出样本中心(,)代入选项检验知选项A正确.
答案:A
4.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系.根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是(   )
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(,)
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg
解析:回归方程中x的系数为0.85>0,因此y与x具有正的线性相关关系,A正确;由回归方程系数的意义可知回归直线过样本点的中心,,B正确;依据回归方程中y的含义可知,x每变化1个单位,y相应变化约0.85个单位,C正确;用回归方程对总体进行估计不能得到肯定的结论,故D错误.
答案:D
5.(2015·福建卷)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
收入x/万元
8.2
8.6
10.0
11.3
11.9
支出y/万元
6.2
7.5
8.0
8.5
9.8
根据上表可得回归直线方程=x+,其中=0.76,=y-,.
据此估计,该社区一户年收入为15万元家庭的年支出为(  )
A.11.4万元 B.11.8万元
C.12.0万元 D.12.2万元
解析:由已知得 ==10(万元),
==8(万元),
故=8-0.76×10=0.4.
所以回归直线方程为=0.76x+0.4,社区一户年收入为15万元家庭年支出为=0.76x+0.4,社区一户年收入为15万元家庭支出为=0.76×15+0.4=11.8(万元).
答案:B
二、填空题
6.今年一轮又一轮的寒潮席卷全国.某商场为了了解某品牌羽绒服的月销售量y(单位:件)与月平均气温x(单位:℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,数据如下表所示:
月平均气温x/℃
17
13
8
2
月销售y/件
24
33
40
55
由表中数据算出线性回归方程=x+中的=-2.气象部门预测下个月的平均气温约为6 ℃,据此估计,该商场下个月该品牌羽绒服的销售量的件数约为________.
解析:由表格得(,)为(10,38),又(,)在回归直线=x+上,且=-2,所以38=-2×10+,=58,所以=-2x+58,当x=6时,=-2×6+58=46.
答案:46
7.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本.某白酒酿造企业市场部对该企业9月份的产品销量(单位:千箱)与单位成本(单位:元)的资料进行线性回归分析,结果如下:
=71-(-1.818 2)×≈77.36,则销量每增加1千箱,单位成本下降________元.
解析:由已知可得,=-1.818 2x+77.36,销量每增加1千箱,则单位成本下降1.818 2元.
答案:1.818 2
8.已知一个线性回归方程为=1.5x+45,其中x的取值依次为1,7,5,13,19,则=________.
解析:==9,因为回归直线方程过点(,),所以=1.5x+45=1.5×9+45=58.5.
答案:58.5
三、解答题
9.某医院用光电比色计检验尿汞时,得尿汞含量x(单位:mg/L)与消光系数y读数的结果如下:
尿汞含量x
2
4
6
8
10
消光系数y
64
138
205
285
360
(1)画出散点图;
(2)求回归方程.
解:(1)散点图如图所示:
(2)由图可知y与x的样本点大致分布在一条直线周围,因此可以用线性回归方程来拟合它.
设回归方程为=x+.
故所求的线性回归方程为=36.95x-11.3.
10.某地最近十年粮食需求量逐年上升,下表是部分统计数据:
年份
2008
2010
2012
2014
2016
需求量/万吨
236
246
257
276
286
(1)利用所给数据求年需求量与年份之间的回归直线方程=x+;
(2)利用(1)中所求出的直线方程预测该地2018年的粮食需求量.
解:(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来求回归直线方程.为此对数据预处理如下:
年份2012年
-4
-2
0
2
4
需求量257万吨
-21
-11
0
19
29
对预处理后的数据,容易算得=0,=3.2.所以
==6.5,
=-=3.2.
由上述计算结果,知所求回归直线方程为
-257=(x-2 012)+=6.5(x-2 012)+3.2,
即=6.5(x-2 012)+260.2.①
(2)利用直线方程①,可预测2018年的粮食需求量为
=6.5×(2 018-2 012)+260.2=6.5×6+260.2=299.2(万吨)≈300(万吨).
B级 能力提升
1.某考察团对全国10大城市进行职工人均工资水平x(单位:千元)与居民人均消费水平y(单位:千元)统计调查,y与x具有相关关系,回归方程为=0.66x+1.562,若某城市居民人均消费水平为7.675(单位:千元),估计该城市人均消费额占人均工资收入的百分比约为(   )
A.83%   B.72%   C.67%   D.66%
解析:因为当=7.675时,x=≈9.262,
所以≈0.829≈83%.
答案:A
2.为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x(单位:小时)与当天投篮命中率y之间的关系:
时间x
1
2
3
4
5
命中率y
0.4
0.5
0.6
0.6
0.4
小李这5天的平均投篮命中率为________,用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为________.
解析:这5天的平均投篮命中率为
==0.5,
==3.
所以==0.01,=-=0.47.
所以回归直线方程为=0.01x+0.47.
当x=6时,=0.01×6+0.47 =0.53.
答案:0.5 0.53
3.某市垃圾处理厂的垃圾年处理量(单位:千万吨)与资金投入量x(单位:千万元)有如下统计数据:
分类
2012年
2013年
2014年
2015年
2016年
资金投入量x/
千万元  
1.5
1.4
1.9
1.6
2.1
垃圾处理量y/
千万吨  
7.4
7.0
9.2
7.9
10.0
(1)若从统计的5年中任取2年,求这2年的垃圾处理量至少有一年不低于8.0 千万吨的概率;
(2)由表中数据求得线性回归方程为=4x+,该垃圾处理厂计划2017年的垃圾处理量不低于9.0千万吨,现由垃圾处理厂决策部门获悉2017年的资金投入量约为1.8千万元,请你预测2017年能否完成垃圾处理任务,若不能,缺口约为多少千万吨?
解:(1)从统计的5年垃圾处理量中任取2年的基本事件共10个:(7.4,7.0),(7.4,9.2),(7.4,7.9),(7.4,10.0),(7.0,9.2),(7.0,7.9),(7.0,10.0),(9.2,7.9),(9.2,10.0),(7.9,10.0),其中垃圾处理量至少有一年不低于8.0千万吨的基本事件有6个:(7. 4,9.2),(7.4,10.0),(7.0,9.2),(7.0,10.0),(9.2,7.9),(9.2,10.0).
所以,这2年的垃圾处理量至少有一年不低于8.0千万吨的概率为P==.
(2)==1.7,
==8.3,
因为直线=4x+过样本中心点(,),
所以8.3=4×1.7+,解得=1.5.
所以=4x+1.5.
当x=1.8时,=4×1.8+1.5=8.7<9.0,
所以不能完成垃圾处理任务,缺口约为0.3千万吨.
第三章 统计案例
3.1 回归分析的基本思想及其初步应用
第2课时 残差分析
A级 基础巩固
一、选择题
1.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做实验,并用回归分析方法分别求得相关系数r与残差平方和m如下表所示:
分类




r
0.82
0.78
0.69
0.85
m
106
115
124
103
则哪位同学的试验结果体现A、B两变量有更强的线性相关性(  )
A.甲       B.乙
C.丙 D.丁
解析:r越接近1,相关性越强,残差平方和m越小,相关性越强,所以选D正确.
答案:D
2.为了表示n个点与相应直线在整体上的接近程度,我们常用的表示法为(  )
解析:由回归直线方程可知,为一个量的估计值,而yi为它的实际值,在最小二乘估计中(yi-a-bxi)2,即(yi-)2.
答案:C
3.甲、乙、丙、丁4位同学各自对A,B两变量进行回归分析,分别得到散点图与残差平方和如下表所示:
分类




散点图
残差平方和
115
106
124
103
哪位同学的试验结果体现拟合A,B两变量关系的模型拟合精度高(  )
A.甲 B.乙
C.丙 D.丁
解析:根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小(对于已经获取的样本数据,R2的表达式中为确定的数,则残差平方和越小,R2越大),由回归分析建立的线性回归模型的拟合效果越好,由试验结果知丁要好些.
答案:D
4.通过残差图我们发现在采集样本点过程中,样本点数据不准确的是(  )
A.第四个 B.第五个
C.第六个 D.第八个
解析:由题图可知,第六个的数据偏差最大,所以第六个数据不准确.
答案:C
5.如图所示,5个(x,y)数据,去掉D(3,10)后,下列说法错误的是(  )
A.相关系数r变大
B.残差平方和变大
C.相关指数R2变大
D.解释变量x与预报变量y的相关性变强
解析:由散点图知,去掉D后,x与y的相关性变强,且为正相关,所以r变大,R2变大,残差平方和变小.
答案:B
二、填空题
6.若一组观测值(x1,y1),(x2,y2),…,(xn,yn)之间满足yi=bxi+a+ei(i=1,2,…, n),且ei恒为0,则R2为________.
解析:由ei恒为0,知yi=i,即yi-i=0,
答案:1
7.x,y满足如下表的关系:
x
0.2
0.6
1.0
1.2
1.4
1.6
1.8
2.0
2.2
y
0.04
0.36
1
1.4
1.9
2.5
3.2
3.98
4.82
则x,y之间符合的函数模型为________.
解析:通过数据发现y的值与x的平方值比较接近,所以x,y之间的函数模型为y=x2.
答案:y=x2
8.关于x与y,有如下数据:
x
2
4
5
6
8
y
30
40
60
50
70
有如下的两个模型:(1)=6.5x+17.5;(2)=7x+17.通过残差分析发现第(1)个线性回归模型比第(2)个拟合效果好.则R________R,Q1________Q2(用大于,小于号填空,R,Q分别是相关指数和残差平方和).
解析:根据相关指数和残差平方和的意义知R>R,Q1<Q2.
答案:> <
三、解答题
9.在实验中得到变量y与x的数据如下表所示:
x
0.066 7
0.038 8
0.033 3
0.027 3
0.022 5
y
39.4
42.9
41.0
43.1
49.2
由经验知,y与之间具有线性相关关系,试求y与x之间的回归曲线方程,并预测x0=0.038时,y0的值.
解:令u=,由题目所给数据可得下表所示的数据:
序号
ui
yi
u
uiyi
1
15.0
39.4
225
591
2
25.8
42.9
665.64
1 106.82
3
30.0
41.0
900
1 230
4
36.6
43.1
1 339.56
1 577.46
5
44.4
49.2
1 971.36
2 184.48
合计
151.8
215.6
5 101.56
6 689.76
计算得=0.29,=34.32.
所以=34.32+0.29u.
所以试求回归曲线方程为=34.32+.
当x0=0.038时,y0=34.32+ ≈41.95.
10.关于x与y有以下数据:
x
2
4
5
6
8
y
30
40
60
50
70
已知x与y线性相关,由最小二乘法得=6.5.
(1)求y与x的线性回归方程;
(2)现有第二个线性模型:=7x+17,且R2=0.82.若与(1)的线性模型比较,哪一个线性模型拟合效果比较好,请说明理由.
解:(1)依题意设y与x的线性回归方程为=6.5x+.
==5,==50,因为=6.5x+经过(,),所以y与x的线性回归方程为=6.5x+17.5 .所以50=6.5×5+.所以=17.5.
(2)由(1)的线性模型得yi-yi与yi-的关系如下表所示:
yi-yi
-0.5
-3.5
10
-6.5
0.5
yi-
-20
-10
10
0
20
由于R=0.845,R2=0.82知R>R2,所以(1)的线性模型拟合效果比较好.
B级 能力提升
1.在研究身高和体重的关系时,得到的结论是“身高解释了64%的体重变化,而随机误差贡献了剩余的36%,所以身高对体重的效应比随机误差的效应大得多”,则求得的相关指数R2≈(  )
A.0.36 B.0.64
C.0.32 D.0.18
解析:根据相关指数的意义知R2≈0.64.
答案:B
2.若某函数型相对一组数据的残差平方和为89,其相关指数为0.95,则总偏差平方和为________,回归平方和为________.
解析:因为R2=1-,
0.95=1-,所以总偏差平方和为1 780;回归平方和=总偏差平方和-残差平方和=1 780-89=1 691.
答案:1 780 1 691
3.某运动员训练次数与成绩之间的数据关系如下:
次数x
30
33
35
37
39
44
46
50
成绩y
30
34
37
39
42
46
48
51
(1)作出散点图;
(2)求出回归方程;
(3)作出残差图;
(4)计算相关指数R2;
(5)试预测该运动员训练47次及55次的成绩.
解:(1)作出该运动员训练次数(x)与成绩(y)之间的散点图,如图所示,由散点图可知,它们之间具有线性相关关系.
(2)=39.25,=40.875, =13 180,
=-=-0.003 88.
所以回归方程为=1.0415x-0.003 88.
(3)作残差图如图所示,由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.
(4)计算得相关指数R2=0.985 5,说明了该运动员的成绩的差异有98.55%是由训练次数引起的.
(5)由上述分析可知,我们可用回归方程=1.041 5x-0.003 88作为该运动员成绩的预报值.
将x=47和x=55分别代入该方程可得y≈49和y≈57.
故预测该运动员训练47次和55次的成绩分别为49和57.
§3.1 回归分析的基本思想及其初步(1)
【学情分析】:
教学对象是高二理科学生,学生已经初步学会用最小二乘法建立线性回归模型的知识,并能用所学知识解决一些简单的实际问题。回归分析是数理统计中的重要内容,在教学中,要结合实例进行相关性检验,理解只有两个变量相关性显著时,回归方程才具有实际意义。在起点低的班级中注重让学生参与实践,结合画图表的方法整理数据,鼓励学生通过收集数据,经历数据处理的过程,从而认识统计方法的特点,达到学习的目的。
【教学目标】:
(1)知识与技能:回忆线性回归模型与函数模型的差异,理解用最小二乘法求回归模型的步骤,了解判断两变量间的线性相关关系的强度——相关系数。
(2)过程与方法:本节内容先从大学中女大学生的甚高和体重之间的关系入手,求出相应的回归直线方程。
(3)情感态度与价值观:从实际问题中发现自己已有知识的不足之处,激发学生的好奇心和求知欲,培养学生不满足于已有知识,勇于求知的良好个性品质,引导学生积极进取。
【教学重点】:
了解线性回归模型与函数模型的差异;
了解两变量间的线性相关关系的强度——相关系数。
【教学难点】:
了解两变量间的线性相关关系的强度——相关系数;
了解线性回归模型与一次函数模型的差异。
【教学过程设计】:
教学环节
教学活动
设计意图
一、创设情境
问题一:一般情况下,体重与身高有一定的关系,通常个子较高的人体重比较大,但这是否一定正确?(是否存在普遍性)
师:提出问题,引导学生判断体重与身高之间的关系(函数关系、相关关系)
生:思考、讨论。
问题二:统计方法解决问题的基本过程是什么?
师:提出问题,引导学生回忆用最小二乘法求回归直线方程的方法。
生:回忆、叙述
回归分析的基本过程:⑴画出两个变量的散点图;
⑵判断是否线性相关
⑶求回归直线方程(利用最小二乘法)
⑷并用回归直线方程进行预报
复习回归分析用于解决什么样的问题。
复习回归分析的解题步骤
二、例题选讲
探究活动:对于一组具有线性相关的数据(x,y),(x,y)……,(x,y),我们知道其回归方程的截距和斜率的最小二乘估计公式分别为:=+,
=
其中=,=.(,)称为样本点的中心。你能推导出这两个计算公式吗?
从已经学过的知识我们知道,截距和斜率分别是使
Q(α,β)=取最小值时α,β的值。
由于
Q(α,β)=
=
=+2+
n(-β-α),
注意到

=()
=()[]
=([n]=0,
所以
Q(α,β)=+ n()
=β- 2β +
+n (
=n( +
- +
在上式中,后两项和α,β无关,而前两项为非负数,因此要Q取得最小值,当且仅当前两项的值均为0,即有
β=,
α=.
这正是我们所要推导的公式。
下面我们通过案例,进一步学习学习回归分析的基本思想及其应用。
问题三:思考例1:从某大学中随机选取8名女大学生,其身高和体重数据如表所示。求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重。
编号
1
2
3
4
5
6
7
8
身高/cm
165
165
157
170
175
165
155
170
体重/kg
48
57
50
54
64
61
43
59
题目中表达了哪些信息?
师:读例1的要求,引导学生理解例题含义。
(例题含义:①数据体重与身高之间是一种不确定性的关系
②求出以身高为自变量x,体重为因变量y的回归方程。
③由方程求出当x = 172时,y的值。
生:思考、讨论、叙述自己的理解,归纳出题目中的信息。
根据以前所学的知识,让学生自己动手求出回归方程
求解过程如下:
①画出散点图,判断身高x与体重y之间存在什么关系(线性关系)?
②列表求出相关的量,并求出线性回归方程
代入公式有
所以回归方程为
③利用回归方程预报身高172cm的女大学生的体重约为多少?
当时,
引导学生复习总结求线性回归方程的步骤:
第一步:作散点图—→第二步:求回归方程—→第三步:代值计算
复习统计方法解决问题的基本过程。
学生动手画散点图,老师用EXCEL的作图工作演示,并引导学生找出两个变量之间的关系。
学生经历数据处理的过程,并借助EXCEL的统计功能鼓励学生使用计算器或计算机等现代工具来处理数据。
三、探究新知
问题四:身高为172cm的女大学生的体重一定是60.316kg吗?
(不一定,但一般可以认为她的体重在60.316kg左右.)
师:提出问题,引导学生比较函数模型与线性回归模型的不同,并引出相关系数的作用。
生:思考、讨论、解释
解释线性回归模型与一次函数的不同
从散点图可观察出,女大学生的体重和身高之间的关系并不能用一次函数来严格刻画(因为所有的样本点不共线,所以线性模型只能近似地刻画身高和体重的关系). 在数据表中身高为165cm的3名女大学生的体重分别为48kg、57kg和61kg,如果能用一次函数来描述体重与身高的关系,那么身高为165cm的3名女在学生的体重应相同. 这就说明体重不仅受身高的影响还受其他因素的影响,把这种影响的结果(即残差变量或随机变量)引入到线性函数模型中,得到线性回归模型,其中残差变量中包含体重不能由身高的线性函数解释的所有部分. 当残差变量恒等于0时,线性回归模型就变成一次函数模型. 因此,一次函数模型是线性回归模型的特殊形式,线性回归模型是一次函数模型的一般形式.
问题五:如何衡量两个变量之间线性相关关系的强弱呢?
相关系数:
相关系数的绝对值越接近于1,两个变量的线性相关关系越强,它们的散点图越接近一条直线,这时用线性回归模型拟合这组数据就越好,此时建立的线性回归模型是有意义;相关系数的绝对值越接近于0,两个变量的线性相关关系几乎不存在,它们的散点图越离散,通常当大于时,认为两个变量有很强的线性相关关系。
问题六:例1中由体重与身高建立的线性相关关系有无意义?
生:动手计算本例中两个变量之间的相关系数,,表明体重与身高有很强的线性相关关系,从而表明我们建立的回归模型是有意义的。
引导学生了解线性回归模型与一次函数的不同
引导学生在解决具体问题的过程中,通常先进行相关性的检验,确认两变量间的线性相关关系的强弱再求线性回归方程。
结合实例的分析和研究,正确地进行相关性检验。
四、巩固练习
假设关于某设备的使用年限x和支出的维修费用y(万元),有如下表的统计资料。试求:
使用年限x
2
3
4
5
6
维修费用y
2.2
3.8
5.5
6.5
7.0
⑴画出数据的散点图;
⑵若x与y呈线性相关关系,求线性回归方程
y = bx + a 的回归系数a、b;
⑶估计使用年限为10年时,维修费用是多少?
答案:⑴散点图如图:
⑵由已知条件制成下表:
1
2
3
4
5
2
3
4
5
6
2.2
3.8
5.5
6.5
7.0
4.4
11.4
22.0
32.5
42.0
4
9
16
25
36
; ;

于是有
⑶ 回归直线方程是,
当时,(万元)
即估计使用10年时维修费用是12.38万元。
巩固知识
五、小结
熟练掌握求线性回归方程的步骤;
⑴画出两个变量的散点图;
⑵判断是否线性相关;
⑶求回归直线方程(利用最小二乘法);
⑷并用回归直线方程进行预报。
理解线性回归模型与一次函数的不同;
一次函数模型是线性回归模型的特殊形式,线性回归模型是一次函数模型的一般形式.
了解相关系数的计算与解释。
相关系数:
相关系数的绝对值越接近于1,两个变量的线性相关关系越强,它们的散点图越接近一条直线,这时用线性回归模型拟合这组数据就越好,此时建立的线性回归模型是有意义;相关系数的绝对值越接近于0,两个变量的线性相关关系几乎不存在,它们的散点图越离散,通常当大于时,认为两个变量有很强的线性相关关系。
反思归纳
练习与测试
设有一个回归方程为,则变量增加一个单位时,则( C )
A.平均增加个单位 B.平均增加个单位
C.平均减少个单位 D.平均减少个单位
在画两个变量的散点图时,下面哪个叙述是正确的( B )
A.预报变量在轴上,解释变量在轴上
B.解释变量在轴上,预报变量在轴上
C.可以选择两个变量中任意一个变量在轴上
D.可以选择两个变量中任意一个变量在轴上
已知x与y之间的一组数据:
x
0
1
2
3
y
1
3
5
7
则y与x的线性回归方程为必过( D )
A.(2,2)点 B.(1.5,0)点 C.(1,2)点 D.(1.5,4)点
已知两个相关变量与具有线性相关关系,当取值1,2,3,4时,通过观测得到的值分别为1.2,4.9,8.1,12.8,这组样本点的中心是( D )
A.(2,4.9) B.(3,8.1) C.(2.5,7) D.(2.5,6.75)
一位母亲记录了儿子3—9岁的身高,数据(略),由此建立的身高与年龄的回归模型为y=7.19x+73.93,用这个模型预测这个孩子10岁时的身高,则正确的叙述是( C )
A.身高一定是145.83cm B.身高在145.83cm以上
C.身高在145.83cm左右 D.身高在145.83cm以下
在一次实验中,测得(x,y)的四组值分别是A(1,2)、B(2,3)、C(3,4)D(4,5),则y与x之间的回归直线方程为( A )
A. B. C. D.
有下列关系:⑴人的年龄与其拥有的财富之间的关系;⑵曲线上的点与该点的坐标之间的关系;⑶苹果的产量与气候之间的关系;⑷森林中的同一树木,其横截面直径与高度之间的关系;⑸学生与其学号之间的关系。其中有相关关系的是__________。
答案: ⑴⑶⑷
许多因素都会影响贫穷,教育也许是其中之一,在研究这两个因素的关系时,收集了美国50个州的成年人受过9年或更少教育的百分比()和收入低于官方规定的贫困线的人数占本州人数的百分比()的数据,建立的回归直线方程如下:。斜率的估计等于说明__________________,成年人受过9年或更少教育的百分比()和收入低于官方规定的贫困线的人数占本州人数的百分比()之间的相关系数__________________(填充“大于0“或”小于0“)。
答案: ⑴⑶⑷
若施化肥量x与小麦产量y之间的回归直线方程为,当施化肥量为50kg时,预计小麦产量为__________。
解析:当时,。
答案:。
在某种产品表面进行腐蚀性试验,得到腐蚀深度y与腐蚀时间t之间对应的一组数据:
时间
t(s)
5
10
15
20
30
40
50
60
70
90
120
深度
y(μm)
6
10
10
13
16
17
19
23
25
29
46
(1)画出散点图;
(2)求腐蚀深度y对腐蚀时间t的回归直线方程.
解:(1)散点图为
(2)经计算可得
b=≈0.3,
a=-b=19.45-0.3×46.36≈5.542.
故所求的线性回归方程为=0.3t+5.542.
§3.1 回归分析的基本思想及其初步应用(2)
【学情分析】:
教学对象是高二理科学生,学生已掌握建立线性回归模型的知识,并能用所学知识解决一些简单的实际问题。在教学中,要结合实例,让学生了解随机误差产生的原因。初步了解可以通过求回归模型的相关指数或利用残差分析不同的回归模型的拟合精确度。在起点高的班级中通过让学生观察、思考与讨论,进一步体会回归分析中的数理计算,及运用相关指数与残差分析来刻画模型拟合效果,初步形成运用统计方法解决实际问题的基本思想,认识统计方法在决策中的作用。
【教学目标】:
(1)知识与技能:了解求线形回归方程的两个计算公式的推导过程,、回归平方和;了解随机误差产生的原因;了解判断刻画模型拟合效果的方法——相关指数和残差分析;了解非线性模型通过变换转化为线性回归模型。
(2)过程与方法:本节内容先从大学中女大学生的甚高和体重之间的关系入手,求出相应的回归直线方程,从中也找出存在的不足,从而有进行回归分析的必要性,进而学习相关指数,用相关指数来刻画回归的效果。
(3)情感态度与价值观:从实际问题中发现自己已有知识的不足之处,激发学生的好奇心和求知欲,培养学生不满足于已有知识,勇于求知的良好个性品质,引导学生积极进取。
【教学重点】:
了解判断刻画模型拟合效果的方法——相关指数和残差分析;
通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型。
【教学难点】:
了解随机误差产生的原因,用残差平方和衡量回归方程的预报精度;
了解判断刻画模型拟合效果的方法——相关指数和残差分析。
【教学过程设计】:
教学环节
教学活动
设计意图
一、创设情境
1.由例1知,体重的值受身高或随机误差的影响。
2.问题一:身高172cm的女大学生的体重一定是60.316kg吗?如果不是,其原因是什么?
引入回归分析的效果评价的三个统计量
二、探究新知
解答问题一:
显然,身高172cm的女大学生的体重不一定是60.316kg,但一般可以认为她的体重接近于60.316kg.上图3.1-2中的样本点和回归直线的相互位置说明了这一点.
由于所有的样本点不共线,而只是散布在某一条直线的附近,所以身高和体重的关系可用下面的线性回归模型来表示:
y=bx+a+e (3)
这里a和b为模型的未知参数,e是y与之间的误差。通常e为随机变量,称为随机误差,它的均值E(e)=0,方差D(e)=.这样线性回归模型的完整表达式为:
(4)
在线性回归模型(4)中,随机误差e的方差越小,通过回归直线
(5)
预报真实值y的精度越高。随机误差是引起预报值与真实值y之间的误差的原因之一,大小取决于随机误差的方差。
另一方面,由于公式(1)和(2)中为截距和斜率的估计值,它们与真实值a和b之间也存在误差,这种误差是引起预报值与真实值y之间误差的另一个原因。
思考1、产生随机误差项e的原因是什么?
答:实际上,从上例中,一个人的体重值除了受身高的影响外,还受到许多其它因素的影响。例如饮食习惯、是否喜欢运动、度量误差等。另外,我们选用的线性模型往往只是一种近似的模型。所有这些因素都会导致随机误差项e的产生。
问题二、在线性回归模型中,e是用预报真实值y的误差,它是一个不可观测的量,那么应该怎样研究随机误差?如何衡量预报的精度?
解答问题二:
因为随机误差是随机变量,因此可以通过这个随机变量的数字特征来刻画它的一些总体特征。均值是反映随机变量取值平均水平的数字特征,方差是反映随机变量集中于均值程度的数字特征,而随机误差的均值为0,因此可以用方差来衡量随机误差的大小。
为了衡量预报的精度,需要估计的值。一个自然的想法是通过样本方差来估计总体方差。如何得到随机变量e的样本呢?由于模型(3)或(4)中的e隐含在预报变量y中,我们无法精确地把它从y中分离出来,因此也就无法得到随机变量e的样本。
解决问题的途径是通过样本的估计值来估计。根据截距和斜率的估计公式(1)和(2),可以建立回归方程

因此是(5)中的估计量。由于随机误差,所以是e的估计量,对于样本点

而言,相当于它们的随机误差为
,i=1,2, …,n,
其估计值为
,i=1,2, …,n,
称为相应于点的残差(residual)。类比样本方差估计总体方差的思想,可以用
(n>2)
作为的估计量,其中由公式(1)(2)给出,称为残差平方和(residual sum of squares),可以用衡量回归方程的预报精度。通常,越小,预报精度越高。
学生动手计算出例1中的残差(如下表)与残差平方和。
编号
1
2
3
4
5
6
7
8
身高/cm
165
165
157
170
175
165
155
170
体重/kg
48
57
50
54
64
61
43
59
yi
54.373
54.373
47.581
58.618
62.863
54.373
45.883
58.618
ei
-6.373
2.627
2.419
-4.618
1.137
6.627
-2.883
0.382
学习要领:①注意、、的区别;
②当残差平方和越小,此时模型的拟合效果越好;
③对于多个不同的模型,我们还可以引入相关指数来刻画回归的效果,它表示解释变量对预报变量变化的贡献率. 的值越接近于1,说明残差平方和越小,也就是说模型拟合的效果越好,即解释变量和预报变量的线性相关性越强.
代入例1中的数据知例1中的,表明“女大学生的身高解释了64%的体重变化”,或者说“女大学生的体重差异有64%是由身高引起的”。即解释变量对总效应约贡献了64%,而随机误差贡献了剩余的36%,所以身高对体重的效应比随机误差的效应大得多。
用身高预报体重时,需要注意下列问题:
回归方程只适用于我们研究的样本的总体。
我们所建立的回归方程一般都有时间性。
样本取值的范围会影响回归方程的适用范围。
不能期望回归方程得到的预报值就是预报变量的精确值。
一般地,建立回归模型的基本步骤为:
确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等);
由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y=bx+a);
按一定规则估计回归方程中的参数(如最小二乘法);
得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等等),若存在异常,则检查数据是否有误,或模型是否合适等。
问题三:观察图3.1-3中的残差图,样本点是如何分布?有无异常情况(个别数据对应残差过大,或残差呈现不随机的规律性等等)?
师:提出问题,指导学生画出残差图(以残差为纵坐标,样本编号或身高或体重为横坐标作出图形),引导学生进行残差分析,从而做到检查数据是否有误,或模型是否合适等。
生:分析、讨论。
从残差图中可以看到第1个样本点和第6个样本点的残差较大,需要确认是否出现采集的错误,指导学生去掉这两个数据后重新再计算回归方程与相关指数,了解到拟合的效果会更好。
引导学生归纳残差所能说明的情况:
样本点的残差比较大,确认采集数据时是否出现人为的错误或其他原因;
残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,带状区域的宽度越窄,模型拟合精度越高,回归方程的预报精度越高。
结合实例由结果分析残差图是否异常,养成从实际问题出发,抽象为数学问题中的线性回归问题,从而指导实际问题的解决。
学生思考,回答


引导学生利用残差也可以分析所求出的模型的拟合效果
通过学生动手计算感受相关指数与残差分析说明回归方程的预报情况。
三、例题选讲
例2:一只红铃虫的产卵数y和温度x有关,现收集了7组观测数据列于下表中,试建立y与x之间的回归方程。
编号
1
2
3
4
5
6
7
温度x/°C
21
23
25
27
29
32
35
产卵数y/个
7
11
21
24
66
115
325
问题四:例2中如何选择解释变量与预报变量?
师:读例2的要求,引导学生理解例题含义。
生:思考、讨论、叙述自己的理解。
形成把温度x作自变量,红铃虫的产卵数y作因变量的共识
问题四:观察图3.1-4中的散点图,红铃虫的产卵数y与温度x具有线性关系吗?除线性关系外,还学过哪些常见的函数关系?
师:绘制散点图3.1-4,引导学生观察散点图的特点:随着自变量的增加,因变量也随之增加。
引导学生探究红铃虫的产卵数y与温度x更可能是什么关系,选择几个模型,比如线性回归模型、二次函数模型、指数函数模型。而二次与指数函数模型是属于非线性回归模型。
生:讨论、回忆一些常见函数图象的特点,判断红铃虫的产卵数y与温度x的可能关系
从散点图中可以看到样本点分布在指数函数曲线的周围。
问题五:请学生思考能否把模型经过变换后转化为另外两个变量的线性关系?
师:提出问题,引导学生寻找变换的方法,在学生讨论后给出具体的方法。
生:思考、讨论、解释。
解答过程如下:
对两边取自然对数
令,建立与之间的线性回归方程
问题六:经过变换后指数函数模型转化为线性回归模型,你如何得到这个线性回归模型的参数估计?
师:提出问题,引导学生分组讨论,启发学生把原变量的观测数据转化为新变量的数据,然后让学生给出每种线性回归模型的参数估计。
生:以组为单位进行数据变换,求参数的最小二乘估计(可以用计算器)
解答过程如下:
令,,即
分析与之间的关系,通过画散点图(如下图),可知与之间是存在着线性回归关系,可以用最小二乘法求出线性回归方程

列表计算出各个量
编号
1
2
3
4
5
6
7
合计
温度x/°C
21
23
25
27
29
32
35
192
产卵数y/个
7
11
21
24
66
115
325
569
z=ln y
1.946
2.398
3.045
3.178
4.190
4.745
5.784
25.285
xi2
441
529
625
729
841
1024
1225
5414
xizi
40.9
55.2
76.1
85.8
121.5
151.8
202.4
733.7
  27.429 3.612 
  5414 733.71
问题七:我们的目标是建立红铃虫的产卵数y与温度x的模型,如何使得到的线性回归模型再变回红铃虫的产卵数y与温度x的模型?
师:提出问题。
生:进行变换,每组得到红铃虫的产卵数y与温度x的模型。
因为,所以,即。
引导学生分析哪个变量作自变量,哪个变量作因变量
引导学生根据散点图判断两个变量的关系,使学生了解不是任何两个变量都一定是线性关系。
使学生进一步体会把因变量与自变量的非线性关系经过变换后转化为另外两个变量的线性关系的方法。
使学生熟悉线性回归模型的参数估计的方法
得出红铃虫的产卵数y与温度x的模型
四、练习
试对下列非线性模型进行适当的变形,使之线性化
⑴; ⑵
解:⑴对两边取自然对数,即
令,则有
⑵令,则有
巩固知识
五、小结
初步了解用残差平方和如何评价模型拟合效果的好坏;
注意回归方程适用的范围、时间。
归纳非线性回归模型的求解步骤:
⑴画出两个变量的散点图;
⑵判断是否线性相关;
⑶非线性相关模型要进行变换,转为线性回归模型;
⑷求出回归模型的方程(利用最小二乘法)。
反思归纳
练习与测试
下面4 个散点图中,不适合用线性回归模型拟合其中两个变量的是( A )
A. B.
C. D.
将非线性模型进行适当变形使之线性化。
答案:
已知回归方程,则样本点P(4,2.71)的残差为________________。
答案:
已知线性相关的两变量,的三个样本点A(0,0),B(1,3),C(4,11),若用直线AB作为其预测模型,则点C 的残差是________。
答案:,,。
若一组观测值(x1,y1)、(x2,y2)、…、(xn,yn)之间满足yi=bxi+a+ei (i=1、2. …n)若ei恒为0,则R2为
答案:1
已知线性相关的两变量,的三个样本点A(0,0),B(1,3),C(4,11),若用直线AB作为其预测模型,则其相关指数________。
答案:,,,,
,,
,,
现有一个由身高预测体重的回归方程:体重预测值=4(磅/英寸)×身高-130(磅)。其中体重和身高分别以磅和英寸为单位,已知1英寸≈2.5 cm,1磅≈0.45 kg,则该回归方程应该是______________。
答案:体重预测值=0.72(kg/ cm)×身高-58.5(kg)
§3.1 回归分析的基本思想及其初步(3)
【学情分析】:
教学对象是高二理科学生,学生已经学会建立回归模型的基本步骤,并有检验回归方程的拟合精确度的方法,并能解决一些实际问题。两个变量不呈线性关系,不能直接利用线性回归方程建立两个变量的关系,通过探究使学生体会对回归模型的选择,非线性模型可以通过变换转化为线性回归模型,让学生直观的观察、思考,借助于线性回归模型研究呈非线性关系的两个变量之间的关系,并通过回归分析体会不同模型拟合数据的效果。
【教学目标】:
(1)知识与技能:了解回归模型的选择;进一步理解非线性模型通过变换转化为线性回归模型;体会不同模型拟合数据的效果。
(2)过程与方法:从实例出发,求出相应的回归直线方程,从中也找出存在的不足,从而有进行回归分析的必要性,通过学习相关指数,用相关指数来刻画回归的效果,进而归纳出回归分析的一般步骤,并对具体问题进行回归分析,用于解决实际问题。
(3)情感态度与价值观:任何事物都是相对的,但又有一定的规律性,我们只要从实际出发,不断探求事物的内在联系,就会找出其中的规律性,形成解决实际问题的方法和能力。
【教学重点】:
加深体会有些非线性模型通过变换可以转化为线性回归模型;
了解在解决问题的过程中寻找更好的模型的方法。
【教学难点】:
了解常用函数的图像特点,选择不同的模型建模;
通过比较相关指数对不同的模型进行比较。
【教学过程设计】:
教学环节
教学活动
设计意图
一、复习引入
问题一:你能回忆一下建立回归模型的基本步骤?
师:提出问题,引导学生回忆建立回归模型的基本步骤(选变量、画散点图、选模型、估计参数、分析与预测)
生:回忆、叙述建立回归模型的基本步骤
复习建立线性回归模型的基本步骤
二、探究新知
问题二:观察例2的图1.1-6中的散点图,红铃虫的产卵数y与温度x的图像特点:随着自变量的增加,因变量也随之增加。这些点可以除了可以看作是落在指数函数模型上,还可以认为它是落在什么函数的模型上?
师:引导学生观察散点图的特点,并引导学生探究红铃虫的产卵数y与温度x还可能是什么关系。(二次函数模型)
生:讨论、回忆一些常见函数图像的特点,判断红铃虫的产卵数y与温度x的可能关系
样本点还可以看作是分布在二次函数曲线的周围。
问题三:对模型是否有办法求参数和的最小二乘估计?
师:从简单的模型入手,逐步引导学生思考把原来两个变量的非线性关系转化为另外两个变量的线性关系
生:观察模型,探究变换的方法并发表自己的意见。最后给出具体的方法。
令,建立与之间的线性回归方程
问题四:经过变换后这个模型都转化为线性回归模型,你如何得到这几个线性回归模型的参数估计?
师:提出问题,引导学生分组讨论,启发学生把原变量的观测数据转化为新变量的数据,然后让学生给出每种线性回归模型的参数估计。
生:以组为单位进行数据变换,求参数的最小二乘估计(可以用计算器)
解答过程如下:
令,,即
分析与之间的关系,通过画散点图(如下图),

可看到与的散点图并不分布在一条直线的周围,即不宜用线性回归方程来拟合它,即不宜用二次曲线来拟合与之间的关系,这个结论还可以用残差分析得到。
为比较两个不同模型的残差,需建立相应的回归模型,让学生用线性回归模型拟合回归方程。

所以
因为,即y关于x的二次回归方程为。
问题五:指数回归模型与二次回归模型中哪个能更好地刻画红铃虫的产卵数y与温度x的关系?通过什么数据说明?
师:提出问题,引导学生回忆评价线性回归模型拟合好坏的标准(相关指数、残差平方和),进一步引导学生探讨如何进行不同模型的比较,介绍计算模型相关指导数和残差平方和的方法,说明一般在参数个数一定的条件下,相关指数越大或残差平方和越小说明模型拟合得越好。
生:讨论,提出自己的想法,计算每个模型的相关指数,并进行模型的比较。
指数函数模型的相关指数

二次函数模型的相关指数

从相关指数的计算结果来看,指数函数模型的比二次函数模型的更接近于1,所以指数函数模型的回归效果好。
再从残差图看:
从图中可看出指数函数模型的残差点比较均匀地落在水平的带状域中,所以指数函数模型拟合精度较二次函数模型的高。
通过学生自己动手计算感受,归纳判断模型拟合效果的方法:
⑴可以通过变换后的散点图观察两个新变量之间是否存在线性回归方程;
⑵通过残差分析比较两种模型的拟合效果。一般情况下,比较两个模型的残差比较困难(某些样本点上一个模型的残差的绝对值比另一个模型的小,而另一些样本点的情况则相反),故通过比较两个模型的残差的平方和的大小来判断模型的拟合效果。残差平方和越小的模型,拟合的效果越好。
引导学生根据散点图判断两个变量的关系,使学生了解不是任何两个变量都一定是只有一种关系。
让学生知道有时因变量与自变量的非线性关系经过变换后可以转化为两个新变量间的线性关系
使学生进一步体会把因变量与自变量的非线性关系经过变换后转化为另外两个变量的线性关系的方法。
使学生熟悉线性回归模型的参数估计的方法
得出红铃虫的产卵数y与温度x的模型
引导学生尝试进行不同模型的比较。
三、练习
某种书每册的成本费y(元)与印刷册数x(千册)有关,经统计得到数据如下:
x
1
2
3
5
10
20
30
50
100
200
y
10.15
5.52
4.08
2.85
2.11
1.62
1.41
1.30
1.21
1.15
检验每册书的成本费y与印刷册数倒数之间是否具有线性相关关系,如有,求出y对x的回归方程。
分析:本题是非线性回归分析问题,不妨设变量,题意要求对与y作相关性检验,如果它们具有线性相关关系,就可以进一步求出y对的回归直线方程,这时,再回代,就得到了y对x的回归曲线方程。
解:首先作变量置换,题目所给数据变成如下表所示的10对数据:
u
1
0.5
0.33
0.2
0.1
0.05
0.03
0.02
0.01
0.005
y
10.15
5.52
4.08
2.85
2.11
1.62
1.41
1.30
1.21
1.15
然后作相关性检验。
经计算得,从而认为与y之间具有线性相关关系,由公式得,,所以,
最后回代,可得到y对x的回归曲线方程
四、拓展与提高
思考题:如果两个变量是线性关系时利用最小二乘法得到了两个参数的估计公式,例2中当模型不是线性回归模型时如何估计模型中的参数?
教师提出问题,并指出:最小二乘法的思想同样适用于非线性模型,但不能给出统一的公式,多数情况下用数值计算的方法。
生:探究非线性回归模型的最小二乘法,与前述两种模型进行比较,判断模型的拟合效果。
使学生了解非线性回归模型也有最小二乘估计,但不能给出统一的公式,多数情况下用数值计算的方法。
五、小结
强调要借助散点图的直观性、联想已学过的基本函数图像、以及知识间的联系,鼓励学生在建模中大胆尝试;
用回归方程探究非线性回归问题的方法、步骤;
残差分析的步骤、作用。
梳理本节书的知识结构

让学生整理解决本例的思路,鼓励学生探究建立更好的模型。
练习与测试
在两个变量与的回归模型中,分别选择了4个不同模型,它们的相关指数如下,其中拟合效果最好的模型是( A )
A.模型1的相关指数为 B.模型2的相关指数为
C.模型3的相关指数为 D.模型4的相关指数为
已知两个变量的回归模型为,则样本点的(1,4.4)的残差是_____________________
答案:0.4
残差平方和用数学符号表示为___________________,它代表了随机误差的效应;解释变量的效应值称为回归平方和,可以用相关指数来刻画回归的效果,其计算公式是___________________。显然,的值越大,说明残差平方和越小,也就是说模型的拟合效果越好。
答案:;。
在研究硝酸纳的可溶性程度时,对不同的温度观测它在水中的溶解度,得观测结果如下表所示:
温度()
0
10
20
50
70
溶解度()
66.7
76.0
85.0
112.3
128.0
则由此得到的回归直线的斜率是____________。
答案:0.8809
已知线性相关的两变量,的三个样本点A(0,0),B(1,3),C(4,11),若用直线AB作为其预测模型,则其相关指数________。
答案:,,,,
,,
,,
已知线性相关的两变量,的三个样本点A(0,0),B(1,3),C(4,11),若用直线AB作为其预测模型,则点C 的残差是________。
答案:,,。
若一组观测值(x1,y1)、(x2,y2)、…、(xn,yn)之间满足yi=bxi+a+ei (i=1、2. …n)若ei恒为0,则R2为
答案: 1
学业分层测评
(建议用时:45分钟)
[学业达标]
一、选择题
1.为了研究变量x和y的线性相关性,甲、乙两人分别利用线性回归方法得到回归直线l1和l2,已知两人计算过程中,分别相同,则下列说法正确的是(  )
A.l1与l2一定平行
B.l1与l2重合
C.l1与l2相交于点(,)
D.无法判断l1和l2是否相交
【解析】 回归直线一定过样本点的中心(,),故C正确.
【答案】 C
2.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R2分别如下表:




R2
0.98
0.78
0.50
0.85
哪位同学建立的回归模型拟合效果最好?(  )
A.甲    B.乙    C.丙    D.丁
【解析】 相关指数R2越大,表示回归模型的拟合效果越好.
【答案】 A
3.对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是(  )
【解析】 用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.
【答案】 A
4.对于指数曲线y=aebx,令U=ln y,c=ln a,经过非线性化回归分析后,可转化的形式为(  )
A.U=c+bx B.U=b+cx
C.y=c+bx D.y=b+cx
【解析】 由y=aebx得ln y=ln(aebx),∴ln y=ln a+
ln ebx,
∴ln y=ln a+bx,∴U=c+bx.故选A.
【答案】 A
5.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如表所示:
父亲身高x(cm)
174
176
176
176
178
儿子身高y(cm)
175
175
176
177
177
则y对x的线性回归方程为(  )
A.=x-1 B.=x+1
C.=88+x D.=176
【解析】 设y对x的线性回归方程为=x+,
因为==,=176-×176=88,所以y对x的线性回归方程为=x+88.
【答案】 C
二、填空题
6.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性进行分析,并用回归分析的方法分别求得相关指数R2与残差平方和Q(,)如下表:




R2
0.67
0.61
0.48
0.72
Q(,)
106
115
124
103
则能体现A,B两个变量有更强的线性相关性的为________.
【解析】 丁同学所求得的相关指数R2最大,残差平方和Q(,)最小.此时A,B两变量线性相关性更强.
【答案】 丁
7.在对两个变量进行回归分析时,甲、乙分别给出两个不同的回归方程,并对回归方程进行检验.对这两个回归方程进行检验时,与实际数据(个数)对比结果如下:
与实际相符数据个数
与实际不符合数据个数
总计
甲回归方程
32
8
40
乙回归方程
40
20
60
总计
72
28
100
则从表中数据分析,________回归方程更好(即与实际数据更贴近).
【解析】 可以根据表中数据分析,两个回归方程对数据预测的正确率进行判断,甲回归方程的数据准确率为=,而乙回归方程的数据准确率为=.显然甲的准确率高些,因此甲回归方程好些.
【答案】 甲
8.如果某地的财政收入x与支出y满足线性回归方程y=bx+a+e(单位:亿元),其中b=0.8,a=2,|e|≤0.5,如果今年该地区财政收入为10亿元,则年支出预计不会超过________亿元.
【解析】 ∵x=10时,y=0.8×10+2+e=10+e,
∵|e|≤0.5,∴y≤10.5.
【答案】 10.5
三、解答题
9.某服装店经营某种服装,在某周内纯获利y(元)与该周每天销售这种服装件数x之间的一组数据如下表:
x
3
4
5
6
7
8
9
y
66
69
73
81
89
90
91
(1)求样本点的中心;
(2)画出散点图;
(3)求纯获利y与每天销售件数x之间的回归方程.
【解】 (1)=6,≈79.86,样本点的中心为(6,79.86).
(2)散点图如下:
(3)因为=≈4.75,=-≈51.36,
所以=4.75x+51.36.
10.为了研究某种细菌随时间x变化繁殖个数y的变化,收集数据如下:
时间x/天
1
2
3
4
5
6
繁殖个数y
6
12
25
49
95
190
(1)用时间作解释变量,繁殖个数作预报变量作出这些数据的散点图;
(2)求y与x之间的回归方程.
【解】 (1)散点图如图所示:
(2)由散点图看出样本点分布在一条指数函数y=c1ec2x的周围,于是令z=ln y,则
x
1
2
3
4
5
6
z
1.79
2.48
3.22
3.89
4.55
5.25
由计算器算得,=0.69x+1.112,则有=e0.69x+1.112.
[能力提升]
1.(2018·青岛一中调研)某学生四次模拟考试中,其英语作文的减分情况如表:
考试次数x
1
2
3
4
所减分数y
4.5
4
3
2.5
显然所减分数y与模拟考试次数x之间有较好的线性相关关系,则其线性回归方程为(  )
A.y=0.7x+5.25 B.y=-0.6x+5.25
C.y=-0.7x+6.25 D.y=-0.7x+5.25
【解析】 由题意可知,所减分数y与模拟考试次数x之间为负相关,所以排除A.
考试次数的平均数为=(1+2+3+4)=2.5,
所减分数的平均数为=(4.5+4+3+2.5)=3.5,
即直线应该过点(2.5,3.5),代入验证可知直线y=-0.7x+5.25成立,故选D.
【答案】 D
2.某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:
x
6
8
10
12
y
2
3
5
6
若x与y具有线性相关关系,则线性回归方程为________.
【解析】 iyi=6×2+8×3+10×5+12×6=158,==9,
==4,
=62+82+102+122=344,
===0.7,
=-=4-0.7×9=-2.3,
故线性回归方程为=0.7x-2.3.
【答案】 =0.7x-2.3
3.某品牌服装专卖店为了解保暖衬衣的销售量y(件)与平均气温x(℃)之间的关系,随机统计了连续四旬的销售量与当旬平均气温,其数据如表:
时间
二月上旬
二月中旬
二月下旬
三月上旬
旬平均气温x(℃)
3
8
12
17
旬销售量y(件)
55
m
33
24
由表中数据算出线性回归方程=x+中的=-2,样本中心点为(10,38).
(1)表中数据m=__________.
(2)气象部门预测三月中旬的平均气温约为22 ℃,据此估计,该品牌的保暖衬衣在三月中旬的销售量约为__________件.
【解析】 (1)由=38,得m=40.
(2)由=- ,得=58,
故=-2x+58,
当x=22时,=14,
故三月中旬的销售量约为14件.
【答案】 (1)40 (2)14
4.(2018·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
图3-1-2



 (xi-)2
 (wi-)2
 (xi-)(yi-)
 (wi-)(yi-)
46.6
563
6.8
289.8
1.6
1 469
108.8
表中wi=,w]=wi.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为=,=- .
【解】 (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程.
由于===68,
=- =563-68×6.8=100.6,
所以y关于w的线性回归方程为=100.6+68w,
因此y关于x的回归方程为=100.6+68.
(3)①由(2)知,当x=49时,
年销售量y的预报值=100.6+68=576.6,
年利润z的预报值=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.
课件69张PPT。 第 三 章 统计案例3.1 回归分析的基本思想及其初步应用自主学习 新知突破1.通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用.
2.了解线性回归模型与函数模型的差异,了解判断模型拟合效果的方法:相关指数和残差分析.
3.体会有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的过程中寻找更好的模型的方法.下列变量关系是相关关系的是
(1)学生的学习时间与学习成绩之间的关系;
(2)某家庭的收入与支出之间的关系;
(3)学生的身高与视力之间的关系;
(4)球的体积与半径之间的关系.
[提示] 对于(1),学习时间影响学生的学习成绩,但是学生学习的刻苦程度、学习方法、教师的授课水平等其他因素也影响学习成绩,因此学生的学习时间与学习成绩之间具有相关关系;
对于(2),也是相关关系;
对于(3),身高与视力之间没有关系;
对于(4),球的体积与半径之间是函数关系.线性回归模型2.变量样本点中心:_______________,回归直线过样本点的中心.
3.线性回归模型y=____________,其中_____和_____是模型的未知参数,___称为随机误差.自变量x又称为____________,因变量y又称为_____________.bx+a+eabe解释变量预报变量4.随机误差产生的原因. 刻画回归效果的方式残差样本编号身高数据体重估计值越小 解释 预报 残差图的缺点
(1)残差e受许多条件的影响,也受我们所选用的线性模型的影响.
(2)作残差图有时不够精确,也难于区分拟合效果的好坏,因此多数情况下,选用计算相关指数R2来说明拟合.1.两个变量之间的相关关系是一种(  )
A.确定性关系
B.线性关系
C.非线性关系
D.可能是线性关系也可能不是线性关系
解析: 变量之间的相关关系是一种非确定性的关系,如果所有数据点都在一条直线附近,那么它们之间就是一种线性相关关系,否则不是线性相关关系.故选D.
答案: D解析: 由于销售量y与销售价格x成负相关,故排除B,D.又当x=10时,A中y=100,而C中y=-300,C不符合题意,故选A.
答案: A3.下表是x和y之间的一组数据,则y关于x的线性回归方程必过点________.4.关于x与y有如下数据:合作探究 课堂互动线性回归分析 某班5名学生的数学和物理成绩如下表:
(1)画出散点图;
(2)求物理成绩y对数学成绩x的回归直线方程;
(3)一名学生的数学成绩是96,试预测他的物理成绩. [思路点拨]   [规律方法] 1.求线性回归方程的基本步骤:2.需特别注意的是,只有在散点图大致呈直线时,求出的线性回归方程才有实际意义,否则求出的回归方程毫无意义.1.某地最近十年粮食需求量逐年上升,下表是部分统计数据:残差分析 某运动员训练次数与运动成绩之间的数据关系如下:
(1)作出散点图;
(2)求出回归方程;
(3)作出残差图;
(4)计算相关指数R2;
(5)试预测该运动员训练47次及55次的成绩.解析: (1)作出该运动员训练次数(x)与成绩(y)之间的散点图,如下图所示,由散点图可知,它们之间具有线性相关关系.(2)列表计算:(3)残差分析
作残差图如下图所示,由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.
[规律方法] 1.对于建立的回归模型进行残差分析,一般从以下几方面进行:(1)残差图;(2)残差平方和;(3)相关指数.
2.相关指数R2的作用
利用相关指数R2可以刻画拟合效果的好坏.在线性回归模型中,R2的取值越接近1,说明残差的平方和越小,即说明模型的拟合效果越好.2.已知某种商品的价格x(元)与需求量y(件)之间的关系有如下一组数据:
求y对x的回归直线方程,并说明回归模型拟合效果的好坏.非线性回归分析 某地区不同身高的未成年男性的体重平均值如下表:
(1)试建立y与x之间的回归方程;
(2)若体重超过相同身高男性体重平均值的1.2倍为偏胖,低于0.8倍为偏瘦,那么这个地区一名身高为175 cm,体重为82 kg的在校男生体重是否正常?
(3)求相关指数R2. [思路点拨]   (1)根据上表中数据画出散点图如下图.
由图看出,样本点分布在某条指数函数曲线y=c1ec2x的周围,于是令z=ln y.作出散点图如下图.
3分 (3)
[规律方法] 解决非线性回归问题
(1)两个变量不具有线性相关关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型,如y=c1ec2x,可通过对数变换把指数关系变为线性关系:令z=ln y,则变换后样本点应分布在直线z=bx+a(a=ln c1,b=c2)周围.(2)求非线性回归方程的步骤:
①确定变量,作出散点图;
②根据散点图,选择恰当的拟合函数;
③变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程;
④分析拟合效果:通过计算相关指数或画残差图来判断拟合效果;
⑤根据相应的变换,写出非线性回归方程.3.为了研究某种细菌随时间x变化时,繁殖个数y的变化,收集数据如下:
(1)用天数x作解释变量,繁殖个数y作预报变量,作出这些数据的散点图;
(2)描述解释变量x与预报变量y之间的关系;
(3)计算相关指数.解析: (1)所作散点图如图所示.  (2)由散点图看出样本点分布在一条指数函数y=c1ec2x的周围,于是令z=ln y,则◎在一次抽样调查中测得样本的5个样本点,数值如下表:
试建立y与x之间的回归方程.【错解】 由已知条件制成下表:由散点图可以看出y与t呈近似的线性相关关系.列表如下:谢谢观看!