课件9张PPT。回归分析选修1-2(二)复习回顾对于线性回归模型
应注意以下两个问题:I 模型的合理性;II 在模型合理的情况下,如何估计a,b.问题:有时散点图的各点并不集中在一条直线的附近,仍然可以按照求回归直线方程的步骤求回归直线,显然这样的回归直线没有实际意义。在怎样的情况下求得的回归直线方程才有实际意义?即建立的线性回归
模型是否合理?如何对一组数据之
间的线性相关程
度作出定量分析?需要对x,y
的线性相关
性进行检验散点图只是形象地描述点的分布情况,它的“线性”是否
明显只能通过观察,要想把握其特征,必须进行定量的研究. 1.计算公式
2.相关系数r的性质
(1)|r|≤1.
(2)|r|越接近于1,x,y相关程度越强;|r|越接近于0,x,y相关程度越弱.
注:b 与 r 同号
问题:达到怎样程度,x、y线性相关呢?它们的相关程度怎样呢?
相关系数建构数学检验方法步骤如下:1.提出统计假设H0:变量x,y不具有线性相关关系;2.如果以95%的把握作出推断,那么可以根据1-0.95
(其中1-0.95=0.05称为检验水平)3.计算样本相关系数r有线性相关关系例1.下表给出我国从1949至1999年人口数
据资料,试根据表中数据估计我国2004年
的人口数。对题中的数据进行检验例题2 下表是随机抽取的8对母女的身高数据,试根据这些数据探讨y与x之间的关系.1. 1.2 回归分析的基本思想及其初步应用
课前预习学案
预习目标:回归分析的基本思想、方法及初步应用.
二、预习内容:
1.两个变量有线性相关关系且正相关,则回归直线方程中, 的系数 ( ) A. B. C. D.
2.两个变量有线性相关关系且残差的平方和等于0,则( )
A.样本点都在回归直线上 B.样本点都集中在回归直线附近
C.样本点比较分散 D.不存在规律
课内探究学案
一、学习要求:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用.
学习重点:了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和.
学习难点:了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和.
二、学习过程
1.由例1知,预报变量(体重)的值受解释变量(身高)或随机误差的影响.
2.为了刻画预报变量(体重)的变化在多大程度上与解释变量(身高)有关?在多大程度上与随机误差有关?我们引入了评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和.
3.教学总偏差平方和、残差平方和、回归平方和:
(1)总偏差平方和:所有单个样本值与样本均值差的平方和,即.
残差平方和:回归值与样本值差的平方和,即.
回归平方和:相应回归值与样本均值差的平方和,即.
(2)学习要领:①注意、、的区别;②预报变量的变化程度可以分解为由解释变量引起的变化程度与残差变量的变化程度之和,即;③当总偏差平方和相对固定时,残差平方和越小,则回归平方和越大,此时模型的拟合效果越好;④对于多个不同的模型,我们还可以引入相关指数来刻画回归的效果,它表示解释变量对预报变量变化的贡献率. 的值越大,说明残差平方和越小,也就是说模型拟合的效果越好.
4. 典型例题
例2 关于与有如下数据:
2
4
5
6
8
30
40
60
50
70
为了对、两个变量进行统计分析,现有以下两种线性模型:,,试比较哪一个模型拟合的效果更好.
分析:既可分别求出两种模型下的总偏差平方和、残差平方和、回归平方和,也可分别求出两种模型下的相关指数,然后再进行比较,从而得出结论.
5.小结:分清总偏差平方和、残差平方和、回归平方和,初步了解如何评价两个不同模型拟合效果的好坏.
课后练习与提高
假设美国10家最大的工业公司提供了以下数据:
公司
销售总额经x1/百万美元
利润x2/百万美元
通用汽车
126974
4224
福特
96933
3835
埃克森
86656
3510
IBM
63438
3758
通用电气
55264
3939
美孚
50976
1809
菲利普·莫利斯
39069
2946
克莱斯勒
36156
359
杜邦
35209
2480
德士古
32416
2413
(1)作销售总额和利润的散点图,根据该图猜想它们之间的关系应是什么形式;
(2) 建立销售总额为解释变量,利润为预报变量的回归模型,并计算残差;
(3) 你认为这个模型能较好地刻画销售总额和利润之间的关系吗?请说明理由。
1.1.2 回归分析的基本思想及其初步应用
教学要求:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用.
教学重点:了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和.
教学难点:了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和.
教学过程:
一、复习准备:
1.由例1知,预报变量(体重)的值受解释变量(身高)或随机误差的影响.
2.为了刻画预报变量(体重)的变化在多大程度上与解释变量(身高)有关?在多大程度上与随机误差有关?我们引入了评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和.
二、讲授新课:
1. 教学总偏差平方和、残差平方和、回归平方和:
(1)总偏差平方和:所有单个样本值与样本均值差的平方和,即.
残差平方和:回归值与样本值差的平方和,即.
回归平方和:相应回归值与样本均值差的平方和,即.
(2)学习要领:①注意、、的区别;②预报变量的变化程度可以分解为由解释变量引起的变化程度与残差变量的变化程度之和,即;③当总偏差平方和相对固定时,残差平方和越小,则回归平方和越大,此时模型的拟合效果越好;④对于多个不同的模型,我们还可以引入相关指数来刻画回归的效果,它表示解释变量对预报变量变化的贡献率. 的值越大,说明残差平方和越小,也就是说模型拟合的效果越好.
2. 教学例题:
例2 关于与有如下数据:
2
4
5
6
8
30
40
60
50
70
为了对、两个变量进行统计分析,现有以下两种线性模型:,,试比较哪一个模型拟合的效果更好.
分析:既可分别求出两种模型下的总偏差平方和、残差平方和、回归平方和,也可分别求出两种模型下的相关指数,然后再进行比较,从而得出结论.
1.1 回归分析的基本思想及其初步应用
例题:
1. 在画两个变量的散点图时,下面哪个叙述是正确的( )
(A)预报变量在轴上,解释变量在轴上
(B)解释变量在轴上,预报变量在轴上
(C)可以选择两个变量中任意一个变量在轴上
(D)可以选择两个变量中任意一个变量在轴上
解析:通常把自变量称为解析变量,因变量称为预报变量.选B
2. 若一组观测值(x1,y1)(x2,y2)…(xn,yn)之间满足yi=bxi+a+ei (i=1、2. …n)若ei恒为0,则R2为
解析: ei恒为0,说明随机误差对yi贡献为0.
答案:1.
3. 假设关于某设备的使用年限x和所支出的维修费用y(万元),有如下的统计资料:
x
2
3
4
5
6
y
22
38
55
65
70
若由资料可知y对x呈线性相关关系试求:
(1)线性回归方程;
(2)估计使用年限为10年时,维修费用是多少?
解:(1)列表如下:
i
1
2
3
4
5
2
3
4
5
6
22
38
55
65
70
44
114
220
325
420
4
9
16
25
36
, , ,
于是,
∴线性回归方程为: (2)当x=10时,(万元)
即估计使用10年时维修费用是1238万元
课后练习:
1. 一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归模型为y=7.19x+73.93
用这个模型预测这个孩子10岁时的身高,则正确的叙述是( )
A.身高一定是145.83cm;
B.身高在145.83cm以上;
C.身高在145.83cm以下;
D.身高在145.83cm左右.
2. 两个变量与的回归模型中,分别选择了4个不同模型,它们的相关指数如下 ,其中拟合效果最好的模型是( )
A.模型1的相关指数为0.98
B.模型2的相关指数为0.80
C.模型3的相关指数为0.50
D.模型4的相关指数为0.25
3.在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是( )
A.总偏差平方和 B.残差平方和
C.回归平方和 D.相关指数R2
4.工人月工资(元)依劳动生产率(千元)变化的回归直线方程为,下列判断正确的是()
A.劳动生产率为1000元时,工资为50元
B.劳动生产率提高1000元时,工资提高150元
C.劳动生产率提高1000元时,工资提高90元
D.劳动生产率为1000元时,工资为90元
5.线性回归模型y=bx+a+e中,b=_______,a=_________e称为_________
6. 若有一组数据的总偏差平方和为100,相关指数为0.5,则期残差平方和为_______ 回归平方和为____________
7. 一台机器使用的时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器的运转的速度而变化,下表为抽样试验的结果:
转速x(转/秒)
16
14
12
8
每小时生产有缺点的零件数y(件)
11
9
8
5
(1)变量y对x进行相关性检验; (2)如果y对x有线性相关关系,求回归直线方程; (3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么机器的运转速度应控制在什么范围内?
第一章:统计案例答案
1.1 回归分析的基本思想及其初步应用
1. D 2.A 3.B 4.C
5.
a=,e称为随机误差
6. 50,50
7. (1)r=0.995,所以y与x有线性性相关关系
(2)y=0.7286x-0.8571
(3)x小于等于14.9013
高中新课标数学选修(1-2)统计案例测试题
一、选择题
1.炼钢时钢水的含碳量与冶炼时间有( )
.确定性关系 .相关关系 .函数关系 .无任何关系
2.设有一个回归方程为,变量增加一个单位时,则( )
.平均增加个单位
.平均增加2个单位
.平均减少个单位
.平均减少2个单位
3.在一次实验中,测得的四组值分别是,,,,则与之间的回归直线方程为( )
. . . .
4.已知、之间的数据如下表所示,则与之间的线性回归方程过点( )
. . . .
5.变量与之间的回归方程表示( )
.与之间的函数关系
.与之间的不确定性关系
.与之间的真实关系的形式
.与之间的真实关系达到最大限度的吻合
6.为了考察两个变量和之间的线性相关性,甲、乙两位同学各自独立地做100次和150次试验,并且利用线性回归方法,求得回归直线分别为和,已知两人在试验中发现对变量的观测数据的平均值都是,对变量的观测数据的平均值都是,那么下列说法正确的是( )
.和有交点 .与相交,但交点不一定是
.与必定平行 .与必定重合
7.设两个变量和之间具有线性相关关系,它们的相关系数是,关于的回归直线的斜率是,纵截距是,那么必有( )
.与的符号相同 .与的符号相同
.与的符号相反 .与的符号相反
8.考察棉花种子经过处理跟生病之间的关系得到如下表数据:
种子处理
种子未处理
合计
得病
32
101
133
不得病
61
213
274
合计
93
314
407
根据以上数据,则( )
.种子经过处理跟是否生病有关
.种子经过处理跟是否生病无关
.种子是否经过处理决定是否生病
.以上都是错误的
9.在研究打酣与患心脏病之间的关系中,通过收集数据、整理分析数据得“打酣与患心脏病有关”的结论,并且有以上的把握认为这个结论是成立的。下列说法中正确的是( )
.100个心脏病患者中至少有99人打酣
.1个人患心脏病,那么这个人有99%的概率打酣
.在100个心脏病患者中一定有打酣的人
.在100个心脏病患者中可能一个打酣的人都没有
10.经过对的统计量的研究,得到了若干个临界值,当时,我们( )
.有95%的把握认为与有关
.有99%的把握认为与有关
.没有充分理由说明事件与有关系
.有97.5%的把握认为与有关
11.利用独立性检验来考虑两个分类变量与是否有关系时,通过查阅下表来确定“和有关系”的可信度。如果,那么就有把握认为“和有关系”的百分比为( )
.25% .95% .5% .%
12.在对一组数据采用几种不同的回归模型进行回归分析时,得到下面的相应模型的相关指数的值,其中拟和效果较好的是( )
. . . .
二、填空题
13.在研究硝酸钠的可溶性程度时,对不同的温度观测它在水中的溶解度,得观测结果如下:
温度
0
10
20
50
70
溶解度
则由此得到的回归直线方程为。
14.若样本容量为1或2,此时的残差平方和为,用这样的样本建立的线性回归方程的预报误差为。
15.对于回归方程,当时,的估计值为。
16.在对某小学的学生进行吃零食的调查中,得到如下表数据:
吃零食
不吃零食
合计
男学生
24
31
55
女学生
8
26
34
合计
32
57
89
根据上述数据分析,我们得出的。
三、解答题
17.某种产品的广告费用支出与销售额之间有如下的对应数据:
2
4
5
6
8
30
40
60
50
70
(1)画出散点图;
(2)求回归直线方程;
(3)据此估计广告费用为10销售收入的值。
18.某聋哑研究机构,对聋哑关系进行抽样调查,在耳聋的657人中有416人哑,而另外不聋的680人中有249人哑,你能运用这组数据,得出相应结论吗?
19.一项调查表对9个不同的值,测得的9个对应值如下表:
1
2
3
4
5
6
7
8
9
1.5
1.8
2.4
3.0
3.5
3.9
4.4
4.8
5.0
4.8
5.7
7.0
8.3
10.9
12.4
13.1
13.6
15.3
试作出该数据的散点图并由此判断可否存在回归直线,若有则求出回归直线方程。
20.在钢线碳含量对于电阻的效应中,得到如下表所示的数据:
碳含量(/%)
0.10
0.30
0.40
0.55
0.70
0.80
0.95
时电阻()
15
18
19
21
22.6
23.6
26
求对的线性回归方程,并检验回归方程的显著性。
21.某企业为考察生产同一种产品的甲、乙两条生产线的产品合格率,同时各抽取100件产品,检验后得到如下的列联表:
合格
不合格
总计
甲线
97
3
100
乙线
95
5
100
总计
192
8
200
请问甲、乙两条生产线的产品合格率在多大程度上有关系?
22.对某校小学生进行心理障碍测试得到如下的列联表:
焦虑
说谎
懒惰
总计
女生
5
10
15
30
男生
20
10
50
80
总计
25
20
65
110
试说明在这三种心理障碍中哪一种与性别关系最大?
参考答案:
一、选择题
1. 2. 3. 4. 5. 6. 7.
8. 9. 10. 11. 12.
二、填空题
13.
14.0;0
15.390
16.3.689
三、解答题
17.提示:(1)图略;
(2),,
,,
,∴,,
∴回归直线方程为。
(3)时,预报的值为。
18.提示:根据题目所给数据,得到如下列联表:
哑
不哑
总计
聋
416
241
657
不聋
249
431
680
总计
665
672
1337
根据列联表数据得到,
∴我们有的把握说聋哑有关系。
19.提示:具有线性相关关,系散点图略。
,,,,
故所求回归直线方程为。
20.提示:,,,,。
∴,,
∴所求回归直线方程为。
利用相关系数检验是否显著:
,,
∴,由于,故钢线碳含量对于电阻的效应线性相关关系显著。
21.提示:,
而,∴甲、乙生产的产品合格率有关的可能性是。
22.提示:对于上述三种心理障碍分别构造三个随机变量、、,
由表中数据可得;
;
。
所以有的把握认为说谎与性别有关,没有充分数据显示焦虑和懒惰与性别有关,故说谎与性别的关系最大。
课件33张PPT。1.1 回归分析的基本思想及其初步应用学习目标
1.了解随机误差、残差、残差图的概念.
2.会通过分析残差判断线性回归模型的拟合效果.
3.掌握建立回归模型的步骤.
4.通过对典型案例的探究,了解回归分析的基本思想方法和初步应用.课前自主学案1.我们在《必修3》中已经学习了统计的知识.三种随机抽样方法是____________、________和________.
2.我们还学习了用样本的____分布估计________,用样本的数字特征估计______________.如用样本的____估计总体的离散与集中程度.
3.《必修3》主要研究两个变量的____相关性,并建立了____________.简单随机抽样系统抽样分层抽样频率总体分布总体的数字特征方差线性回归直线方程(2)线性回归模型y=bx+a+e,其中a和b为模型的未知参数,e称为_________.
(3)随机误差产生的原因主要有以下几种:
①所用的确定性函数不恰当引起的误差;
②忽略了某些因素的影响;
③存在观测误差.随机误差2.刻画回归效果的方式
(1)残差分析
①残差:把随机误差的估计值i称为相应于点(xi,yi)的残差.
②残差图:作图时______为残差,______可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.
残差点比较____地落在水平的带状区域内,说明选用的模型比较适合,这样的带状区域的宽度____,说明模型拟合精度越高.纵坐标横坐标均匀越窄解释预报1线性回归方程能否用散点图中的某两点来确定?课堂互动讲练解答线性回归题目的关键首先应通过散点图来分析两变量间的关系是否相关,然后利用求回归方程的公式求解回归方程.某班5名学生的数学和物理成绩如下表:(1)画出散点图;
(2)求物理成绩y对数学成绩x的回归直线方程;
(3)一名学生的数学成绩是96,试预测他的物理成绩.
【思路点拨】 先画散点图,分析物理与数学成绩是否有线性相关关系,若相关再利用线性回归模型求解预报变量.【解】 (1)散点图如图:【思维总结】 求回归直线方程的一般方法是:作出散点图,将问题所给的数据在平面直角坐标系中进行描点,这样表示出的两个变量的一组数据的相关图形就是散点图,从散点图中我们可以判断样本点是否呈条状分布,进而判断两个变量是否具有相关关系.互动探究1 在本例中,求数学成绩y对物理成绩x的回归直线方程,并预测当一名学生的物理成绩是82时,其数学成绩为多少?通过对残差图的分析,得出模型的拟合效果
已知某种商品的价格x(元)与需求量y(件)之间的关系有如下一组数据:求y对x的回归直线方程,并说明回归模型拟合效果的好坏.列出残差表:【思维总结】 回归模型拟合效果的好坏可以通过计算R2来判断,其值越大,说明模型的拟合效果越好.变式训练2 为研究重量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:(1)作出散点图并求线性回归方程;
(2)求出R2;
(3)进行残差分析.解:(1)散点图如图(2)列表如下:(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与拉力成线性关系.方法技巧
1.对具有相关关系的两个变量进行统计分析时,首先进行相关关系的判断(可作散点图),在确认具有线性相关关系后,再求回归直线方程.对于非线性回归问题,可以转化为线性回归问题去解决.如例1.失误防范