人教A版数学选修2-3 3.1 回归分析的基本思想及其初步应用(课件84张PPT+练习)

文档属性

名称 人教A版数学选修2-3 3.1 回归分析的基本思想及其初步应用(课件84张PPT+练习)
格式 zip
文件大小 6.5MB
资源类型 教案
版本资源 人教新课标A版
科目 数学
更新时间 2019-11-15 15:38:37

文档简介

第三章 3.1
A级 基础巩固
一、选择题
1.(2019·重庆模拟)某公司为确定明年投入某产品的广告支出,对近5年的广告支出m与销售额y(单位:百万元)进行了初步统计,得到下列表格中的数据:
y
30
40
p
50
70
m
2
4
5
6
8
经测算,年广告支出m与年销售额y满足线性回归方程=6.5m+17.5,则p的值为( D )
A.45          B.50
C.55 D.60
[解析] ==5,
∴=6.5×5+17.5=50,
∴=50,解得p=60.
故选D.
2.(2019·深圳一模)其食品研究部门为了解一种酒品的储藏年份与芳香度之间的相关关系,在市场上收集到了一部分不同年份的该酒品,并测定了其芳香度(如表).
年份x
0
1
4
5
6
8
芳香度y
1.3
1.8
5.6
7.4
9.3
由最小二乘法得到回归方程=1.03x+1.13,但不小心在检测后滴到表格上一滴检测液,污损了一个数据,请你推断该数据为( A )
A.6.1 B.6.28
C.6.5 D.6.8
[解析] 由表中数据:=(0+1+4+5+6+8)=4,
回归方程=1.03x+1.13,
∴=1.03×4+1.13=5.25,
∴=(1.3+1.8+5.6+?+7.4+9.3)=5.25,
解得:?=6.1.
故选A.
3.由变量x与y相对应的一组数据(1,y1)、(5,y2)、(7,y3)、(13,y4)、(19,y5)得到的线性回归方程为=2x+45,则=( D )
A.135    B.90
C.67     D.63
[解析] ∵=(1+5+7+13+19)=9,=2+45,
∴=2×9+45=63,故选D.
4.观测两个相关变量,得到如下数据:
x
-1
-2
-3
-4
-5
5
4
3
2
1
y
-0.9
-2
-3.1
-3.9
-5.1
5
4.1
2.9
2.1
0.9
则两变量之间的线性回归方程为( B )
A.=0.5x-1 B.=x
C.=2x+0.3 D.=x+1
[解析] 因为=0,
==0,根据回归直线方程必经过样本中心点(,)可知,回归直线方程过点(0,0),所以选B.
5.一位母亲记录了儿子3~9岁的身高,数据(略),由此建立的身高与年龄的回归模型为=7.19x+73.93,用这个模型预测这个孩子10岁时的身高,则正确的叙述是( C )
A.身高一定是145.83cm B.身高在145.83cm以上
C.身高在145.83cm左右 D.身高在145.83cm以下
[解析] 将x的值代入回归方程=7.19x+73.93时,得到的值是年龄为x时,身高的估计值,故选C.
6.已知x与y之间的几组数据如下表:
x
1
2
3
4
5
6
y
0
2
1
3
3
4
假设根据上表数据所得线性回归直线方程为=x+.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b′x+a′,则以下结论正确的是( C )
A.>b′,>a′ B.>b′,C.a′ D.[解析] 本题考查线性回归方程,考查运算能力.
由公式=求得=,代入(,)求得=-,而由两点确定的方程为y=2x-2,∴a′.
二、填空题
7.在一组样本数据(x1,y1)、(x2,y2)、…、(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为__1__.
[解析] 因为所有的样本点都落在一条直线上,所以相关系数|r|=1,又由回归方程为y=x+1,说明x与y正相关,即r>0,所以r=1.
8.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本.某白酒酿造企业市场部对该企业9月份的产品销量(单位:千箱)与单位成本(单位:元)的资料进行线性回归分析,结果如下:
=,=71,=79,iyi=1481.
则销量每增加1000箱,单位成本约下降__1.8182__元.
[解析] 由题意知,=≈-1.8182,
=71-(-1.8182)×≈77.36,所以=-1.8182x+77.36,
所以销量每增加1000箱,单位成本约下降1.8182元.
9.某种商品的广告费支出x与销售额y之间有如下关系:(单位:万元)
x
2
4
5
6
8
y
30
40
60
50
70
y与x的线性回归方程为=6.5x+17.5,当广告费支出5万元时,残差为__10__.
[解析] 当广告费x=5时,=6.5×5+17.5=50,残差为60-50=10.
三、解答题
10.为了迎接2019年世界男篮世界杯,某协会组织了一次“迎2019世界杯,手工制作助威旗”活动,将男篮世界杯的标志以手工刺绣的方式刺绣到红色的三角形的旗子上面,来为世界杯加油.在10次制作中测得的数据如下:
助威旗数x(个)
10
20
30
40
50
60
70
80
90
100
加工时间Y(小时)
62
68
75
81
89
95
102
108
115
122
试问:(1)x与Y是否具有线性相关关系?
(2)如果x与Y具有线性相关关系,求出Y对x的回归直线方程,并根据回归直线方程,预测加工2010个助威旗需多少天(精确到1)?
注:每天工作8小时.
(参考数据:=55,=91.7,=38500,=87 777,iyi=55950,38500-10×552-8250,≈91,≈61)
[解析] (1)作散点图如图所示
从图中可以看出,各点都散布在一条直线附近,即它们线性相关.
(2)由所给数据求得
b==
≈0.668
∴a=-b=91.7-0.668×55
=54.96
∴Y对x的回归直线方程为
=54.96+0.668x
当x=2010时,=54.96+0.668×2010
=1397.64(小时)
又1397.64÷8=174.705(天)
∴加工2010个助威旗所需时间约为175天.
B级 素养提升
1.(2018·保定一模)已知具有线性相关的变量x,y,设其样本点为Ai(xi,yi)(i=1,2,…,8),回归直线方程为=x+a,若++…+=(6,2),(O为原点),则a=( B )
A. B.-
C. D.-
[解析] 计算=×(x1+x2+…+x8)==,
=×(y1+y2+…+y8)==;
回归直线方程为=x+a,
∴=×+a,
解得a=-.
故选B.
2.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5),变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则( C )
A.r2C.r2<0[解析] ∵变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5),
∴==11.72,
==3,
(xi-)(yi-)=(10-11.72)×(1-3)+(11.3-11.72)×(2-3)+(11.8-11.72)×(3-3)+(12.5-11.72)×(4-3)+(13-11.72)×(5-3)=7.2,
=19.172,
∴这组数据的相关系数是r1==0.3755,
变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),=(10+11.3+11.8+12.5+13)=11.72,
==3,
(Ui-)(Vi-)=(10-11.72)×(5-3)+(11.3-11.72)×(4-3)+(11.8-11.72)×(3-3)+(12.5-11.72)×(2-3)+(13-11.72)×(1-3)=-7.2,
=19.172.
∴这组数据的相关系数是r2=-0.3755,
∴第一组数据的相关系数大于零,第二组数据的相关系数小于零,故选C.
二、填空题
3.(2019·张店区校级模拟)在一组样本数据(x1,y1),(x2,y2),…,(x6,y6)的散点图中,若所有样本点(xi,yi)(i=1,2,…,6)都在曲线y=bx2-1附近波动.经计算i=11,i=13,=21,则实数b的值为____.
[解析] 根据题意,把对应点的坐标代入曲线y=bx2-1,
y1=bx-1,y2=bx-1,…,y6=bx-1,
∴y1+y2+…+y6=b(x+x+…+x)-6,
∴13=b×21-6,∴b=,
故答案为.
4.某品牌服装专卖店为了解保暖衬衣的销售量y(件)与平均气温x(℃)之间的关系,随机统计了连续四旬的销售量与当旬平均气温,其数据如表:
时间
二月上旬
二月中旬
二月下旬
三月上旬
旬平均气温x(℃)
3
8
12
17
旬销售量y(件)
55
m
33
24
由表中数据算出线性回归方程=bx+a中的b=-2,样本中心点为(10,38).
(1)表中数据m=__40__;
(2)气象部门预测三月中旬的平均气温约为22℃,据此估计,该品牌的保暖衬衣在三月中旬的销售量约为__14__件.
[解析] (1)由=38,得m=40.
(2)由a=-b得a=58,
故=-2x+58,
当x=22时,=14,
故三月中旬的销售量约为14件.
三、解答题
5.以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据:
房屋面积(m2)
115
110
80
135
105
销售价格(万元)
24.8
21.6
18.4
29.2
22
(1)画出数据对应的散点图;
(2)求线性回归方程,并在散点图中加上回归直线;
(3)据(2)的结果估计当房屋面积为150m2时的销售价格.
[解析] (1)数据对应的散点图如下图所示:
(2)=xi=109,lxx= (xi-)2=1570,
=23.2,lxy= (xi-)(yi-)=308.
设所求回归直线方程为=x+,
则==≈0.1962,=-=1.8166.
故所求回归直线方程为=0.1962x+1.8166.
(3)据(2),当x=150m2时,销售价格的估计值为
=0.1962×150+1.8166=31.2466(万元).
6.(2018·全国卷Ⅱ理,18)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值.
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
[解析] (1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元).
利用模型②,可得该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
课件84张PPT。第三章统计案例你坐过火车、乘过飞机吗?晕车、晕机与性别有无关系?肺癌是人类的一大杀手,吸烟与患肺癌的关联性究竟有多大?你了解过你们班同学的身高与体重吗,身高与体重是否线性相关?你统计过你们班同学的考试成绩吗,物理成绩的高低与数学成绩关联度有多大?……这些都是统计学研究的内容.
本章我们将要学习独立性检验和回归分析的基本思想、方法.学习本章要注意学习收集、整理、分析数据的方法,体会统计分析的基本思想、建模思想和现代计算技术在统计中的应用,体会统计思维和确定性思维的差异.3.1 回归分析的基本思想及其初步应用自主预习学案2019年6月17日四川宜宾发生6.1级地震,此后40分钟内连发四次余震,最高震级5.1级,此次地震系21世纪陆地第5次八级大地震,余震频繁而且震级还高,仅7级以上余震就发生了2次,你知道地震的震级与地震次数之间有什么关系吗?
相关关系 线性回归分析 相关系数r 
当r>0时,表明两个变量__________;当r<0时,表明两个变量__________.r的绝对值越接近1,表明两个变量的线性相关性越______;r的绝对值接近于0时,表明两个变量之间几乎不存在线性相关关系.通常当|r|大于________时,认为两个变量有很强的线性相关关系.
正相关 负相关 强 0.75 
二、线性回归分析
1.随机误差
(1)随机误差的概念:当样本点散布在某一条直线的附近,而不是在一条直线上时,不能用一次函数y=bx+a来描述两个变量之间的关系,而是用线性回归模型_______________来表示,这里_____称为解释变量,_____称为预报变量,_____称为随机误差,E(e)=_____,D(e)=_____.y=bx+a+e x y e 0 σ2 (2)随机误差及其产生的原因
从散点图中我们可以看到,样本点散布在某一条直线附近,而不是在一条直线上,所以不能用一次函数y=bx+a来描述它们之间的关系,我们用下面的线性回归模型来表示:y=bx+a+e,其中a、b为模型的未知数,e称为随机误差.产生随机误差的主要原因有以下3个方面:
①用线性回归模型近似真实模型(真实模型是客观存在的,通常我们并不知道真实模型是什么)所引起的误差.可能存在非线性的函数能更好地描述y与x之间的关系,但是现在却用线性函数来表述这种关系,结果会产生误差.这种由模型近似所引起的误差包含在e中.
②忽略了某些因素的影响.影响变量y的因素不只变量x,可能还包括其他许多因素(例如在描述身高和体重关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响),它们的影响都体现在e中.
③观测误差.由于测量工具等原因,导致y的观测值产生误差(比如一个人的体重是确定的数,但由于测量工具的影响和测量人技术的影响可能会得到不同的观测值,与真实值之间存在误差),这样的误差也包含在e中.
残差 样本编号 贡献率 好 相关系数r 1.在对两个变量x,y进行线性回归分析时,有下列步骤:
①对所求出的回归直线方程作出解释;
②收集数据(xi,yi),i=1,2,…,n;
③求线性回归方程;
④求相关系数;
⑤根据所搜集的数据绘制散点图.
如果根据可行性要求能够作出变量x,y具有线性相关的结论,则在下列操作顺序中正确的是 (  )
A.①②⑤③④    B.③②④⑤①
C.②④③①⑤ D.②⑤④③①D 
[解析] 对两个变量进行回归分析时,
首先收集数据(xi,yi),i=1,2,…,n;根据所搜集的数据绘制散点图.
观察散点图的形状,判断线性相关关系的强弱,
求相关系数,写出线性回归方程,
最后依据所求出的回归直线方程作出解释;
故正确顺序是②⑤④③①,
故选D.B D 4.为了考察两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做了100次和150次试验,并且利用线性回归方法,求得回归直线分别为l1和l2,已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法正确的是 (  )
A.l1和l2有交点(s,t)
B.l1与l2相关,但交点不一定是(s,t)
C.l1与l2必定平行
D.l1与l2必定重合
[解析] 由题意知(s,t)是甲、乙两位同学所做试验的样本点的中心,而线性回归直线恒过样本点的中心,故选A.A 5.下图是根据变量x、y的观测数据(xi,yi)(i=1,2,…,10)得到的散点图,由这些散点图可以判断变量x、y具有相关关系的图是 (  )
A.①②       B.①④
C.②③ D.③④
[解析] 根据散点图中点的分布情况,可判断③④中的变量x,y具有相关的关系.D 互动探究学案命题方向1 ?变量间的相关性检测典例 1『规律总结』 变量间是否具有线性相关关系,可通过散点图或相关系数作出判断,散点图只是粗略作出判断,用相关系数能够较准确的判断相关的程度.命题方向2 ?求线性回归方程典例 2『规律总结』 1.散点图是定义在具有相关关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,从图中看它们有无关系,关系的密切程度,再进行相关的回归分析.
2.求回归直线方程,首先应注意到,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.〔跟踪练习2〕
(2019·湖南郴州质检)为了探究车流量与PM2.5的浓度是否相关,现采集到北方某城市2016年12月份某星期星期一到星期日某一时间段车流量与PM2.5的数据如下表:命题方向3 ?线性回归分析典例 3[解析] (1)作出该运动员训练次数x与成绩y的散点图,如图所示.由散点图可知,它们之间具有相关关系.(3)残差分析:下面的表格列出了运动员训练次数和成绩的原始数据以及相应的残差数据.
(2)残差图也是用来刻画回归效果的,判断依据是:残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合精度越高,回归方程预报精度越高.[解析] (1)散点图如图所示.(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与重量成线性关系.命题方向4 ?非线性回归问题典例 4[思路分析] 作散点图,观察确定y与x的近似函数关系,作变量替换,列出新的对应值表求出对应的线性回归方程,再作变量替换得回归方程.[解析] 根据测得数据作出散点图,如图,根据已有的函数知识,可以发现样本点分布在某一条幂函数型曲线Q=αhβ(α、β是待定的正常数)①的周围.为此将Q=αhβ两边取对数,得到lgQ=βlgh+lgα②,令lgQ=y,lgh=x,于是②式可化为y=βx+lgα.这样y就是x的线性函数了.可以利用线性回归模型来建立y和x之间的线性回归方程y=bx+a(β=b,lgα=a)了.『规律总结』 1.在建立经验公式时,选择合适的函数类型是十分重要的.通常是根据实验数据,画出散点图,从中观察其变化规律,并与已知函数的图象对比,看接近于什么函数,根据实践经验来决定选取公式的类型,所选的类型是否符合实际,还需要通过实践来检验.有时候还需要选择不同的模拟函数做比较.
2.如果观察散点图,发现点的分布不呈条状分布,而是与某种曲线相近,这时可选择这条曲线对应的函数作为拟合函数,作恰当变换,转化为线性函数,用线性回归模型求解.[解析] (1)由表中数据作散点图如下图所示.利用线性回归方程进行预报变量的估计(规律方法) 利用线性回归方程可以进行预报,线性回归方程将部分观测值所反映的规律进行延伸,是我们对有线性相关关系的两个变量进行分析和控制的依据.典例 5典例 5C (1)在给定的坐标系中画出表中数据的散点图;[解析] (1)散点图如图所示:求回归方程  典例 6
[辨析] 错误原因:未画散点图来确定回归类型,题中要求回归方程但不一定是回归直线方程,错解中盲目地求成了回归直线方程.
防范措施:回归分析时,必须先画散点图,确定两个变量是否有关系,有什么样的关系,然后确定是哪种回归模型才能进一步求解.
[正解] 根据收集的数据作散点图,如图所示.1.关于回归分析,下列说法错误的是 (  )
A.回归分析是研究两个具有相关关系的变量的方法
B.散点图中,解释变量在x轴,预报变量在y轴
C.回归模型中一定存在随机误差
D.散点图能明确反映变量间的关系
[解析] 用散点图反映两个变量间的关系时,存在误差.D A [解析] 相关指数R2越大,表示回归模型的效果越好.D [解析] A,B,C均正确,是回归方程的性质,D项是错误的,线性回归方程只能预测学习的体重,选项D应改为“若该大学生某女生身高为170 cm,则估计其体重大约为58.79 kg”.68 课 时 作 业 学 案