【学生版】第8 章 成对数据的统计分析 (6课时)
8.2.2 一元线性回归分析的应用举例
学习目标
针对实际问题,会用一元线性回归模型进行统计与预测;
知识梳理
1、建立一元线性回归模型的一般步骤;2、相关分析和回归分析的联系与区别;
巩固练习
一、选择题
1、关于回归分析,下列说法错误的是( )
A.回归分析是研究两个具有相关关系的变量的方法
B.散点图中,解释变量在x轴,响应变量在y轴
C.回归模型中一定存在随机误差
D.散点图能明确反映变量间的关系
2、某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:°C)的关系,
在20个不同的温度条件下进行种子发芽实验,由实验数据得到下面的
散点图:
由此散点图,在10°C至40°C之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A. B. C. D.
二、填空题
3、正常情况下,某产品的销售额(单位:万元)关于广告费用(单位:万元)的线性回归方程是,当投入的广告费用为万元时,该产品的销售额约为__________万元.
4、具有线性相关关系的变量、的一组数据如下表所示,与的回归直线方程为,则的值为______.
5、据统计,某产品的市场销售量y(万台)与广告费用投入x(万元)之间的对应数据的散点图如图所示,由图可知y与x之间有较强的线性相关关系,其线性同归方程是,则a的值是
6、废品率x%和每吨生铁成本y(元)之间的线性回归方程为,表明
废品率每增加1%,生铁成本平均每吨增加 元
7、为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
收入x/万元 8.2 8.6 10.0 11.3 11.9
支出Y/万元 6.2 7.5 8.0 8.5 9.8
根据上表可得回归方程,其中,,据此估计,该社区一户年收入为15万元的家庭的年支出为 万元
8、在生物学上,有隔代遗传的现象,已知某数学老师的体重为62 kg,他的曾祖父、祖父、父亲、儿子的体重分别为58 kg、64 kg、58 kg、60 kg;如果体重是隔代遗传,且呈线性相关,根据以上数据可得解释变量与预报变量的回归方程为,其中,据此模型预测他的孙子的体重约为 (kg)
9、在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线
y=ebx+a的周围,令z=ln y,求得回归方程为=0.25x-2.58,则该模型的回归方程为________________.
10、在对具有线性相关的两个变量和进行统计分析时,得到如下数据:
由表中数据求得关于的回归直线方程,则,,,这四个样本点中,距离回归直线最近的点的坐标是
;②;③;④;
三、解答题
11、某种产品的广告费用支出与销售额 (单位:百万元)之间有如下的对应数据:
/百万元 2 4 5 6 8
/百万元 30 40 60 50 70
(1)画出散点图;
(2)求回归方程;
(3)试预测广告费用支出为10百万元时,销售额多大
12、某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区
某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方
法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示
第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得,
,,,.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi) (i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数,.
四、思考题
13、
13.(10分)在统计学中,偏差是指个别测定值与测定的平均值之差,在成绩统计时,我们把某个同学的某科考试成绩与该科班平均分的差叫某科偏差;某高二班主任为了了解学生的偏科情况,对学生数学偏差x(单位:分)与历史偏差y(单位:分)之间的关系进行学科偏差分析,决定从全班52位同学中随机抽取一个容量为8的样本进行分析,得到他们的两科成绩偏差数据如下:
学生序号 1 2 3 4 5 6 7 8
数学偏差x 20 15 13 3 2 -5 -10 -18
历史偏差y 6.5 3.5 3.5 1.5 0.5 -0.5 -2.5 -3.5
(1)已知x与y之间具有线性相关关系,求y关于x的经验回归方程=x+;
(2)若这次考试该班数学平均分为118分,历史平均分为90.5分,试预测数学成绩126分的同学的历史成绩.
附:参考公式与参考数据==-x,=324,=1 256.
【教师版】第8 章 成对数据的统计分析 (6课时)
8.2.2 一元线性回归分析的应用举例
学习目标
针对实际问题,会用一元线性回归模型进行统计与预测;
知识梳理
1、建立一元线性回归模型的一般步骤;2、相关分析和回归分析的联系与区别;
巩固练习
一、选择题
1、关于回归分析,下列说法错误的是( )
A.回归分析是研究两个具有相关关系的变量的方法
B.散点图中,解释变量在x轴,响应变量在y轴
C.回归模型中一定存在随机误差
D.散点图能明确反映变量间的关系
解析:用散点图反映两个变量间的关系时,存在误差;
答案:D;
2、某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:°C)的关系,
在20个不同的温度条件下进行种子发芽实验,由实验数据得到下面的
散点图:
由此散点图,在10°C至40°C之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A. B. C. D.
解析:由散点图分布可知,散点图分布在一个对数函数的图象附近,
因此,最适合作为发芽率和温度的回归方程类型的是;故选:D;
答案:D;
说明:本题考查函数模型的选择,主要观察散点图的分布;.
二、填空题
3、正常情况下,某产品的销售额(单位:万元)关于广告费用(单位:万元)的线性回归方程是,当投入的广告费用为万元时,该产品的销售额约为__________万元.
提示:根据线性回归直线方程,代入,得到产品的销售额;
解析:当时,代入线性回归方程,故答案为:;
答案:65.5;
4、具有线性相关关系的变量、的一组数据如下表所示,与的回归直线方程为,则的值为______.
提示:根据表格数据求得,将代入回归直线即可求得结果.
解析:由表格数据知:,,
因为,线性回归直线过点,所以,,解得:,故答案为:.
答案:
5、据统计,某产品的市场销售量y(万台)与广告费用投入x(万元)之间的对应数据的散点图如图所示,由图可知y与x之间有较强的线性相关关系,其线性同归方程是,则a的值是
提示:依据图形分别计算得到,然后代入方程求解即可;
解析:由题可知:
将代入线性回归方程可得:
答案:2.5
6、废品率x%和每吨生铁成本y(元)之间的线性回归方程为,表明
废品率每增加1%,生铁成本平均每吨增加 元
解析:线性回归方程的系数表示x每增加一个单位,平均增加,当x为1时,废品率应为1%,故当废品率增加1%时,生铁成本平均每吨增加3元.
答案:3;
7、为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
收入x/万元 8.2 8.6 10.0 11.3 11.9
支出Y/万元 6.2 7.5 8.0 8.5 9.8
根据上表可得回归方程,其中,,据此估计,该社区一户年收入为15万元的家庭的年支出为 万元
解析:由题意可得=×(8.2+8.6+10.0+11.3+11.9)=10,
=×(6.2+7.5+8.0+8.5+9.8)=8,
所以,所以线性回归方程为,
把x=15代入,可得;
答案:11.8;
8、在生物学上,有隔代遗传的现象,已知某数学老师的体重为62 kg,他的曾祖父、祖父、父亲、儿子的体重分别为58 kg、64 kg、58 kg、60 kg;如果体重是隔代遗传,且呈线性相关,根据以上数据可得解释变量与预报变量的回归方程为,其中,据此模型预测他的孙子的体重约为 (kg)
解析:由于体重是隔代遗传,且呈线性相关,
则取数据(58,58),(64,62),(58,60),
得==60,==60,
即样本点的中心为(60,60),代入,得,则,
取,可得;
故预测他的孙子的体重约为61 kg;
答案:61;
9、在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线
y=ebx+a的周围,令z=ln y,求得回归方程为=0.25x-2.58,则该模型的回归方程为________________.
解析:由z=ln y,=0.25x-2.58,得ln =0.25x-2.58,所以=e0.25x-2.58.
故该模型的经验回归方程为=e0.25x-2.58;
答案:=e0.25x-2.58
10、在对具有线性相关的两个变量和进行统计分析时,得到如下数据:
由表中数据求得关于的回归直线方程,则,,,这四个样本点中,距离回归直线最近的点的坐标是
;②;③;④;
提示:计算出样本中心点的坐标,由此可得出结论.
解析:因为,,,
根据回归直线方程的性质可知,平均值点在回归直线上,故选:③
答案:③
三、解答题
11、某种产品的广告费用支出与销售额 (单位:百万元)之间有如下的对应数据:
/百万元 2 4 5 6 8
/百万元 30 40 60 50 70
(1)画出散点图;
(2)求回归方程;
(3)试预测广告费用支出为10百万元时,销售额多大
提示:(1)按表中的数据在平面直角坐标系中描点即得散点图;
(2)由公式求出与写出经验回归方程;
(3)利用经验回归方程分析;
解析:(1)散点图如图所示:
(2)列出下表,并用科学计算器进行有关计算:
1 2 3 4 5 合计
2 4 5 6 8 25
30 40 60 50 70 250
60 160 300 300 560 1 380
4 16 25 36 64 145
所以==5,==50,=145,xiyi=1 380.于是可得===6.5
;
所以所求的回归方程为;
(3)根据上面求得的回归方程,当广告费用支出为10百万元时,
(百万元),
即广告费用支出为10百万元时,销售额大约为82.5百万元.
【说明】 求回归方程前应注意什么问题
对于性质不明确的两组数据,要先作散点图,从图中看它们有无线性相关关系,有相关关系的求出的回归方程才有实际意义.
【归纳】求经验回归方程的步骤
(1)画散点图:由样本点是否呈条状分布来判断两个量是否具有线性相关关系;
(2)求回归系数:若存在线性相关关系,则求回归系数;
(3)写方程:写出回归方程,并利用回归方程进行预测说明;
12、某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区
某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方
法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示
第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得,
,,,.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi) (i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数,.
解析:(1)由已知得样本平均数,从而该地区这种野生动物数量的估计值为60×200=12000.
(2)样本的相关系数
.
(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.
理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
四、思考题
13、
13.(10分)在统计学中,偏差是指个别测定值与测定的平均值之差,在成绩统计时,我们把某个同学的某科考试成绩与该科班平均分的差叫某科偏差;某高二班主任为了了解学生的偏科情况,对学生数学偏差x(单位:分)与历史偏差y(单位:分)之间的关系进行学科偏差分析,决定从全班52位同学中随机抽取一个容量为8的样本进行分析,得到他们的两科成绩偏差数据如下:
学生序号 1 2 3 4 5 6 7 8
数学偏差x 20 15 13 3 2 -5 -10 -18
历史偏差y 6.5 3.5 3.5 1.5 0.5 -0.5 -2.5 -3.5
(1)已知x与y之间具有线性相关关系,求y关于x的经验回归方程=x+;
(2)若这次考试该班数学平均分为118分,历史平均分为90.5分,试预测数学成绩126分的同学的历史成绩.
附:参考公式与参考数据==-x,=324,=1 256.
解析:(1)由题意,
==,
==,
==,=-=-×=,
∴经验回归方程为y=x+.
(2)由题意,设该同学的历史成绩为w,则历史偏差为w-90.5.又该同学的数学偏差为126-118=8,由(1)得w-90.5=×8+,解得w=93,
所以,预测这位同学的历史成绩为93分.