8.2 一元线性回归模型及其应用
A组
1.对于经验回归方程x+>0),下列说法错误的是 ( )
A.当x增加一个单位时,的值平均增加个单位
B.点()一定在x+所表示的直线上
C.当x=t时,一定有y=t+
D.当x=t时,y的值近似为t+
解析:经验回归方程是一个模拟函数,它表示的是一系列离散的点大致所在直线的位置及其大致变化规律,故有些散点不一定在经验回归直线上.
答案:C
2.在回归分析中,R2的值越小,说明残差平方和( )
A.越小 B.越大
C.可能大也可能小 D.以上都不对
答案:B
3.有一名同学家开了一个小卖部,他为了研究气温对热饮销售的影响,经过统计得到了一个热饮销售杯数与当天气温之间的线性关系,其经验回归方程为=-2.35x+155.47.如果某天气温为4 ℃,那么该小卖部大约能卖出热饮的杯数是( )
A.140 B.146 C.151 D.164
答案:B
4.设两个变量x和y之间具有线性相关关系,它们的样本相关系数是r,y关于x的经验回归直线的斜率是,纵轴上的截距是,那么必有( )
A.与r的符号相同 B.与r的符号相同
C.与r的符号相反 D.与r的符号相反
解析:因为>0时,两变量正相关,此时r>0;<0时,两变量负相关,此时r<0,所以与r的符号相同.
答案:A
5.对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是( )
答案:A
6.(多选题)为研究需要,统计了两个变量x,y的数据情况如表:
x x1 x2 x3 … xn
y y1 y2 y3 … yn
其中数据x1,x2,x3,…,xn和数据y1,y2,y3,…,yn的平均数分别为,并且计算得样本相关系数r=-0.8,经验回归方程为x+,如下结论正确的为( )
A.将以上数据的每个数据都加一个相同的常数后,方差不变
B.变量x,y的相关性强
C.若x=x1,则必有=y1
D.<0
解析:对A,方差是表示数据波动大小的量,将一组数据的每个数都加一个相同的常数后,方差不变,故A正确;
对B,样本相关系数r=-0.8,|r|>0.75,变量x,y的相关性强,故B正确;
对C,当x=x1时,不一定有=y1,因此C错误;
对D,因为r=-0.8<0,是负相关,所以<0,D正确.故选ABD.
答案:ABD
7.某品牌服装专卖店为了解保暖衬衣的销售量y(单位:件)与平均气温x(单位:℃)之间的关系,随机统计了连续四旬的销售量与当旬平均气温,其数据如表:
时间 二月上旬 二月中旬 二月下旬 三月上旬
旬平均气温x/℃ 3 8 12 17
旬销售量y/件 55 m 33 24
由表中数据算出线性回归方程x+中的=-2,样本中心点为(10,38).
(1)表中数据m= ;
(2)气象部门预测三月中旬的平均气温约为22 ℃,据此估计,该品牌的保暖衬衣在三月中旬的销售量为 .
解析:(1)由=38,得m=40.
(2)由,得=58,则=-2x+58,
当x=22时,=14,
故估计三月中旬的销售量为14件.
答案:(1)40 (2)14件
8.从某大学随机抽取的5名女大学生的身高x(单位:cm)和体重y(单位:kg)的数据如下表.
x 165 160 175 155 170
y 58 52 62 43
根据上表可得经验回归方程为=0.92x-96.8,则表格中空白处的值为 .
解析:由=165,
根据经验回归直线经过样本点中心(),可得=0.92×165-96.8=55.
设空白处的值为a,由,解得a=60.
答案:60
9.某工厂1~8月份某种产品的产量x(单位:t)与成本y(单位:万元)的统计数据如下表.
月份 1 2 3 4 5 6 7 8
产量/t 5.6 6.0 6.1 6.4 7.0 7.5 8.0 8.2
成本/万元 130 136 143 149 157 172 183 188
(1)画出散点图;
(2)判断y与x是否具有线性相关关系,若有,求出其经验回归方程.
解:(1)散点图如图.
(2)由图可看出,这些点基本分布在一条直线附近,可以认为x和y线性相关.
∵=6.85,=157.25,xiyi=8 764.5,=382.02,
∴≈22.169,≈157.25-22.169×6.85≈5.392.
∴经验回归方程为=22.169x+5.392.
10.某旅游景区试图探究车流量与景区接待能力的相关性,确保服务质量和游客安全,以便于确定是否对进入景区车辆实施限行.为此,该景区采集到过去一周内某时段车流量与接待能力指数的数据如表:
时间 周一 周二 周三 周四 周五 周六 周日
车流量x/千辆 10 9 9.5 10.5 11 8 8.5
接待能力指数y 78 76 77 79 80 73 75
(1)根据表中周一到周五的数据,求y关于x的经验回归方程;
(2)若由经验回归方程得到的估计数据与所选出的检验数据的误差均不超过2,则认为该经验回归方程是可靠的.请根据周六和周日的数据,判定所得的经验回归方程是否可靠
附参考公式及参考数据:经验回归方程x+,其中.
解:(1)(10+9+9.5+10.5+11)=10,
(78+76+77+79+80)=78.
∴(xi-)(yi-)=5,(xi-)2=2.5,
∴=2,=78-2×10=58.
∴y关于x的经验回归方程为=2x+58.
(2)当x=8时,=2×8+58=74,
满足|74-73|=1<2,
当x=8.5时,=2×8.5+58=75,
满足|75-75|=0<2,故所得的经验回归方程是可靠的.
B组
1.甲、乙、丙、丁四名同学各自对A,B两变量做回归分析,分别得到散点图与残差平方和(yi-)2如下表:
同学 甲 乙 丙 丁
散点图
残差平 方和 115 106 124 103
哪名同学的试验结果体现拟合A,B两变量关系的模型拟合精度高 ( )
A.甲 B.乙 C.丙 D.丁
解析:根据相关关系的知识,残差平方和越小(对于已经获取的样本数据,R2表达式中(yi-)2为确定的数,则残差平方和越小,R2越大),由回归分析建立的回归模型的拟合效果越好,由试验结果知丁要好些.
答案:D
2.由变量x与y相对应的一组数据(1,y1),(5,y2),(7,y3),(13,y4),(19,y5)得到的经验回归方程为=2x+45,则=( )
A.135 B.90 C.67 D.63
解析:因为(1+5+7+13+19)=9,=2+45,
所以=2×9+45=63.
答案:D
3.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
收入x/万元 8.2 8.6 10.0 11.3 11.9
支出y/万元 6.2 7.5 8.0 8.5 9.8
根据上表可得经验回归方程x+,其中=0.76,.据此估计,该社区一户年收入为15万元家庭的年支出为( )
A.11.4万元 B.11.8万元
C.12.0万元 D.12.2万元
解析:由题意知
=10,
=8,
所以=8-0.76×10=0.4,
故当x=15时,=0.76×15+0.4=11.8(万元).
答案:B
4.某鞋厂为了研究初二学生的脚长x(单位:cm)和身高y(单位:cm)的关系,从初二某班随机抽取10名学生,根据测量数据的散点图(图略)可以看出y与x之间有线性相关关系,设其经验回归方程为x+.已知xi=225,yi=1 600,=4.该班某学生的脚长为24 cm,据此估计其身高为( )
A.160 cm B.163 cm C.166 cm D.170 cm
解析:=22.5,=160,=160-4×22.5=70,则经验回归方程为=4x+70,故该学生的身高为4×24+70=166(cm).
答案:C
5.(多选题)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得经验回归方程,分别得到以下四个结论,其中一定不正确的结论是( )
A.y与x负相关,且=2.347x-6.423
B.y与x负相关,且=-3.476x+5.648
C.y与x正相关,且=5.437x+8.493
D.y与x正相关,且=-4.326x-4.578
解析:A结论错误,由经验回归方程知,此两变量的关系是正相关;
B结论正确,经验回归方程符合负相关的特征;
C结论正确,经验回归方程符合正相关的特征;
D结论不正确,经验回归方程符合负相关的特征.
故选AD.
答案:AD
6.对具有线性相关关系的变量x,y,测得一组数据如表:
x 2 4 5 6 8
y 20 40 60 70 80
根据上表,利用最小二乘法得它们的经验回归方程为=10.5x+,据此模型预测,当x=10时,= .
解析:根据表中数据,计算×(2+4+5+6+8)=5,
×(20+40+60+70+80)=54,
代入经验回归方程=10.5x+中,求得=54-10.5×5=1.5,
故经验回归方程为=10.5x+1.5,
据此模型预测,当x=10时,=10.5×10+1.5=106.5.
答案:106.5
7.某市春节期间7家超市的广告费支出xi(单位:万元)和销售额yi(单位:万元)的数据如下:
超市 A B C D E F G
广告费支出xi 1 2 4 6 11 13 19
销售额yi 19 32 40 44 52 53 54
(1)若用线性回归模型拟合y与x的关系,求y关于x的经验回归方程.
(2)若用对数回归模型拟合y与x的关系,可得经验回归方程=12ln x+22,经计算得出线性回归模型和对数回归模型的R2分别约为0.75和0.97,请用R2说明选择哪个回归模型更合适,并用此模型预测A超市广告费支出为8万元时的销售额.
参考数据及公式:=8,=42,xiyi=2 794,=708,,ln 2≈0.7.
解:(1)=1.7,
=28.4,
故y关于x的经验回归方程是=1.7x+28.4.
(2)因为0.75<0.97,所以对数回归模型更合适.
当x=8万元时,预测A超市销售额为47.0万元.
8.假设关于某设备的使用年限x(单位:年)和支出的维修费用y(单位:万元),有如下表的统计资料:
使用年限x/年 2 3 4 5 6
维修费用y/万元 2.2 3.8 5.5 6.5 7.0
若由资料知y对x呈线性相关关系,试求:
(1)经验回归方程x+.
(2)估计使用年限为10年时,维修费用是多少
(3)计算残差平方和.
(4)求R2并说明模型的拟合效果.
解:(1)将已知条件制成下表.
i 1 2 3 4 5 合计
xi 2 3 4 5 6 20
yi 2.2 3.8 5.5 6.5 7.0 25
xiyi 4.4 11.4 22.0 32.5 42.0 112.3
4 9 16 25 36 90
=4;=5;=90;xiyi=112.3
设经验回归方程为x+,
于是有=1.23,
=5-1.23×4=0.08,经验回归方程是=1.23x+0.08.
(2)当x=10时,=1.23×10+0.08=12.38,即估计使用10年时维修费用是12.38万元.
(3)因为=2.46+0.08=2.54,=3.77,=5,=6.23,=7.46,所以残差平方和(yi-)2=0.651.
(4)R2=1-=1-≈0.958 7,模型的拟合效果较好,使用年限解释了95.87%的维修费用支出.(共35张PPT)
8.1 成对数据的统计相关性
第八章
2022
内容索引
01
02
03
自主预习 新知导学
合作探究 释疑解惑
随堂练习
课标定位素养阐释
1.理解两个变量的相关关系的概念.
2.了解样本相关系数的含义.
3.会作散点图,并利用散点图判断两个变量之间是否具有相关关系.
4.会用样本相关系数的公式判断两个变量相关性的强弱.
5.通过本节的学习,加强学生数学运算、数据分析的核心素养.
自主预习 新知导学
一、相关关系
【问题思考】
1.(1)吸烟一定可以导致患肺癌吗 吸烟与患肺癌有关吗
(2)下表是某小卖部6天卖出热茶的杯数与当天气温的对比表.
小卖部中卖出的热茶杯数与当天的气温有关吗 两者之间是如何变化的
(3)在y=x2+5(x∈R)中,x,y之间是什么关系
提示:(1)吸烟不一定导致患肺癌,但它们有一定的关系.
(2)两者之间有关系.随着气温的降低卖出的热茶杯数增加.
(3)y与x之间是函数关系,是一种确定关系.
气温/℃ 25 18 12 10 4 0
杯数 18 30 35 37 50 54
2.填一填:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为 相关关系 .
3.做一做:下列变量之间的关系是相关关系的是( )
A.正方体的表面积与体积
B.光照时间与果树的产量
C.匀速行驶车辆的行驶距离与时间
D.某运动会中某代表团的足球队的比赛成绩与乒乓球队的比赛成绩
解析:A,C是函数关系,D无相关关系.
答案:B
二、散点图、线性相关
【问题思考】
1.下表是某地搜集到的新房屋的销售价格y(单位:万元)和房屋的面积x(单位:m2)的数据:
(1)以x为横坐标,y为纵坐标在平面直角坐标系中描出表示以上数据的点.
(2)房屋的销售价格与房屋的面积有关系吗
(3)怎样描述房屋的销售价格与房屋的面积之间的变化关系
x 115 110 80 135 105
y 44.8 41.6 38.4 49.2 42
提示:(1)
(2)有关系.
(3)大体上来看,面积越大,售价越高.但不是正比例函数关系.
2.填一填:(1)每一个序号下的成对样本数据都可用直角坐标系中的点表示出来,由这些点组成了统计图.我们把这样的统计图叫做散点图.
(2)如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
(3)一般地,如果两个变量的取值呈现正相关或负相关.而且散点落在一条直线 附近,我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或 曲线 相关.
3.做一做:
某公司的利润y(单位:千万元)与销售总额x(单位:千万元)之间有如下表对应数据:
(1)画出散点图;
(2)判断y与x是否具有线性相关关系.
x 10 15 17 20 25 28 32
y 1 1.3 1.8 2 2.6 2.7 3.3
解:(1)散点图如下:
(2)由图可知,所有数据点接近直线排列,因此,认为y与x有线性相关关系,且为正相关.
三、样本相关系数
【问题思考】
1.填一填:(1)一般地,如果变量x和y正相关,那么关于均值平移后的大多数散点将分布在 第一 象限、 第三 象限,对应的成对数据同号的居多;如果变量x和y 负相关 ,那么关于均值平移后的大多数散点将分布在第二象限、第四象限,对应的成对数据异号的居多.
当r>0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.
当r<0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小.
(3)样本相关系数r的取值范围为 [-1,1] .
样本相关系数r的绝对值大小可以反映成对数据之间线性相关的程度:
当|r|越接近1时,成对样本数据的线性相关程度 越强 ;
当|r|越接近0时,成对样本数据的线性相关程度 越弱 .
2.做一做:用线性回归模型求得甲、乙、丙三组不同样本数据的样本相关系数分别为0.81,-0.98,0.63,其中 (填甲、乙、丙中的一个)组样本数据的线性相关性最强.
答案:乙
【思考辨析】
判断下列说法是否正确,正确的在后面的括号内画“√”,错误的画“×”.
(1)圆的面积与圆的半径具有相关关系.( × )
(2)利用散点图可以直观地得到两个变量之间的函数关系.( × )
(3)曲线上的点与该点的坐标之间是相关关系.( × )
合作探究 释疑解惑
探究一
线性相关关系的判断
【例1】 有5名学生的数学成绩和物理成绩如下表:
画出散点图,并判断这5名学生的数学成绩和物理成绩是否具有相关关系.
学生 A B C D E
数学 80 75 70 65 60
物理 70 66 68 64 62
解:以x轴表示数学成绩,y轴表示物理成绩,可得相应的散点图.
由散点图可知,这5名学生的数学成绩和物理成绩具有线性相关关系.
两个随机变量x和y相关关系的确定方法
(1)散点图法:通过画散点图,观察点的分布是否存在一定规律,直观地判断.
(2)表格、关系式法:结合表格或关系式进行判断.
(3)经验法:借助积累的经验进行分析判断.
【变式训练1】 在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的散点图,根据该图,下列结论中正确的是( )
A.人体脂肪含量与年龄正相关,
且脂肪含量的中位数等于20%
B.人体脂肪含量与年龄正相关,
且脂肪含量的中位数小于20%
C.人体脂肪含量与年龄负相关,
且脂肪含量的中位数等于20%
D.人体脂肪含量与年龄负相关,
且脂肪含量的中位数小于20%
解析:由散点图可知点的分布都集中在一条直线附近,由此可以判断两个变量具有相关关系,点分布在从左下角到右上角的区城,因此是正相关.由散点图可知共有10个点,则中位数为最中间两点的纵坐标的平均数,因为两数均小于20%,所以脂肪含量的中位数小于20%.
答案:B
探究二
样本相关系数大小对变量相关性的影响
【例2】 在研究两个变量y与x的相关关系时,分别选择了四组不同的样本数据,由这四组不同的样本数据得到的样本相关系数r分别为0.25,0.50,0.98,0.80,则其中相关程度最大的样本相关系数是( )
A.0.25 B.0.50 C.0.98 D.0.80
解析:线性相关关系的判断中,样本相关系数为r,
|r|越接近于1,相关程度越大;
|r|越小,相关程度越小,故选C.
答案:C
样本相关系数大小对相关程度大小的影响:
|r|≤1,|r|越接近1,相关程度越大;|r|越接近0,相关程度越小.
【变式训练2】 对两个变量x,y进行线性相关检验,得样本相关系数r1=0.785 9,对两个变量u,v进行线性相关检验,得样本相关系数r2=-0.956 8,则下列判断正确的是( )
A.变量x与y正相关,变量u与v负相关,变量x与y的线性相关性较强
B.变量x与y负相关,变量u与v正相关,变量x与y的线性相关性较强
C.变量x与y正相关,变量u与v负相关,变量u与v的线性相关性较强
D.变量x与y负相关,变量u与v正相关,变量u与v的线性相关性较强
解析:由样本相关系数r1=0.785 9>0知x与y正相关,由样本相关系数 r2=-0.956 8<0知u与v负相关,又|r1|<|r2|,故变量u与v的线性相关性较强.
答案:C
规范解答
样本相关系数的实际应用
【典例】 为分析肥胖程度对总胆固醇与空腹血糖的影响,在肥胖人群中随机抽出8人,他们的肥胖指数BMI值、总胆固醇TC指标值(单位:mmol/L)、空腹血糖CLU指标值(单位:mmol/L)如表所示.
人员编号 1 2 3 4 5 6 7 8
BMI值x 25 27 30 32 33 35 40 42
TC指标值y 5.3 5.4 5.5 5.6 5.7 6.5 6.9 7.1
CLU指标值z 6.7 7.2 7.3 8.0 8.1 8.6 9.0 9.1
用变量y与x,z与x的样本相关系数,分别说明TC指标值与BMI值、CLU指标值与BMI值的相关程度.
本题考查均值、标准差以及样本相关系数等问题,是关于样本相关系数的综合应用,属于中档题.正确进行数学运算、数据处理是解题之关键.
随堂练习
1.在下列各变量之间的关系中,是相关关系的有( )
①汽车的质量和百公里耗油量;
②正n边形的边数与内角度数之和;
③在一定范围内,一块农田的小麦产量与施肥量;
④家庭的经济条件与学生的学习成绩.
A.①② B.①③ C.②③ D.③④
解析:汽车的质量越大,百公里耗油量会越多.在一定范围内,农田的施肥量越大,小麦产量一般会越多.①③是相关关系.②是函数关系.④中家庭经济条件与学生的学习成绩之间既不是相关关系,也不是函数关系.
答案:B
2.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,3,…,n)都在直线2x+y-1=0上,则这组样本数据的样本相关系数r为 .
解析:因为直线2x+y-1=0的斜率k=-2,且所有样本点(xi,yi)(i=1,2,3,…,n)都在直线2x+y-1=0上,所以说明这组样本数据完全负相关,则样本相关系数达到最小值-1.
答案:-1
3.一组通过随机抽样得到的7名儿童的智力测验成绩和阅读能力测验成绩如下:
智力测验成绩:110 120 90 100 140 95 105
阅读能力测验成绩:80 85 75 80 90 85 78
则儿童的智力与阅读能力的样本相关系数为 .
答案:0.78
本 课 结 束(共59张PPT)
8.2 一元线性回归模型及其应用
第八章
2022
内容索引
01
02
03
自主预习 新知导学
合作探究 释疑解惑
随堂练习
课标定位素养阐释
1.了解一元线性回归模型及随机误差、残差、残差分析的概念.
2.了解最小二乘法的思想方法,会求经验回归方程,并用回归方程进行预报.
3.会用残差分析判断线性回归模型的拟合效果.
4.了解非线性回归模型通过变换转化为线性回归模型的思想.
5.通过本节的学习,进一步提升学生的数据分析、数据建模的素养和能力.
自主预习 新知导学
一、一元线性回归模型及经验回归方程
【问题思考】
1.某电脑公司有5名产品推销员,其工作年限与年推销金额数据如下表:
推销员编号 1 2 3 4 5
工作年限x/年 3 5 6 7 9
年推销金额y/万元 80 120 120 160 200
请问如何表示年推销金额y与工作年限x之间的相关关系
提示:画出散点图,由图可知,样本点散布在一条直线附近,因此可用回归直线表示变量之间的相关关系.
3.做一做:(1)在一次试验中,测得(x,y)的四组值分别是(1,2),(2,3),(3,4),(4,5),则y关于x的经验回归方程为( )
答案:(1)A (2)8.95
二、线性回归分析
【问题思考】
提示:(1)不一定;(2)越小越好.
3.做一做:在两个变量y与x的回归模型中,分别选择了4个不同的模型,它们的R2如下,其中拟合效果最好的模型是( )
A.模型1 B.模型2 C.模型3 D.模型4
答案:A
模型 模型1 模型2 模型3 模型4
R2 0.98 0.80 0.50 0.25
【思考辨析】
判断下列说法是否正确,正确的在后面的括号内画“√”,错误的画“×”.
(1)求经验回归方程前可以不进行相关性检验.( × )
(2)在残差图中,纵坐标为残差,横坐标可以选为样本编号.( √ )
(3)利用经验回归方程求出的值是准确值.( × )
(4)变量x与y之间的经验回归方程表示x与y之间的真实关系形式.( × )
(5)随机误差也就是残差.( × )
合作探究 释疑解惑
探究一
经验回归方程
【例1】 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(单位:吨)与相应的生产能耗y(单位:吨标准煤)的几组对照数据:
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的经验回归方程
(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的经验回归方程,预测生产100吨甲产品的生产能耗比技改前降低了多少吨标准煤.
(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)
x 3 4 5 6
y 2.5 3 4 4.5
解:(1)由题设所给数据,可得散点图如图.
(3)由(2)的经验回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为90-(0.7×100+0.35)=19.65(吨标准煤).
求经验回归方程的三个步骤
(1)画散点图:由样本点是否呈条状分布来判断两个量是否具有线性相关关系.
(2)求回归系数:若存在线性相关关系,则求回归系数.
(3)写方程:写出经验回归方程.
【变式训练1】 一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验.测得的数据如下:
(1)y与x是否具有线性相关关系
(2)如果y与x具有线性相关关系,求经验回归方程;
(3)根据求出的经验回归方程,预测加工200个零件所用的时间为多少
零件数x/个 10 20 30 40 50 60 70 80 90 100
加工时间y/min 62 68 75 81 89 95 102 108 115 122
解:(1)列出下表.
i 1 2 3 4 5 6 7 8 9 10
xi 10 20 30 40 50 60 70 80 90 100
yi 62 68 75 81 89 95 102 108 115 122
xiyi 620 1 360 2 250 3 240 4 450 5 700 7 140 8 640 10 350 12 200
由于r≈0.999 8,因此x与y之间有很强的线性相关关系,因而可求经验回归方程.
探究二
线性回归分析
【例2】 为研究质量x(单位:g)对弹簧长度y(单位:cm)的影响,对不同质量的6个物体进行测量,数据如表所示:
(1)作出散点图并求经验回归方程;
(2)求出R2;
(3)进行残差分析.
x 5 10 15 20 25 30
y 7.25 8.12 8.95 9.90 10.9 11.8
解:(1)作出散点图如图所示:
(2)列表如下:
(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与质量具有线性关系.
在条件不变的情况下,画出残差图.
解:如图所示.
线性回归分析的解题策略
(1)解答本题应先通过散点图来分析两变量间的关系是否线性相关,再利用求经验回归方程的公式求解经验回归方程,并利用残差图或R2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.
(2)刻画回归效果的三个方式
①残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.
【变式训练2】 关于x与y有如下数据:
有如下的两个线性模型:
x 2 4 5 6 8
y 30 40 60 50 70
探究三
非线性回归分析
【例3】 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)的数据作了初步处理,得到下面的散点图及一些统计量的值.
(1)根据散点图判断,y=a+bx与y=c+d 哪一个适宜作为年销售量y关于年宣传费x的经验回归方程类型 (给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的经验回归方程.
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①当年宣传费x=49时,年销售量及年利润的预测值是多少
②当年宣传费x为何值时,年利润的预测值最大
求非线性经验回归方程的步骤
(1)确定变量,作出散点图.
(2)根据散点图,选择恰当的拟合函数.
(3)变量置换,通过变量置换把非线性经验回归问题转化为经验回归问题,并求出经验回归方程.
(4)分析拟合效果,通过计算R2或画残差图来判断拟合效果.
(5)根据相应的变换,写出非线性经验回归方程.
【变式训练3】 在一次抽样调查中测得样本的5个样本点,数值如下表:
试建立y与x之间的经验回归方程.
x 0.25 0.5 1 2 4
y 16 12 5 2 1
解:由数值表可作散点图如图,
t 4 2 1 0.5 0.25
y 16 12 5 2 1
由置换后的数值表作散点图如下:
由散点图可以看出y与t呈近似的线性相关关系,列表如下:
i ti yi tiyi
1 4 16 64 16
2 2 12 24 4
3 1 5 5 1
4 0.5 2 1 0.25
5 0.25 1 0.25 0.062 5
∑ 7.75 36 94.25 21.312 5
易错辨析
混淆a,b致错
【典例】 假设学生在初一和初二的数学成绩是线性相关的,若10名学生初一数学成绩(x)和初二数学成绩(y)列表如下:
试求初一和初二数学成绩间的经验回归方程.
x 74 71 72 68 76 73 67 70 65 74
y 76 75 71 70 76 79 65 77 62 72
以上解答过程中都有哪些错误 出错的原因是什么 你如何改正 你如何防范
【变式训练】 某运动员训练次数与成绩之间的数据关系如下:
(1)作出散点图;
(2)求出经验回归方程;
(3)作出残差图;
(4)计算R2;
(5)试预测该运动员训练47次及55次的成绩.
次数x 30 33 35 37 39 44 46 50
成绩y 30 34 37 39 42 46 48 51
解:(1)作出该运动员训练次数x与成绩y之间的散点图,如图,由散点图可知,它们之间具有线性相关关系.
(3)残差分析.
作残差图如图.
由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.
(4)计算R2.
计算得R2≈0.985 5.说明了该运动员的成绩的差异有98.55%是由训练次数引起的.
(5)作出预报.
由上述分析可知,我们可用经验回归方程 =1.041 48x-0.003 09作为该运动员成绩的预报值.
将x=47和x=55分别代入该方程可得y≈49和y≈57.
故预测该运动员训练47次和55次的成绩分别为49和57.
随堂练习
1.某车间加工零件的数量x与加工时间y的统计数据如表:
零件数x/个 10 20 30
加工时间y/分钟 21 30 39
答案:C
2.下表是x与y之间的一组数据,则y关于x的经验回归直线必过点( )
A.(2,2) B.(1.5,2) C.(1,2) D.(1.5,4)
x 0 1 2 3
y 1 3 5 7
答案:D
4.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元 (利润=销售收入-成本)
单价x/元 8 8.2 8.4 8.6 8.8 9
销量y/件 90 84 83 80 75 68
本 课 结 束第八章成对数据的统计分析
8.1 成对数据的统计相关性
1.下列说法正确的是( )
A.相关关系是函数关系
B.函数关系是相关关系
C.线性相关关系是一次函数关系
D.相关关系有两种,分别是线性相关关系和非线性相关关系
解析:函数关系和相关关系互不包含,所以A,B,C三项不正确;根据定义,相关关系有两种,分别是线性相关关系和非线性相关关系.
答案:D
2.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图①;对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图②.由这两个散点图可以判断( )
①
②
A.变量x与y线性相关,u与v非线性相关
B.变量x与y线性相关,u与v不相关
C.变量x与y线性相关,u与v线性相关
D.变量x与y不相关,u与v不相关
解析:由这两个散点图可以判断,变量x与y线性相关,u与v线性相关,故选C.
答案:C
3.已知x,y是两个变量,下列四个散点图中,x,y呈负相关趋势的是( )
解析:对于A,散点图中的点从左向右是上升的,且在一条直线附近,是正相关关系;
对于B,散点图中的点不成带状分布,没有明显的相关关系;
对于C,散点图中的点从左向右是下降的,且在一条直线附近,是负相关关系;
对于D,散点图中的点不成带状分布,没有明显的相关关系.
答案:C
4.(多选题)对两个变量的样本相关系数r,下列说法正确的是( )
A.|r|越大,相关程度越大
B.|r|越小,相关程度越大
C.|r|趋近于0时,没有非线性相关系数
D.|r|越接近于1时,线性相关程度越强
解析:对于A,|r|越大,相关程度越大,正确;
对于B,|r|越小,相关程度越小,错误;
对于C,|r|趋近于0时,线性相关关系较弱,错误;
对于D,|r|越接近于1时,线性相关程度越强,正确.
综上,正确的是AD.
答案:AD
5.下面各组变量之间具有线性相关关系的是 .(填序号)
①高原的含氧量与海拔高度;
②速度一定时,汽车行驶的路程和所用的时间;
③学生的成绩和学生的学号;
④父母的身高和子女的身高.
解析:由线性相关的定义可知①④是线性相关关系.
答案:①④
6.有下列关系:
①人的年龄与他(她)拥有的财富之间的关系;
②学生与他(她)的学号之间的关系;
③森林中的同一种树木,其断面直径与高度之间的关系;
④曲线上的点与该点的坐标之间的关系.
其中有相关关系的是 .(填序号)
解析:对于①,人的年龄与他(她)拥有的财富是一种不确定的相关关系;对于②,学生与他(她)的学号之间的关系是一种确定的对应关系,不是相关关系;对于③,森林中的同一种树木,其断面直径与高度之间的关系是一种不确定的关系,属于相关关系;对于④,曲线上的点与该点的坐标之间的关系是一一对应关系,不是相关关系.综上,其中有相关关系的是①③.
答案:①③
7.如图所示,有A,B,C,D,E 5组样本数据,去掉 组样本数据后,剩下的4组样本数据具有较强的线性相关关系.(请用A,B,C,D,E作答)
解析:因为A,B,C,E四组样本数据分布在一条直线附近且贴近这条直线,而D组样本数据离得远,所以去掉D组样本数据剩下的4组样本数据的线性相关性较强.
答案:D
8.变量X与Y相对应的一组样本数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组样本数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),r1表示变量Y与X之间的样本相关系数,r2表示变量V与U之间的样本相关系数,则r1与r2的大小关系是 .
解析:由变量X与Y相对应的一组样本数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5),
可得变量Y与X之间正相关,因此r1>0.
而由变量U与V相对应的一组样本数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),可知变量V与U之间负相关,因此r2<0.
故r1与r2的大小关系是r2答案:r29.下面是水稻产量与施化肥量的一组观测数据:
施化肥量/kg 15 20 25 30 35 40 45
水稻产量/kg 320 330 360 410 460 470 480
(1)将上述数据制成散点图;
(2)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗 水稻产量会一直随施化肥量的增加而增长吗
解:(1)散点图如图所示:
(2)从图中发现数据点大致分布在一条直线附近,因此施化肥量和水稻产量近似成线性相关关系,施化肥量由小到大时,水稻产量由小到大,但水稻产量不会一直随施化肥量的增加而增长.
10.在一个数据组中,已知(xi-)2是(yi-)2的两倍,(xi-)(yi-)是(yi-)2的1.2倍,试求这组数据的样本相关系数r.(精确到0.001)
解:r=,
设(yi-)2=a,则(xi-)(yi-)=1.2a,(xi-)2=2a,故r=≈0.849.
11.某地10户家庭的年收入和年饮食支出的统计资料如表所示.
年收入x/万元 2 4 4 6 6 6 7 7 8 10
年饮食支出y/万元 0.9 1.4 1.6 2.0 2.1 1.9 1.8 2.1 2.2 2.3
根据表中数据,判断两个变量是否线性相关,计算样本相关系数,并刻画它们的相关程度.
解:先画出散点图,观察散点图,可以看出样本点都集中在一条直线的附近,由此可以判断家庭的年收入和年饮食支出线性相关.
作散点图如图所示.
根据样本相关系数的定义,可得
r=
=. ①
因为=6,=1.83,=406,=35.13,xiyi=117.7,
代入①得r=≈0.91,
所以可以推断出家庭年收入和年饮食支出正线性相关,且相关程度很强.
12.为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:
抽取次序 1 2 3 4 5 6 7 8
零件尺寸 9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04
抽取次序 9 10 11 12 13 14 15 16
零件尺寸 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95
经计算得xi=9.97,s=≈0.212,≈18.439,(xi-)(i-8.5)=-2.78,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.
(1)求(xi,i)(i=1,2,…,16)的样本相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).
(2)一天内抽检的零件中,如果出现了尺寸在区间(-3s,+3s)之外的零件,就认为这条生产线在这一天的生产过程中可能出现了异常情况,需对当天的生产中过程进行检查.
①从这一天抽检的结果看,是否需对当天的生产过程进行检查
②在区间(-3s,+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
附:样本(xi,yi)(i=1,2,…,n)的样本相关系数r=≈0.09.
解:(1)r=
≈
≈-0.18.
∵|r|<0.25,∴可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.
(2)①∵=9.97,s≈0.212,∴合格零件的尺寸范围是(9.334,10.606),显然第13号零件尺寸不在此范围之内,∴需要对当天的生产过程进行检查.
②剔除离群值后,剩下数据的平均值为(16×9.97-9.22)=10.02,≈16×0.2122+16×9.972≈1 591.134,∴剔除离群值后样本方差为×(1 591.134-9.222-15×10.022)≈0.008,∴剔除离群值后样本标准差为≈0.09.