第八章成对数据的统计分析
8.1 成对数据的统计相关性
8.1.1 变量的相关关系 8.1.2 样本相关系数
8.2 一元线性回归模型及其应用
8.2.1 一元线性回归模型 8.2.2 一元线性回归模型参数的最小二乘估计
课后篇巩固提升
基础达标练
1.(2020陕西延安第一中学高二月考)在下列散点图中,变量x,y不具有相关关系的是( )
解析由相关关系的定义,如果散点大部分分布在一条曲线附近,那么就说这两个变量具有相关关系,可知选项D的散点没有这一特征,不具有相关关系.故选D.
答案D
2.(2020黑龙江哈九中高二月考)为了研究某种细菌在特定环境下,随时间变化的繁殖情况,得到如下实验数据,并分析可得经验回归方程为=0.85x-0.25.由以上信息,得到下表中c的值为( )
天数x/天
3
4
5
6
7
繁殖个数y/千个
2.5
3
4
4.5
c
A.5
B.6
C.7
D.8
解析∵=5,且()在经验回归直线上,∴=0.85-0.25=0.85×5-0.25=4.
∴(2.5+3+4+4.5+c)=4×5=20,解得c=6.
故选B.
答案B
3.对变量x,y进行回归分析时,依据得到的4个不同的模型画出残差图,则下列模型拟合精度最高的是( )
解析用残差图判断模型的拟合效果,残差比较均匀地分布在横轴的两边,说明这样的模型比较合适.若带状区域的宽度越窄,则说明模型的拟合精度越高.
答案A
4.(2020山东烟台理工学校高二期中)某咖啡厅为了了解热饮的销售量y(单位:杯)与气温x(单位:℃)之间的关系,随机统计了某4天的销售量与气温,并制作了对照表:
气温/℃
18
13
10
-1
销售量/杯
24
34
38
64
由表中数据分析,可得经验回归方程=-2x+a.当气温为-4
℃时,预测销售量约为( )
A.68杯
B.66杯
C.72杯
D.77杯
解析∵=10,=40,又()在经验回归直线上,
∴=-2+a,即a=40+2×10=60.
∴经验回归方程为=-2x+60.
∴当x=-4时,=68.故选A.
答案A
5.(2020江西高二期中)某相关变量x,y的散点图如图所示,现对这两个变量进行回归分析,方案一,根据图中所有数据分析,可得到经验回归方程=b1x+a1,样本相关系数为r1;方案二,剔除点(10,32),根据剩下数据分析,可得到经验回归方程=b2x+a2,样本相关系数为r2.则
( )
A.0B.0C.-1D.-1解析由题中散点图可知,变量x和y成正相关,故0在剔除点(10,32)之后,
可看出经验回归直线=b2x+a2的线性相关程度更强,故r1所以0故选A.
答案A
6.关于残差图的描述错误的是( )
A.残差图的横坐标可以是样本编号
B.残差图的横坐标也可以是解释变量或响应变量
C.残差分布的带状区域的宽度越窄R2越小
D.残差分布的带状区域的宽度越窄残差平方和越小
解析残差分布的带状区域的宽度越窄,说明模型拟合精度越高,则残差平方和越小,此时R2的值越大,故描述错误的是选项C.
答案C
7.(2020河北高二开学考试)由一组观测数据(x1,y1),(x2,y2),…,(xn,yn),经分析可得经验回归方程为=3x+,若=1.5,=2,则= .?
解析因为=1.5,=2,经验回归方程为=3x+,所以2=3×1.5+,解得=-2.5.
答案-2.5
8.某学校开展研究性学习活动,一组同学获得了下面的一组试验数据:
x
1.99
3
4
5.1
8
y
0.99
1.58
2.01
2.35
3.00
现有如下5个模拟函数:
①y=0.58x-0.16;②y=2x-3.02;③y=x2-5.5x+8;④y=log2x;⑤y=+1.74.
请从中选择一个模拟函数,使它能近似地反映这些数据的规律,应选 .(填序号)?
解析画出散点图如图所示.
由图可知上述散点大体分布在函数y=log2x的图象的附近,故选择y=log2x可以近似地反映这些数据的规律.故填④.
答案④
9.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x/元
8
8.2
8.4
8.6
8.8
9
销量y/件
90
84
83
80
75
68
(1)求销量y关于单价x的经验回归方程x+,其中=-20,;
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)
解(1)因为(8+8.2+8.4+8.6+8.8+9)=8.5,(90+84+83+80+75+68)=80.
所以=80+20×8.5=250.所以经验回归方程为=-20x+250.
(2)设工厂获得的利润为L(单位:元),依题意得
L=x(-20x+250)-4(-20x+250)
=-20x2+330x-1
000
=-20+361.25.
当且仅当x==8.25时,L取得最大值.
故当单价定为8.25元时,工厂可获得最大利润.
10.在一段时间内,某网店一种商品的销售价格x(单位:元)和日销售量y(单位:件)之间的一组数据如下表:
价格x/元
22
20
18
16
14
日销售量y/件
37
41
43
50
56
求出y关于x的经验回归方程,并用R2说明拟合效果.
参考数据:xiyi=3
992,=1
660.
解作出散点图(图略),观察散点图可知这些点散布在一条直线的附近,故可知x与y线性相关.
因为=18,
=45.4.
所以=-2.35,
=45.4-(-2.35)×18=87.7.
所以经验回归方程为=-2.35x+87.7.
yi-与yi-的值如下表:
yi-
1
0.3
-2.4
-0.1
1.2
yi-
-8.4
-4.4
-2.4
4.6
10.6
计算得(yi-)2=8.3,
(yi-)2=229.2,
所以R2=1-≈0.964.
因为0.964很接近于1,所以该模型的拟合效果比较好.
能力提升练
1.如图,若去掉D(3,10)后,则下列说法错误的是( )
A.样本相关系数r变大
B.残差平方和变大
C.R2变大
D.解释变量x与响应变量y的相关性变强
解析由题中散点图,可知去掉点D后,x与y的相关性变强,且为正相关,所以r变大,即R2变大,残差平方和变小.
答案B
2.(2020四川宜宾第四中学高二月考)已知(x,y)的一组数据为(1,2),(3,5),(6,8),(x0,y0),且y关于x的经验回归方程为=x+2,则x0-y0的值为( )
A.-3
B.-5
C.-2
D.-1
解析
(10+x0),(15+y0),
∵经验回归方程为=x+2,
∴(15+y0)=(10+x0)+2,
解得x0-y0=-3.故选A.
答案A
3.(2020全国Ⅰ,理5)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:
由此散点图,在10
℃至40
℃之间,下面四个函数模型中最适宜作为发芽率y和温度x的经验回归方程模型的是( )
A.y=a+bx
B.y=a+bx2
C.y=a+bex
D.y=a+bln
x
解析结合题中散点图,由图象的大致走向判断,此函数应该是对数函数模型,故应该选用的函数模型为y=a+bln
x.
答案D
4.(2020广东阳山中学高二月考)某工厂为研究某种产品产量x(单位:吨)与所需某种原材料y(单位:吨)的相关关系,在生产过程中收集了4组对应数据(x,y)如下表所示:
x
3
4
5
6
y
2.5
3
4
m
根据表中数据,得出y关于x的经验回归方程为=0.7x+a.据此计算出在样本(4,3)处的残差为-0.15,则表中m的值为 .?
解析由在样本(4,3)处的残差为-0.15,可得=3.15.故3.15=0.7×4+a,解得a=0.35.
由题意可知产量x的平均值为(3+4+5+6)=4.5.
因为经验回归直线过点(),
所以=0.7+0.35=0.7×4.5+0.35=3.5.又因为(9.5+m),
所以m=4.5.
答案4.5
5.某品牌服装专卖店为了解保暖衬衣的销售量y(单位:件)与平均气温x(单位:℃)之间的关系,随机统计了连续四旬的销售量与当旬平均气温,其数据如下表:
时间
二月上旬
二月中旬
二月下旬
三月上旬
旬平均
气温x/℃
3
8
12
17
旬销售
量y/件
55
m
33
24
由表中数据算出经验回归方程x+中的=-2,=10,=38.
(1)表中数据m= .?
(2)气象部门预测三月中旬的平均气温约为22
℃,据此估计,该品牌的保暖衬衣在三月中旬的销售量约为 件.?
解析(1)由(55+m+33+24)=38,解得m=40.
(2)由,得=58.
故=-2x+58.
当x=22时,=14.
故三月中旬的销售量约为14件.
答案(1)40 (2)14
6.(2020四川高二期末)流行性感冒(简称流感)是流感病毒引起的急性呼吸道感染,是一种传染性强、传播速度快的疾病.其主要通过空气中的飞沫、人与人之间的接触或与被污染物品的接触传播.流感每年在世界各地均有传播,在我国北方通常呈冬春季流行,南方有冬春季和夏季两个流行高峰.某幼儿园将去年春季该园患流感小朋友按照年龄与人数统计,得到如下数据:
年龄x
2
3
4
5
6
患病人数y
22
22
17
14
10
(1)求y关于x的经验回归方程;
(2)计算样本相关系数r(计算结果精确到0.01),并回答是否可以认为该幼儿园去年春季患流感人数与年龄负相关很强?(若|r|∈[0.75,1],则x,y相关性很强;若|r|∈[0.3,0.75),则x,y相关性一般;若|r|∈[0,0.25],则x,y相关性较弱.)
参考数据:≈5.477.
参考公式:,
样本相关系数r=
.
解(1)由题意可得=4,=17,
=
=-3.2,
=17+3.2×4=29.8.
故y关于x的经验回归方程为=-3.2x+29.8.
(2)r==
≈-0.97,
由r<0,可知x,y负相关.又因为|r|∈[0.75,1],所以x,y相关性很强.
因此,可以认为该幼儿园去年春季患流感人数与年龄负相关很强.
7.(2020黑龙江铁人中学高三模拟)为了防控疫情,某医疗科研团队攻坚克难研发出一种新型防疫产品,该产品的成本由原
料成本及非原料成本组成,每件产品的非原料成本y(单位:元)与生产该产品的数量x(单位:千件)有关,根据已经生产的统计数据,绘制了如右的散点图:
观察散点图,两个变量不具有线性相关关系,现考虑用函数y=a+对两个变量的关系进行拟合.参考数据如下其中ui=:
yi
uiyi
0.41
0.168
1
1.492
306
20
858.44
173.8
50.39
(1)求y关于x的经验回归方程,并求y关于u的样本相关系数(精确到0.01);
(2)该产品采取订单生产模式(根据订单数量进行生产,即产品全部售出).根据市场调研数据,若该产品单价定为80元,则签订9千件订单的概率为0.7,签订10千件订单的概率为0.3;若单价定为70元,则签订10千件订单的概率为0.3,签订11千件订单的概率为0.7.已知每件产品的原料成本为30元,根据(1)的结果,要想获得更高利润,产品单价应选择80元还是70元?请说明理由.
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归方程v=α+βu的斜率和截距的最小二乘估计分别为,相关系数r=
.
解(1)令u=,则y=a+可转化为y=a+bu.
因为=51,
所以=100.
所以=51-100×0.41=10.
所以=10+100u.
所以y关于x的经验回归方程为=10+.
y关于u的样本相关系数为
r=
=≈0.96.
(2)(方法一)(ⅰ)若产品单价为80元,记企业利润为X(单位:元).
当订单为9千件时,每件产品的成本为10++30=(元),
企业的利润为80-40+×9
000=260
000(元).
当订单为10千件时,每件产品的成本为10++30=50(元),
企业的利润为(80-50)×10
000=300
000(元).
所以企业利润X的分布列为
X
260
000
300
000
P
0.7
0.3
E(X)=260
000×0.7+300
000×0.3=272
000.
(ⅱ)若产品单价为70元,记企业利润为Y(单位:元).
当订单为10千件时,每件产品的成本为10++30=50(元),
企业的利润为(70-50)×10
000=200
000(元).
当订单为11千件时,每件产品的成本为10++30=(元),
企业的利润为70-40+×11
000=230
000(元).
所以企业利润Y的分布列为
Y
200
000
230
000
P
0.3
0.7
E(Y)=200
000×0.3+230
000×0.7=221
000.
所以E(X)>E(Y),故企业要想获得更高利润,产品单价应选择80元.
(方法二)(ⅰ)若产品单价为80元,记企业的产量为X(单位:千件),其分布列为
X
9
10
P
0.7
0.3
所以E(X)=9×0.7+10×0.3=9.3,
企业的利润为80-40+×9
300=272
000(元).
(ⅱ)若产品单价为70元,记企业的产量为Y(单位:千件),其分布列为
Y
10
11
P
0.3
0.7
所以E(Y)=10×0.3+11×0.7=10.7,
企业的利润为70-40+×10
700=221
000(元).
因为272
000>221
000,
所以企业要想获得更高利润,产品单价应选择80元.
素养培优练
(2020吉林梅河口第五中学高三模拟)2019年的“金九银十”变成“铜九铁十”,各地房价“跳水”严重,但某地二手房交易却“逆市”而行.该地某小区2018年11月至2019年1月期间的在售二手房均价(单位:万元/平方米)的散点图如图所示.(图中月份代码1~13分别对应2018年11月~2019年11月)
根据散点图选择y=a+b和y=c+dln
x两个模型进行拟合,经过数据处理得到两个经验回归方程分别为=0.936
9+0.028
5=0.955
4+0.030
6ln
x,并得到以下一些统计量的值:
类型
=0.936
9+0.028
5
=0.955
4+0.030
6ln
x
0.000
591
0.000
164
0.006
050
(1)请利用R2判断哪个模型的拟合效果更好.
(2)某位购房者拟于2020年4月购买这个小区m(70≤m≤160)平方米的二手房(欲购房为其家庭首套房).
若购房时该小区所有住房的房产证均已满2年但未满5年,请你利用(1)中拟合效果更好的模型解决以下问题:
(ⅰ)估算该购房者应支付的购房金额;(购房金额=房款+税费,房屋均价精确到0.001万元/平方米)
(ⅱ)若该购房者拟用不超过100万元的资金购买该小区一套二手房,试估算其可购买的最大面积.(精确到1平方米)
附注:根据有关规定,二手房交易需要缴纳若干项税费,税费是按房屋的计税价格(计税价格=房款)进行征收的.
房产证满2年但未满5年的征收方式如下:首套面积90平方米以内(含90平方米)为1%;首套面积90平方米以上且140平方米以内(含140平方米)为1.5%;首套面积140平方米以上或非首套为3%.
参考数据:ln
2≈0.69,ln
3≈1.10,ln
17≈2.83,ln
19≈2.94,≈1.41,≈1.73,≈4.12,≈4.36.
参考公式:R2=1-.
解(1)=0.936
9+0.028
5=-≈0.923;
=0.955
4+0.030
6ln
x的=1-≈0.973.
由,可知模型y=c+dln
x拟合的效果更好一些.
(2)通过散点图确定2020年4月对应的x=18,
代入(1)中拟合效果更好的模型的经验回归方程,可得=0.955
4+0.030
6ln
18
=0.955
4+0.030
6×(ln
2+2ln
3)
=0.955
4+0.030
6×(0.69+2×1.10)
≈1.044.
故2020年4月份二手房均价的预测值为1.044万元/平方米.
(ⅰ)设该购房者应支付的购房金额为h(单位:万元),因为税费中买方只需缴纳契税,
所以①当70≤m≤90时,契税为计税价格的1%,
故h=m×1.044×(1%+1)=1.054
44m;
②当90故h=m×1.044×(1.5%+1)=1.059
66m;
③当144故h=m×1.044×(3%+1)=1.075
32m.
所以h=
所以当70≤m≤90时购房金额为1.054
44m万元,
当9066m万元,
当14432m万元.
(ⅱ)设该购房者可购买该小区二手房的最大面积为t(单位:平方米),
由(ⅰ)知,当70≤m≤90时,应支付的购房金额为1.054
44t.
又因为1.054
44t≤1.054
44×90<100,
且房屋均价约为1.044万元/平方米,所以t<100.所以90≤t<100.
由1.059
66t≤100,解得t≤,且≈94.4.所以该购房者可购买该小区二手房的最大面积约为94平方米.(共58张PPT)
8.1 成对数据的统计相关性
8.2 一元线性回归模型及其应用
激趣诱思
知识点拨
你知道“乌鸦叫,没好兆”这样的迷信说法的原因吗?日常生活中类似这样的谚语,如“名师出高徒”“龙生龙,凤生凤,老鼠的孩子会打洞”又能说明什么样的相关关系呢?
激趣诱思
知识点拨
一、变量的相关关系
1.相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
2.散点图:将样本中的每一个序号下的成对样本数据都用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
3.正相关与负相关:如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
激趣诱思
知识点拨
4.线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
5.非线性相关:一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
激趣诱思
知识点拨
微练习
下列两个变量具有相关关系的是( )
A.角度和它的余弦值 B.正方形的边长和面积
C.人的年龄与身高
D.人的身高和体重
解析:A,B具有确定性的函数关系;C无相关关系;一般地,身高越高,体重越重,是相关关系.故选D.
答案:D
激趣诱思
知识点拨
微思考
相关关系与函数关系有什么异同点?
提示:相同点:两者均是指两个变量的关系.
不同点:①函数关系是一种确定的关系,如圆的面积S与半径r的关系,它可以用函数关系式S=πr2来表示;相关关系是一种非确定的关系,如人的体重y与身高x有关,一般来说,身高越高,体重越重,但不能用一个函数关系式来严格地表示它们之间的关系.函数关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量之间的关系.②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
激趣诱思
知识点拨
二、样本相关系数
对于变量x和变量y,设经过随机抽样获得的成对样本数据为(x1,y1),(x2,y2),…,(xn,yn),其中x1,x2,…,xn和y1,y2,…,yn的均值分别为
我们称r为变量x和变量y的样本相关系数.
激趣诱思
知识点拨
名师点析样本相关系数r的性质
(1)当r>0时,称成对数据正相关;当r<0时,称成对数据负相关.
(2)当|r|越接近1时,成对数据的线性相关程度越强;当|r|越接近0时,成对数据的线性相关程度越弱.
(3)样本相关系数r的取值范围为[-1,1].
激趣诱思
知识点拨
微练习
对于样本相关系数r,叙述正确的是( )
A.|r|∈(0,+∞),|r|越大,相关程度越强,反之,相关程度越弱
B.r∈(-∞,+∞),r越大,相关程度越强,反之,相关程度越弱
C.|r|≤1,|r|越接近于1,相关程度越强;|r|越接近于0,相关程度越弱
D.以上说法都不对
解析:由样本相关系数的性质知,r∈[-1,1],排除A,B;|r|越接近于1,相关程度越强,|r|越接近于0,相关程度越弱,故选C.
答案:C
激趣诱思
知识点拨
三、一元线性回归模型
我们称该式为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.如果e=0,那么Y与x之间的关系就可用一元线性函数模型来描述.
激趣诱思
知识点拨
四、一元线性回归模型参数的最小二乘估计
1.经验回归方程
激趣诱思
知识点拨
2.残差与残差分析
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的
称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分差.
3.在残差图中,当残差比较均匀地分布在横轴的两边,说明残差比较符合一元线性回归模型的假定,是均值为0、方差为σ2的随机变量的观测值.可见,通过观察残差图就可以直观判断模型是否满足一元线性回归模型的假设.
激趣诱思
知识点拨
激趣诱思
知识点拨
微思考
在回归分析中,利用经验回归方程求出的值一定是真实值吗?为什么?
提示:不一定是真实值.利用经验回归方程求出的值,在很多时候只是预测值,例如,人的体重与身高存在一定的线性相关关系,但体重除了受身高的影响外,还受其他因素的影响,如饮食、是否喜欢运动等.
激趣诱思
知识点拨
微练习
(1)如果记录了x,y的几组数据分别为(0,1),(1,3),(2,5),(3,7),那么y关于x的经验回归直线必过点( )
A.(2,2)
B.(1.5,2)
C.(1,2)
D.(1.5,4)
∴经验回归直线必过点(1.5,4).
答案:D
激趣诱思
知识点拨
(2)若一个样本的总偏差平方和为80,残差平方和为60,则R2为 .?
答案:0.25
探究一
探究二
探究三
探究四
素养形成
当堂检测
样本相关系数的应用
例1现随机抽取了某中学高一10名在校学生,他们入学时的数学成绩x与入学后第一次考试的数学成绩y如下表:
学生号
1
2
3
4
5
6
7
8
9
10
x
120
108
117
104
103
110
104
105
99
108
y
84
64
84
68
69
68
69
46
57
71
请问:这10名学生的两次数学成绩是否具有线性相相关关系?
探究一
探究二
探究三
探究四
素养形成
当堂检测
探究一
探究二
探究三
探究四
素养形成
当堂检测
由此可看出这10名学生的两次数学成绩线性相关.
探究一
探究二
探究三
探究四
素养形成
当堂检测
反思感悟
利用样本相关系数判断线性相关的求解策略
先计算样本相关系数r的值,再用|r|与0或1比较,进而对变量x与变量y的相关关系作出判断.
探究一
探究二
探究三
探究四
素养形成
当堂检测
变式训练1已知两个变量x和y的七组数据如下表:
x
21
23
25
27
29
32
35
y
7
11
21
24
66
115
325
试判断x与y之间是否具有线性相关关系.
探究一
探究二
探究三
探究四
素养形成
当堂检测
探究一
探究二
探究三
探究四
素养形成
当堂检测
求经验回归方程
例2某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:
x
6
8
10
12
y
2
3
5
6
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,建立y关于x的经验回归方程;
(3)试根据求出的经验回归方程,预测记忆力为9的同学的判断力.
探究一
探究二
探究三
探究四
素养形成
当堂检测
解:(1)散点图如图:
探究一
探究二
探究三
探究四
素养形成
当堂检测
探究一
探究二
探究三
探究四
素养形成
当堂检测
反思感悟
1.求经验回归方程:
2.利用经验回归方程进行预测:把经验回归方程看作一次函数,求函数值.
3.利用经验回归方程判断正、负相关:决定正相关还是负相关的是
探究一
探究二
探究三
探究四
素养形成
当堂检测
变式训练2随着我国经济的发展,居民储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:
年份
2015
2016
2017
2018
2019
时间代号t
1
2
3
4
5
储蓄存款y/千亿元
5
6
7
8
10
(1)建立y关于t的经验回归方程;
(2)用所求经验回归方程预测该地区的居民2020年(t=6)的人民币储蓄存款.
探究一
探究二
探究三
探究四
素养形成
当堂检测
解:(1)根据数据画出散点图(略),由散点图可知y与t线性相关.列表计算如下:
探究一
探究二
探究三
探究四
素养形成
当堂检测
探究一
探究二
探究三
探究四
素养形成
当堂检测
回归分析
例3某运动员训练次数x与成绩y的数据如下:
次数x
30
33
35
37
39
44
46
50
成绩y
30
34
37
39
42
46
48
51
(1)作出散点图;
(2)建立成绩y关于次数x的经验回归方程;
(3)作出残差图;
(4)计算R2,并用R2说明拟合效果的好坏.
探究一
探究二
探究三
探究四
素养形成
当堂检测
解:(1)该运动员训练次数x与成绩y之间的散点图如图所示,由散点图可知,它们之间具有线性相关关系.
探究一
探究二
探究三
探究四
素养形成
当堂检测
探究一
探究二
探究三
探究四
素养形成
当堂检测
(3)某运动员训练次数与成绩之间的数据及相应的残差数据为
残差图如图所示.
由图可知,残差比较均匀地分布在横轴的两边,说明选用的模型比较合适.
探究一
探究二
探究三
探究四
素养形成
当堂检测
(4)计算得R2≈0.985
5.说明拟合效果较好.
反思感悟
1.解答本类题目应先通过散点图来分析两个变量是否线性相关,再利用求经验回归方程的公式求解经验回归方程,并利用残差图或R2来分析模型的拟合效果.
2.“R2、残差图”在回归分析中的作用:
(1)R2是用来刻画回归效果的,由R2=1-
,可知R2越大,意味着残差平方和越小,也就是说模型的拟合效果越好.
(2)残差图也是用来刻画回归效果的,判断依据是:残差比较均匀地分布在横轴的两边,说明残差比较符合一元线性回归模型的假定.
探究一
探究二
探究三
探究四
素养形成
当堂检测
变式训练3在一段时间内,某种商品的价格x(单位:元)和需求量y(单位:件)之间的一组数据如下:
x/元
14
16
18
20
22
y/件
12
10
7
5
3
已知x与y线性相关,求出y关于x的经验回归方程,并用R2说明拟合效果的好坏.
探究一
探究二
探究三
探究四
素养形成
当堂检测
探究一
探究二
探究三
探究四
素养形成
当堂检测
探究一
探究二
探究三
探究四
素养形成
当堂检测
求非线性经验回归方程
例4某地区六年来轻工业产品利润总额y(单位:亿元)与年次x的数据如下:
年次x
1
2
3
4
5
6
利润总额y/亿元
11.35
11.85
12.44
13.07
13.59
14.41
由经验知,年次x与利润总额y(单位:亿元)近似有如下关系:y=abxe0.其中a,b均为正数,求y关于x的经验回归方程.
探究一
探究二
探究三
探究四
素养形成
当堂检测
解:对y=abxe0两边取自然对数,得ln
y=ln
ae0+xln
b.令z=ln
y,则z与x的数据如下表:
x
1
2
3
4
5
6
z
2.43
2.47
2.52
2.57
2.61
2.67
由z=ln
ae0+xln
b及最小二乘法,得
ln
b≈0.049
1,ln
ae0≈2.371,
探究一
探究二
探究三
探究四
素养形成
当堂检测
反思感悟
非线性经验回归方程的求法
探究一
探究二
探究三
探究四
素养形成
当堂检测
变式训练4某展会一天上午9点半到下午2点的即时参观人数如下表:
时间
9.5
10
10.5
11
11.5
12
12.5
13
13.5
14
人数
y/万
12.39
20.02
25.57
30.26
35.77
37.57
40.23
40.95
41.73
43.71
已知时间与参观人数具有很强的相关关系,试求出这段时间内即时参观人数关于时间的经验回归方程.
探究一
探究二
探究三
探究四
素养形成
当堂检测
解:根据题表中的数据画出散点图如图所示.
由图可以看出,样本点分布在某条对数型函数曲线y=a+bln
x的周围.令z=ln
x,则y=a+bz,故y与z具有线性相关关系.可知y与z的数据如下表:
探究一
探究二
探究三
探究四
素养形成
当堂检测
z
2.25
2.30
2.35
2.40
2.44
2.48
2.53
2.56
2.60
2.64
人数
y/万
12.39
20.02
25.57
30.26
35.77
37.57
40.23
40.95
41.73
43.71
由表中数据可得y关于z的经验回归方程为
探究一
探究二
探究三
探究四
素养形成
当堂检测
方法优化——求经验回归方程的方法和技巧
典例某地粮食需求量逐年上升,部分统计数据如下表:
年 份
2011
2013
2015
2017
2019
需求量/万吨
236
246
257
276
286
(1)利用所给数据求年需求量y关于年份x的经验回归方程;
(2)利用(1)中所求出的经验回归方程预测该地2021年的粮食需求量.
探究一
探究二
探究三
探究四
素养形成
当堂检测
解:(1)由所给数据看出,年需求量与年份之间具有线性相关关系.下面来求经验回归方程,先将数据处理如下:
年份-2015
-4
-2
0
2
4
需求量-257
-21
-11
0
19
29
探究一
探究二
探究三
探究四
素养形成
当堂检测
由上述计算结果,可知所求经验回归方程为
(2)利用所求得的经验回归方程,可预测2021年的粮食需求量为6.5×(2
021-2
015)+260.2=6.5×6+260.2=299.2(万吨).
探究一
探究二
探究三
探究四
素养形成
当堂检测
方法点睛
求经验回归方程时,重点考查的是计算能力.若本题用一般方法去解,则计算比较烦琐(如年份、需求量不做如上处理),所以平时训练时遇到数据较大时要考虑有没有更简便的方法解决.
探究一
探究二
探究三
探究四
素养形成
当堂检测
跟踪训练某车间为了规定工时定额,需要确定加工零件所花费的时间,为此做了四次试验,根据试验数据得到如图所示的散点图,其中x表示零件的个数,y表示加工时间,则y关于x的经验回归方程是 .?
探究一
探究二
探究三
探究四
素养形成
当堂检测
探究一
探究二
探究三
探究四
素养形成
当堂检测
1.(2020陕西西安高三模拟)北极冰融是近年来最引人注目的气候变化现象之一,白色冰面融化变成颜色相对较暗的海冰,被称为“北极变暗”现象.21世纪以来,北极的气温变化是全球平均水平的2倍,被称为“北极放大”现象.若北极年平均海冰面积(单位:106
km2)与年平均CO2(单位:ppm)浓度图如图所示,则下列说法正确的是( )
探究一
探究二
探究三
探究四
素养形成
当堂检测
A.北极年海冰面积逐年减少
B.北极年海冰面积减少速度不断加快
C.北极年海冰面积与年平均二氧化碳浓度大体成负相关
D.北极年海冰面积与年平均二氧化碳浓度大体成正相关
探究一
探究二
探究三
探究四
素养形成
当堂检测
解析:由统计图可知北极年海冰面积既有增加又有减少,故选项A,B错误;
由统计图可知随着年平均二氧化碳浓度增加,北极年海冰面积总体呈下降趋势,所以北极年海冰面积与年平均二氧化碳浓度大体成负相关,故选项C正确,选项D错误.
故选C.
答案:C
探究一
探究二
探究三
探究四
素养形成
当堂检测
2.已知甲、乙、丙、丁四位同学在建立变量x,y的模型时,分别选择了4种不同模型,计算它们的R2分别如下表:
学生
甲
乙
丙
丁
R2
0.98
0.78
0.50
0.85
则建立的模型拟合效果最好的是( )
A.甲
B.乙
C.丙
D.丁
解析:因为R2的值越大,模型拟合效果越好,所以甲的拟合效果最好.
答案:A
探究一
探究二
探究三
探究四
素养形成
当堂检测
3.已知一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等),若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=
x+1上,则这组样本数据的样本相关系数为 .?
解析:根据样本相关系数的定义可知,当所有样本点都在一条直线上时,样本相关系数为1.
答案:1
探究一
探究二
探究三
探究四
素养形成
当堂检测
4.某课题组调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元)的情况,调查结果显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y关于x的经验回归方程为=0.254x+0.321.由经验回归方程可知,家庭年收入每增加1万元,年饮食支出平均约增加 万元.?
解析:设年收入为x1万元,对应的年饮食支出为y1万元,家庭年收入每增加1万元,则年饮食支出平均增加
答案:0.254
探究一
探究二
探究三
探究四
素养形成
当堂检测
5.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此做了四次试验,得到的数据如下:
零件的个数x/个
1
2
4
5
加工的时间y/小时
2
3
5
6
已知零件的个数x与加工的时间y具有线性相关关系.
(2)试预测加工10个零件需要多少时间.
探究一
探究二
探究三
探究四
素养形成
当堂检测