(共108张PPT)
第八章 成对数据的统计分析
8.2 一元线性回归模型及其应用
图解课标要点
教材帮 新知课丨必备知识解读
知识点1 一元线性回归模型
在研究两个变量线性相关时,我们常利用成对样本数据建
立统计模型,并利用模型进行预测.
我们称上式为关于的一元线性回归模型. 其中,称为因变量或响应变量, 称为
自变量或解释变量;和为模型的未知参数,称为截距参数,称为斜率参数;
是与 之间的随机误差.
知识剖析 理解一元线性回归模型的注意点
1.函数模型与回归模型的区别:函数模型刻画的是变量之间具有的函数关系,
是一种确定性的关系;回归模型刻画的是变量之间具有的相关关系,不是一种确定
性的关系.特别地,当两变量具有线性相关时,这两变量之间的关系就可以用一元线
性回归模型来描述.(链接教材107页练习第1题)
2.随机误差在一元线性回归模型中,通常 为随机变量,称为随
机误差.它的均值,方差,且方差越小,用预报真实值
的精度越高.
3.产生随机误差的原因:(1)响应变量除了受解释变量 的影响之外,还受
其他一些因素的影响;(2)由观测工具、测量精度所产生的测量误差或因计算产生
的误差;(3)不知道两个变量间真实的相关关系,而直接用一元线性回归模型来近
似这种关系.
学思用·典例详解
例1-1 在线性回归模型 中,下列说法正确的是( )
C
A. 是一次函数
B.因变量是由自变量 唯一确定的
C.因变量除了受自变量 的影响外,可能还受到其他因素的影响,这些因素会导致
随机误差 的产生
D.可通过精确计算避免随机误差 的产生
【解析】在线性回归模型 中,方程表示的不是函数关系,因此不是一
次函数,故A错误;因变量不是由自变量 唯一确定的,故B错误;随机误差是不能
避免的,只能将误差缩小,但是不能没有误差,故D错误,只有选项C成立.
例1-2 (2025·山东师大附中模拟)已知某地的财政收入与支出 满足一元线性回归模
型(单位:亿元),其中,, ,如果今年该地
区的财政收入为10亿元,那么年支出预计不会超过( )
D
A.9亿元 B.10亿元 C.9.5亿元 D.10.5亿元
【解析】 .
知识点2 经验回归方程和最小二乘法
1 经验回归方程
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间
具有线性相关关系,我们将称为关于 的经验回归方程,也称经验回归函
数或经验回归公式,其图形称为经验回归直线.
2 最小二乘法
求经验回归方程 时,使得样本数据的点到经验回归直线的竖直距离
的平方之和最小(也就是 最小,即随机误差的平方和最小)的
方法叫做最小二乘法.求得的,叫做, 的最小二乘估计.
, .
(考试时,一般会给出公式)
其中, 称为回归系数,它实际上也就是经验回归方程的斜率.经验回归方程确
定之后,就可用于预测(预测所得结果为估计值,而非精确值).
. .
. .
3 经验回归方程的性质
(1)经验回归直线一定过点(点 通常称为样本点的中心.).
(2)与正相关的充要条件是;与负相关的充要条件是 .
(3)当增大一个单位时,增大个单位,这就是回归系数 的实际意义.
. .
学思用·典例详解
例2-3 [多选题](2025·陕西省西工大附中期末)已知变量, 之间的一组相关数据如下
表所示,且变量,之间的经验回归方程为 ,则下列说法正确的是
( )
6 8 10 12
6 3 2
ACD
A.变量, 之间呈现负相关关系
B.
C.可以预测,当时, 约为2.6
D.由表格数据知,该经验回归直线必过点
【解析】对于A,由,得,故, 呈负相关关系,故A
正确;
对于B, ,
,
(经验回归直线经过样本点的中心),解得 ,故B错
误;
对于C,当时, ,故C正确;
对于D,由得,经验回归直线必过点,即必过点 ,故D正确.故
选 .
知识点3 残差分析
1 残差的概念
对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的
称为预测值,观测值减去预测值所得的差称为残差.残差是随机误差的估计结果.对于
样本点,, ,而言,它们的随机误差为 ,
,2, ,,其估计值为,,2, ,,则 称为
相应于点 的残差.
通过对残差的分析可判断回归模型刻画数据的效果,以及判断原始数据中是否
存在可疑数据等,这方面的工作称为残差分析.
2 残差图
作图时纵坐标为残差,横坐标可以选为样本编号,或解释变量的观测值等,这
样作出的图形称为残差图.在残差图中,残差比较均匀地分布在以取值为0的横轴为
对称轴的水平的带状区域中 ,说明选用的模型比较合适,这样的带状区
域的宽度越窄越小 ,说明模型拟合精度越高.
3 残差平方和
称为残差平方和,一般地,残差平方和越小,模型的拟合效果越好.
. .
. .
. .
. .
. .
4 决定系数
可以用 来刻画回归的效果(或比较两个模型的拟合效果),其计算公式为
.
在表达式中,与经验回归方程无关,残差平方和 与经验
回归方程有关.因此越大,表示残差平方和越小,即模型的拟合效果越好; 越小,表示
残差平方和越大,即模型的拟合效果越差.
. .
. .
. .
. .
辨析比较(1)相关系数 反映两个变量的相关关系的强弱及正相关或负相关,决定系
数 反映回归模型的拟合效果.
(2)和都能刻画用一元线性回归模型拟合数据的效果,越大,或 越大,用
一元线性回归模型拟合数据的效果就越好,即相关程度越强.
(3)当两个变量,非线性相关时,用决定系数判断拟合效果, 越大,拟合效
果越好.#1.2.2
学思用·典例详解
例3-4 (2025·浙江省温州市期末)已知变量和 的统计数据如下表:
9 9.5 10 10.5 11
11 10 8 6 5
若由表中数据得到经验回归方程为,则 时的残差为______.
【解析】, .
因为经验回归直线过样本点的中心 ,所以
,即 .
当时,,所以时的残差为 .
例3-5 在用经验回归方程研究四组数据的拟合效果时,分别作出下列四个关于四组
数据的残差图,则用线性回归模型拟合效果最佳的是( )
D
A. B.
C. D.
【解析】用残差图判断模型的拟合效果时,残差点比较均匀地落在水平的带状区域
中,说明这样的模型比较合适,且带状区域的宽度越窄,说明模型的拟合效果越好.
知识点4 非线性回归分析
当两个变量不呈线性相关关系时,依据样本点的分布选择合适的曲线方程来拟合
数据,可通过变量代换,利用线性回归模型建立两个变量间的非线性经验回归方程.
当回归方程不是形如 时,称之为非线性经验回归方程.
常见非线性经验回归方程的转换方式如下:#1.3
曲线方程 曲线(曲线的一部分) 变换公式 变换后的线性函数
曲线方程 曲线(曲线的一部分) 变换公式 变换后的线性函数
续表
学思用·典例详解
图8.2-1
例4-6 (2025·山东省临沂市第十八中学测试)
某校一个课外学习小组为研究某作物种子
的发芽率和温度(单位: )的关系,
在20个不同的温度条件下进行种子发芽实
验,由实验数据 得到
散点图如图8.2-1所示.
由此散点图,在至之间,下面四个回归方程类型中最适宜作为发芽率 和
温度 的回归方程类型的是( )
D
A. B. C. D.
【解析】由散点图可以看出,随着温度的增加,发芽率 增加到一定程度后,变化
率越来越慢,符合对数型函数的图象特征.
方法帮 解题课丨关键能力构建
题型1 经验回归方程的求解及其应用
例7 [多选题](2025·河南省郑州市月考)月亮公转与自转的周期大约为30天,阴历就是
以月相变化为依据的.人们根据长时间的观测,统计了月亮出来的时间
(简称“月出时间”,单位:时)与天数为阴历日数,,且 的有
关数据,如下表所示,并且根据表中数据,求得关于 的经验回归方程为
.
2 4 7 10 15 22
8.1 9.4 12 14.4 18.5 24
其中,阴历22日是分界线,从阴历22日开始月亮就要到第二天(即23日 )才升
起.则( )
A.经验回归直线过点
B.
C.预测月出时间为16时的那天是阴历13日
D.预测阴历27日的月出时间为阴历28日早上4:00
【解析】 ,
,
故经验回归直线过点 ,选项A正确;
将代入,得 ,故选项B错误;
,当时,, 月出时间为阴历12日,选项C错误;
阴历27日时,即,代入经验回归方程得, 月出时
间应该为28日早上 ,选项D正确.
√
√
例8 某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气
象局与某医院抄录了1至6月份每月10日的昼夜温差情况与因患感冒而就诊的人数,
得到如下资料:
日期 1月10日 2月10日 3月10日 4月10日 5月10日 6月10日
昼夜温差 10 11 13 12 8 6
就诊人数 22 25 29 26 16 12
该兴趣小组确定的研究方案是:先从这6组数据中选取2组,用剩下的4组数据求经验
回归方程,再用被选取的2组数据进行检验.
(1)若选取的是1月与6月的两组数据,请根据2至5月份的数据,求出关于 的经验
回归方程 ;
【解析】由表中数据求得,,, ,
所以 ,
,
所以关于的经验回归方程为(注意与 的位置).
. .
(2)若由经验回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,
则认为得到的经验回归方程是理想的,试问该小组所得的经验回归方程是否理想?
【解析】当时,, ,
当时,, ,
所以该小组所得的经验回归方程是理想的.
例9 (2025·山东省东营市期末)某人工智能公司从某年起连续7年的利润情况如下表所示.
第 年 1 2 3 4 5 6 7
利润 亿元 2.9 3.3 3.6 4.4 4.8 5.2 5.9
(1)计算出与之间的样本相关系数(精确到),并求出关于 的经验回归方程;
【解析】由题中数据可得 ,
,
,
因此 .
(样本相关系数接近1,说明与 之间线性相关性很强,因此可以用经验回归方程拟
合)
,
,
故经验回归方程为 .
(2)根据经验回归方程,分别预测该人工智能公司第8年和第9年的利润.
参考数据:,, ,
.
【解析】在经验回归方程中令,得 .
令,得 ,
因此预测第8,9年的利润分别约为6.3亿元, 亿元.
(当两个变量之间具有线性相关关系时,求出的经验回归方程才有意义,预测的数
据才有代表性)
求经验回归方程的步骤
(1)判断两变量之间是否具有线性相关关系,若具有线性相关关系,则可求其经验回
归方程;
(2)求出公式中所需数据;(注意利用题中所给的参考数据)
(3)利用公式先计算,再根据经验回归直线过样本点的中心计算 ;
(4)写出经验回归方程 .
【学会了吗丨变式题】
1.现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企
业去年前八个月的物流成本和企业利润的数据(单位:万元)如表所示:
月份 1 2 3 4 5 6 7 8
物流成本 83 83.5 80 86.5 89 84.5 79 86.5
利润 114 116 106 122 132 114 132
根据最小二乘法求得经验回归方程为 若9月份物流成本是90万元,
(1)请预测9月份的利润;
【答案】预测9月份的利润为 (万元).
(2)经再次核实后发现8月份真正利润应该为116万元,请重新预测9月份的利润.
附:, ,
, .
【答案】由参考数据可知, ,
因为样本中心点在经验回归直线 上,
所以 ,
因为8月份的真正利润为116万元,
所以 ,
,
又, ,
所以 ,
,
所以数据核实后的经验回归方程为 ,
故重新预测9月份的利润为 (万元).
题型2 非线性回归分析
例10 已知函数模型为,若将其转化为关于 的经验回归方程,
则需令 ( )
B
A. B. C. D.以上都不对
【解析】是关于的经验回归方程,即可以表示成关于 的一次函数.
因为,若令,则可得,此时变量与变量 是线性相
关关系.
图8.2-2
例11 (新课标全国卷Ⅰ)某公司为确定下一年度投入某种
产品的宣传费,需了解年宣传费 (单位:千元)对年
销售量(单位:)和年利润 (单位:千元)的影响.
对近8年的年宣传费和年销售量 数据
作了初步处理,得到如图8.2-2 所示的散点图及一些统
计量的值.
46. 6 563 6.8 289.8 1.6 1 469 108.8
表中, .
(1)根据散点图判断,与哪一个适宜作为年销售量 关于年
宣传费 的回归方程类型.(给出判断即可,不必说明理由)
【解析】由散点图可以判断,适宜作为年销售量关于年宣传费 的回归
方程类型.
(2)根据(1)的判断结果及表中数据,建立关于 的回归方程.
【解析】令,先建立关于 的经验回归方程.
由于 ,
,
所以关于的经验回归方程为 ,
因此关于的回归方程为 .
(3)已知这种产品的年利润与,的关系为 .根据(2)的结果回答下列
问题:
(ⅰ)年宣传费 时,年销售量及年利润的预报值是多少?
【解析】由(2)知,当时,年销售量 的预报值
,
年利润的预报值 .
(ⅱ)年宣传费 为何值时,年利润的预报值最大?
【解析】根据(2)的结果知,年利润 的预报值
.
所以当,即时, 取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
非线性回归问题的处理方法
图8.2-3
(1)指数型函数 类
①函数 的图象,如图8.2-3.
②处理方法:两边取对数得
,即 ,令
,把原始数据转化为 ,
再根据求解线性回归模型的方法求出, .
图8.2-4
(2)对数型函数 类
①函数 的图象,如图8.2-4.
②处理方法:设 ,原方程可化为
,再根据求解线性回归模型的方法求
出, .
(3)函数 类
处理方法:设,原方程可化为 ,再根据求解线性回归模型的方法
求出, .
解非线性回归分析问题的一般步骤
有些非线性回归分析问题并不给出函数,这时我们可以根据已知数据画出散点图,
与学过的各种函数(幂函数、指数函数、对数函数等)的图象进行比较,挑选一种
跟这些散点拟合得最好的函数,用适当的变量进行变换,把问题转化为线性回归分
析问题,使之得到解决.
一般步骤为:
说明:由于涉及的数据比较多,考虑到可操作性,考
试时往往会给出散点图,或将画散点图这一步骤省略,
只需要选一些数据,画一下草图,作出判断即可,并
且相关数据都会直接给出.
【学会了吗丨变式题】
2.[多选题](2025·山东省枣庄市期末)某地新开了一条夜市街,每晚最多能接纳10万人.
主办公司计划通过广告宣传提高客流量.通过调研,发现投入的广告费 与每晚客流
量 存在如下关系:
万元 1 2 3 4 5
千人 5 6 8.1 9 14.5
附:,,令, ,
, .
现用方程拟合变量与 的相关关系,并利用一元线性回归模型求
参数,的最小二乘估计,依所求回归方程 为预测依据,则( )
BC
A.曲线经过点
B.
C.若投入广告费9万元,则每晚客流量会超过夜市接纳能力
D.当广告费从5万元增加到6万元时,每晚客流量增加3 000人
【解析】由题可知,令,, ,
,
所以 ,
,故B正确;
所以 ,
令, ,
所以曲线不经过点 ,故A错误;
当时, ,
所以若投入广告费9万元,则每晚客流量为15.84万人,
因为每晚最多能接纳10万人,所以会超过夜市接纳能力,故C正确;
由可知,当时, ,
所以当广告费从5万元增加到6万元时,客流量增加 (千人),故D错
误.故选 .
题型3 残差分析
例12 (2025·山东省蒙阴第一中学期中)某工厂为研究某种产品产量 (单位:吨)与
所需某种原材料(单位:吨)的相关性,在生产过程中收集4组对应数据 如下
表所示:
3 4 5 6
2.5 3 4
根据表中数据,得出关于的经验回归方程为,据此计算出样本
处的残差为,则表中 的值为( )
B
A.3.3 B.4.5 C.5 D.5.5
【解析】当时, ,
因为残差为,所以 ,
解得,则 .
,
,
所以 ,
解得 .
例13 (2025·广东省广州市期末)为了研究广告支出与销售额的关系,现随机抽取5家超
市作为样本,得到其广告支出(单位:万元)与销售额 (单位:万元)数据如下:
超市
广告支出 1 2 3 4 5
销售额 4 9 14 18
(1)根据表中样本数据,用最小二乘法得到销售额关于广告支出 的经验回归方
程为,销售额的方差为,求 的值,并计算广告支出为5万元时
销售额的残差;
【解析】因为销售额的方差为 ,
所以, ,
,
所以 ,化为
,
解得, (舍去),
所以, ,
因为经验回归直线经过样本点的中心,把 代入
,得 ,
故销售量关于广告支出的经验回归方程为 .
当时,代入得预测值 ,
而观测值 ,
所以广告支出为5万元时销售额的残差为 (万元).
图8.2-5
(2)收集更多关于变量和 的成对样本数据,
由一元线性回归模型 得到经
验回归方程 对应的残差如图8.2-5所示,
则模型误差是否满足一元线性回归模型
与 的假设(直接写出结果)?
参考数据: .
【解析】由残差图可知,模型误差满足一元线性回
归模型的的假设,(残差图关于 轴对称)
不满足一元线性回归模型的 的假设.
(随 的增大,残差偏离平均值0越大)
(1)计算残差时,先根据经验回归方程求出相应点的预测值 ,然后观测值
减去预测值即得相应点处的残差.
(2)在利用残差进行回归分析时,残差平方和越小,模型的拟合效果越好.
(3)借助残差图分析模型拟合效果时,残差图的理想情况为:残差比较均匀地分布
在以取值为0的横轴为对称轴符合的水平带状区域符合 内,此
时说明选用的模型比较合适,且带状区域的宽度越窄,模型拟合精度越高.
. .
. .
【学会了吗丨变式题】
3.(2025·广东省中山市第一中学统测)红铃虫是棉花的主要害虫之一,其产卵数与温
度有关.现收集到一只红铃虫的产卵数(单位:个)和温度(单位: )的8组观
测数据,制成图8.2-6(1)所示的散点图.现用两种模型 ,
分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得
到图8.2-6(2)所示的残差图.根据收集到的数据,计算得到如下值:#1
25
2.89
646
168
422 688
48.48
70 308
表中,,, .#1.1.1
续表
图8.2-6
(1)根据残差图判断哪个模型拟合较好并说
明理由.
【答案】应该选择模型①.
理由为:模型①残差比较均匀地落在水平的
带状区域中,且带状区域的宽度比模型②带
状宽度窄,所以模型①的拟合精度更高,回归方程的预报精度相应就会越高.故选模
型①比较合适.
(2)根据(1)中所选择的模型,求出关于 的经验回归方程(计算过程中四舍五
入保留两位小数),并求温度为时,产卵数 的预报值.
参考数据:,, .
【答案】由(1)知,选用模型 ,两边取对数,
得 ,
令,与可以用经验回归方程来拟合,则 ,
,
,
于是有 ,
所以关于的经验回归方程为 .
当时, ,
所以在气温为 时,一个红铃虫的产卵数的预报值为327个.
题型4 利用决定系数比较函数模型拟合效果
图8.2-7
例14 (2025·河北省邯郸市开学考试)某果园种
植“糖心苹果”已有十余年,为了提高利润,该
果园每年投入一定的资金,对种植、采摘、
包装、宣传等环节进行改进.如图8.2-7是2015
年至2024年间该果园每年的投资金额
(单位:万元)与年利润增量 (单位:万元)
的散点图:
该果园为了预测2026年投资金额为20万元时的年利润增量,建立了关于 的两个回
归模型.
模型①:由最小二乘法公式可求得与的经验回归方程: .
模型②:由图中样本点的分布,可以认为样本点集中在曲线 的附近,
令,则,且有,, ,
.
(1)根据所给的统计量,求模型②中关于 的经验回归方程;
【解析】由, ,
可得, ,
则 ,
则 .
所以模型②中关于的经验回归方程为 .
(2)根据下列表格中的数据,比较两种模型的 ,并选择拟合效果更好的模型,预
测投资金额为20万元时的年利润增量(结果保留两位小数).
回归模型 模型① 模型②
回归方程
102.28 36.19
参考数据:,
【解析】由表格中的数据,有 ,
即 ,
所以模型①的小于模型②的 ,说明回归模型②的拟合效果更好.
当 时,模型②的年利润增量的预测值为
.
故当投资金额为20万元时,年利润增量为42.89万元.
高考帮 考试课丨核心素养聚焦
考情揭秘
高考主要考查经验回归方程的求解与应用,利用公式求解相关的数据,代入经验回
归方程公式即可求得经验回归方程,利用经验回归方程可以进行后续的预测,求解
时注意运算的正确性.题型以解答题为主,偶尔出现在选择题中.以解答题的形式呈现
时,难度中等,以选择题的形式呈现时,难度中等偏下.
核心素养:数据分析(从已知条件中提炼数据等),数学运算(经验回归方程、样
本相关系数的计算等),数学建模(建立回归模型).
考向 经验回归方程的求解及应用
例15 (2025·上海)2024年巴黎奥运会,中国获得了男子 米混合泳接力金牌,
以下是历届奥运会男子 米混合泳接力项目冠军成绩记录(单位:秒),数据
按照升序排列.
(1)求这组数据的极差与中位数;
【解析】这组数据的极差为 ,
中位数为 .
(2)从这10个数据中任选3个,求恰有2个数据在211以上的概率;
【解析】记“从这10个数据中任选3个,恰有2个数据在211以上”为事件 ,
由题可知,这10个数据中在211以上的有4个,
故 .
(3)若比赛成绩关于年份的回归方程为,年份 的平均数为
,预测2028年冠军队的成绩(精确到0.01秒).
【解析】由题可知,, (对题目所给的10个数据求平均数即
可),
代入,得 ,
解得 ,
则 ,
将代入,得 ,
故预测2028 年冠军队的成绩为204.56秒.
. .
图8.2-8
例16 (全国Ⅱ卷)如图8.2-8是某地区2000年至
2016年环境基础设施投资额 (单位:亿元)
的折线图.
为了预测该地区2018年的环境基础设施投资额,
建立了与时间变量 的两个线性回归模型.根据
2000年至2016年的数据(时间变量的值依次为1,2, ,17)建立模型①:
;根据2010年至2016年的数据(时间变量的值依次为1,2, ,7)建
立模型②: .
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值.
【解析】利用模型①,该地区2018年的环境基础设施投资额的预测值为
(亿元).
利用模型②,该地区2018年的环境基础设施投资额的预测值为
(亿元).
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
【解析】利用模型②得到的预测值更可靠.
理由如下.
从题图可以看出,2000年至2016年的数据对应的点没有随机分布在直线
上下,这说明利用2000年至2016年的数据建立的线性模型①不能
很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资
额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从
2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年
的数据建立的线性模型 可以较好地描述2010年以后的环境基础设施投
资额的变化趋势,因此利用模型②得到的预测值更可靠.
从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预
测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明
利用模型②得到的预测值更可靠.
以上给出了两种理由,答出其中任意一种或其他合理理由均可.
高考新题型专练
1.[多选题](2025·黑龙江省实验中学月考)技术在我国已经进入调整发展的阶段,
手机的销量也逐渐上升,某手机商城统计了最近5个月手机的实际销量,如下表所示:
时间 1 2 3 4 5
销售量 (千部) 0.5 0.8 1.0 1.2 1.5
若与线性相关,且经验回归方程为 ,则下列说法正确的是( )
ACD
A.由题中数据可知,变量与正相关,且样本相关系数
B.
C.当解释变量每增加1个单位时,响应变量 平均增加0.24个单位
D.可以预测时该商场 手机销量约为1.72千部
【解析】由题中数据可知随的增加而增加,故变量与 正相关,由于各增量并不
相等,故样本相关系数 ,故A正确;
由已知数据得 ,
,
代入中得 ,故B错误;
根据经验回归方程,可得每增加一个单位时,响应变量 平均增加
0.24个单位,故C正确;
将代入中,得 ,故D正确.故选
.
2.[多选题](2025·上海市崇明中学模拟)某学校数学学习兴趣小组利用信息技术手段探
究两个数值变量,之间的线性关系,随机抽取8个样本点, ,
, ,由于操作过程的疏忽,在用最小二乘法求经验回归方程时只输入了
前6组数据,得到的经验回归方程为,其样本点中心为 .后来检查
发现后,输入8组数据得到的新的经验回归方程为,新的样本点中心为 ,
已知, ,则( )
BC
A.新的样本点中心仍为 B.新的样本点中心为
C.两个数值变量,具有正相关关系 D.
【解析】因为前6组数据的样本点中心为,且, ,所以
,,所以新的样本点中心为 ,故
A错误,B正确;
因为8组数据的样本点中心为,经验回归方程为,所以 ,解得
,则两个数值变量, 具有正相关关系,故C正确;
根据样本估计总体及最小二乘法原理,利用8组数据所得的经验回归方程是与所有样
本点“距离”平方和最小的直线方程,即 ,故D
错误.
故选 .
练习帮 习题课丨学业质量测评
A 基础练丨知识测评
建议时间:35分钟
1.(2025·山东省菏泽市月考)甲、乙、丙、丁四位同学在建立变量, 的回归模型时,
分别选择了4种不同模型,计算可得它们的决定系数 分别如下表:
甲 乙 丙 丁
0.98 0.78 0.50 0.85
哪位同学建立的回归模型拟合效果最好?( )
A
A.甲 B.乙 C.丙 D.丁
【解析】决定系数 越大,表示回归模型的拟合效果越好.
2.[教材改编P113 T2]下表是鞋子的长度(单位: )与对应码数的关系.
长度/ 25 25.5 26 26.5 27 27.5
码数 40 41 42 43 44 45
如果人的身高(单位:)与脚板长(单位: )线性相关且经验回归方程为
.若某人的身高为 ,据此模型,估计其穿的鞋子的码数为( )
C
A.42 B.43 C.44 D.45
【解析】人的身高与脚板长的经验回归方程为 ,
当时, .
又26.8接近于27,所以根据题表可估计其穿的鞋子的码数为44.故选C.
3.已知一组样本数据,, ,,根据这组数据的散点图分析
与之间的线性相关关系,若求得其经验回归方程为 ,则在样本点
处的残差为( )
B
A.38.1 B. C.22.6 D.91.1
【解析】把代入,得 ,则在样本
点处的残差为 .
4.(2025·湖北省八市模拟)根据变量和 的成对样本数据,由一元线性回归模型
得到经验回归方程 ,对应的残差图如图8.2-1
(1)所示.根据变量和 的成对样本数据,由一元线性回归模型
得到经验回归方程 ,对应的残差图如图8.2-
1(2)所示,则( )
图8.2-1
A.模型①的误差满足一元线性回归模型的的假设,不满足 的假设
B.模型①的误差不满足一元线性回归模型的的假设,满足 的假设
C.模型②的误差满足一元线性回归模型的的假设,不满足 的假设
D.模型②的误差不满足一元线性回归模型的的假设,满足 的假设
【解析】对于残差图(1)对应的散点,随机误差满足 的假设,但是不满
足 的假设;
对于残差图(2)对应的散点,均匀分布在水平带状区域内,所以随机误差满足
和 的假设.故选A.
√
5.某校对学生记忆力和判断力 进行统计分析,所得数据如表:
记忆力 2 5 6 8 9
判断力 7 8 10 12 18
则关于 的经验回归方程为( )
B
A. B. C. D.
【解析】由表中数据知,随着的增大,也增大,所以与 呈正相关关系,排除A,
D;又, ,由经验回归直线过样本点的中心
,代入成立,可知B正确;代入 不成立,可知C错
误.(也可以直接利用公式求得方程,但选择题要善于利用排除法解题)
6.[多选题](2025·山东省青岛第一中学期中)新能源汽车的核心部件是动力电池,
碳酸锂是动力电池的主要成分.下表是去年我国某企业前5个月购买碳酸锂价格与月
份的统计数据.( )
月份代码 1 2 3 4 5
碳酸锂价格 0.5 0.8 1 1.2 1.5
若关于的经验回归方程为 ,则下列说法中正确的有( )
BCD
A.与的样本相关系数
B.
C.经验回归方程经过点
D.由经验回归方程可预测6月份的碳酸锂价格约为1.72
【解析】因为关于的经验回归方程为,随增大而增大,所以与
正相关,则与的样本相关系数 ,故A错误;
由表可得, ,因为经验回归直线恒过样本
点的中心,则有,解得 ,故B,C正确;
由经验回归方程可预测6月份的碳酸锂价格约为 ,故D正确.
故选 .
7.(2025·重庆市长寿区期末)为促进销量增长,某电商平台为某工厂的产品开设直播
带货专场.为了对该产品进行合理定价,用不同的单价在平台试销,得到的数据如
下表所示.
单价 元 8 8.2 8.4 8.6 8.8 9
销量 万件 90 84 83 80 75 68
(1)根据以上数据,求关于 的经验回归方程;
【答案】 ,
.
, .
,
.
关于的经验回归方程为 .
(2)若该产品成本是4元/件,假设该产品全部卖出,预测把单价定为多少时,工厂
获得最大利润?
【答案】设工厂获得的利润为 万元.
则,令,得, ,
则当时 取得最大值,
.
预测把单价定为8.25元时,工厂获得最大利润,最大利润为361.25万元.
8.耐盐碱水稻俗称“海水稻”,是一种可以长在滩涂和盐碱地的水稻.海水稻的灌溉是
将海水稀释后进行灌溉.某试验基地为了研究浇灌海水的盐度(单位: )对亩
产量 (单位:吨)的影响,通过在试验田的种植实验,测得了某种海水稻的亩产量
与浇灌海水的盐度的有关数据如下表.绘制散点图发现,可用线性回归模型拟合亩
产量与浇灌海水的盐度之间的相关关系,用最小二乘法计算得与 之间的经验回
归方程为 .
浇灌海水的盐度 3 4 5 6 7
亩产量 吨 0.62 0.58 0.49 0.4 0.31
残差
(1)求,并估计当浇灌海水的盐度为 时该品种的亩产量;
【答案】经计算,得, ,
由可得, ,
则当时, ,
所以当浇灌海水的盐度为 时,该品种的亩产量为0.24吨.
(2)(i)将上表补充完整;
【答案】由(1)知 ,从而有
浇灌海水的盐度 3 4 5 6 7
亩产量 吨 0.62 0.58 0.49 0.4 0.31
残差 0.02 0.01 0
(ii)统计学中常用决定系数来刻画回归效果, 越大,模型拟合效果越好,如假
设,就说明响应变量的差异有是由解释变量 引起的.请计算决定系数
(精确到 ),并指出亩产量的变化多大程度上是由浇灌海水的盐度引起的?
【答案】 ,所以亩产量的变化有
是由浇灌海水的盐度引起的.
B 综合练丨高考模拟
建议时间:40分钟
9.(2025·广东省东莞市三校期中联考)为研究某池塘中水生植物的覆盖面积
(单位:)与水生植物的株数 (单位:株)之间的相关关系,收集了4组数据,
用模型去拟合与的关系.设,与 的数据如下表所示,得
到与的经验回归方程为,则 ( )
3 4 6 7
2 2.5 4.5 7
C
A. B. C. D.
【解析】由表中数据可得, ,
.
由与的经验回归方程 及经验回归直线过样本点的中心,得
,解得 ,
故,则 ,
即,则 .
图8.2-2
10.(2026·浙江省永嘉中学开学考试)将收集到的6组数据
对 制作成如图8.2-2所示的散点图
(点旁数据为该点坐标),由最小二乘法计算得经验回
归直线方程:,样本相关系数为 ,决定
系数为;通过残差分析确定点 对应的残差过大,把
它去掉后,再用剩下的5组数据计算得经验回归直线 方
D
A., B., C. D.
程:,样本相关系数为,决定系数为 .
则以下结论中,不正确的是( )
【解析】从散点图可以看出,无论是否去掉点 ,两个变量均是正相关,所以
, ,故A正确;
从散点图可以分析出,经验回归直线的斜率是正数,且的斜率大于 的斜率,所以
,故B和C正确;
从散点图可以看出,去掉“离群点” 后,相关性更强,模型拟合的效果更好,所以其
对应的值越大,所以 ,故D错误.故选D.
图8.2-3
11.(2025·广东省梅州市段考)某科技公司在人工智能领
域逐年加大投入,根据近年来该公司对产品研发年投
入额(单位:百万元)与其年销售量 (单位:千件)
的数据统计,得到散点图如图8.2-3所示.用线性回归和
指数型回归模型拟合与 关系的决定系数分别为
D
参考数据:令,,,, ,
, .
A. B. C.. D.
和,则根据参考数据,下列表达式中最适宜描述与 之间
关系的函数为( )
【解析】由用线性回归和指数型回归模型拟合与 关系的决定系数分别为
和,得,则指数型回归模型最适宜拟合与 关系,
排除A,B;
设描述与之间关系的函数为,两边取对数得, ,
则 ,
因此 ,
,
即, ,C错误,D正确.
12.[多选题]在研究某种产品的零售价(单位:元)与销售量 (单位:万件)之
间的关系时,得到一组样本数据,, , ,求得经验回归方程为
,且,现发现这组样本数据中有两个样本点和
误差较大,去除后重新求得的经验回归直线的斜率为 ,则( )
ABD
A.变量与 具有正相关关系
B.去除两个误差较大的样本点后,重新求得的经验回归方程为
C.去除两个误差较大的样本点后, 的估计值的增加速度变快
D.去除两个误差较大的样本点后,相应于样本点的残差为
【解析】因为回归直线的斜率为正,所以变量与 具有正相关关系,故A正确;
由,代入可得 ,当去掉两个误差较大的样本点后,
,, ,则重新求得的经验回归方程
为 ,故B正确;
去除两个误差较大的样本点后,回归直线的斜率由1.5变为,所以 的估计值的增
加速度变慢,故C错误;
把代入经验回归方程可得 ,
,所以相应于样本点的残差为 ,故D正确.
图8.2-4
13.(2025·上海大学附属中学诊断)经观测,某昆虫的产卵数 与
温度有关,现将收集到的温度和产卵数 的
10组观测数据作了初步处理,得到如图8.2-4所示的散点图及
统计量表.
275 731.1 21.7 150 2368.36 30
表中, .
(1)根据散点图判断,与哪一个适宜作为与 之间
的回归方程模型.(给出判断即可,不必说明理由)
【答案】根据散点图,看出样本点分布在一条指数函数图象的周围,
所以适宜作为与 之间的回归方程模型.
(2)根据(1)的判断结果及表中数据,
①试求关于 的回归方程;
【答案】令,则 ,
而,, ,所以
,
所以,故 .
②已知用人工培养该昆虫的成本与温度和产卵数的关系为
.,当温度( 取整数)为何值时,培养成本的预报值最小?
【答案】 ,
所以 时,培养成本的预报值最小.
C 培优练丨能力提升
14.[教材改编P105]某学校研究性学习小组在学习生物遗传学的过程中,为验证高尔
顿提出的关于儿子成年后身高(单位:)与父亲身高(单位: )之间的关
系及存在的遗传规律,随机抽取了5对父子的身高数据,如下表:
父亲身高 160 170 175 185 190
儿子身高 170 174 175 180 186
(1)根据表中数据,求出关于 的经验回归方程,并利用经验回归方程分别确定儿
子比父亲高和儿子比父亲矮的条件,由此可得到怎样的遗传规律?
【答案】由题意得 ,
,
,
,
所以经验回归方程为 .
令得,即 时,儿子比父亲高;
令得,即 时,儿子比父亲矮.
可得当父亲身高较高时,儿子平均身高要矮于父亲,即儿子身高有回归到全种群平
均高度的趋势.
(2)记,其中为观测值, 为预测值,
为对应 的残差.求(1)中儿子身高的残差的和并探究这个结果是否对任意具
有线性相关关系的两个变量都成立?若成立加以证明;若不成立说明理由.
参考数据及公式:,,, ,
, .
【答案】由可得,,, ,
,所以 .
又,所以 .
结论:对任意具有线性相关关系的两个变量都有 .
证明: .