高中数学(人教B版)选择性必修二同步讲义第4章第06讲一元线性回归模型(学生版+解析)

文档属性

名称 高中数学(人教B版)选择性必修二同步讲义第4章第06讲一元线性回归模型(学生版+解析)
格式 zip
文件大小 2.5MB
资源类型 试卷
版本资源 人教B版(2019)
科目 数学
更新时间 2025-02-17 11:36:44

文档简介

第06讲 一元线性回归模型
课程标准 学习目标
1.理解散点图、线性相关、正相关、负相关的概念. 2.理解并掌握回归直线方程的概念和性质,会求线性相关的两个变量的回归直线方程. 3.理解并掌握相关系数的概念及性质,并能判断两个变量之间线性相关性的强弱. 4.了解非线性回归的相关概念. 1.通过对数据的分析、统计,培养数据分析等核心素养. 2.借助变量间相关关系的研究,提升数学抽象、数学运算等核心素养. 3.借助求回归直线方程和相关系数,培养学生数学建模、数据分析及数学运算等核心素养.
知识点01 变量的相关关系
1.两个变量的关系
(1)一类是两变量之间的关系具有确定性,当一个变量确定后,另一个变量就确定了.
(2)另一类是变量之间具有一定的关系,但没有达到可以相互决定的程度.它们之间的关系带有一定的随机性,这些两个变量之间的关系,在统计学上都称为相关关系.
【解读】相关关系与函数关系的异同:
关系 异同点 函数关系 相关关系
相同点 两者均是两个变量之间的关系
不同点 是一种确定性关系 是一种非确定性关系
是一种因果关系 不一定是因果关系,也可能是伴随关系
是一种理想的关系 是更为一般的情况
3.散点图
(1)概念:一般地,如果收集到了变量x和变量y的n对数据(简称为成对数据),如下表所示:
序号i 1 2 3 … n
变量x x1 x2 x3 … xn
变量y y1 y2 y3 … yn
则在平面直角坐标系xOy中描出点(xi,yi),i1,2,3,…,n,就可以得到这n对数据的散点图.
(2)作用:散点图展示了样本点散布的位置.根据散点图中点的分布趋势分析两个变量之间的关系,可直观地判断并得出结论.
【解读】
(1)散点图具有直观、简明的特点,我们可以根据散点图来判断两个变量有没有相关关系;
(2)通过散点图不但可以判断测量值的大小、变动范围与整体趋势,还可以通过观察剔除异常数值,提高估计相关程度的准确性;
(3)当所画的散点图的横坐标与纵坐标所对应的数据差距很大时,可在实际作图时,将横坐标与纵坐标取不同的单位长度,使画出的散点图形象、美观.
3.线性相关正相关、负相关
如果由变量的成对数据、散点图或直观经验可知,变量x与变量y之间的关系可以近似地用一次函数来刻画,则称x与y线性相关.此时,如果一个变量增大,另一个变量大体上也增大,则称这两个变量正相关;如果一个变量增大,另一个变量大体上减少,则称这两个变量负相关.
【即学即练1】)两个变量成正相关的是(  )
A.汽车的重量和汽车每消耗1升汽油所行驶的平均路程
B.平均日学习时间和平均学习成绩
C.某人每日吸烟量和其身体健康情况
D.汽车的重量和百公里耗油量
【答案】CD
【解析】其中A,C成负相关关系,B,D成正相关关系,故选B,D.
知识点02 回归直线方程
1.回归直线方程的概论
一般地,已知变量x与y的n对成对数据(xi,yi),i1,2,3,…,n.任意给定一个一次函数ybx+a,对每一个已知的xi,由直线方程可以得到一个估计值ibxi+a,如果一次函数x+能使(1-y1)2+(2-y2)2+…+(n-yn)2(yi-i)2取得最小值,则yx+称为y关于x的回归直线方程(对应的直线称为回归直线).
2.最小二乘法
上述求回归直线方程的过程中需使得平方和最小,所以其中涉及的方法称为最小二乘法.
可以证明,给定两个y与x的一组数据之后,回归直线方程x+总是存在的,而且
,=.
其中,称为回归系数.它实际上也就是回归直线方程的斜率.回归直线方程确定之后,就可用于预测.
需要注意的是,上述公式中,指的是x1,x2,x3,…,xn的平均数,即(x1+x2+…+xn);类似地,是y1,y2,y3,…,yn的平均数,即.
【解读】(1)回归直线一定过点(,);
(2)y与x正相关的充要条件是>0;y与x负相关的充要条件是<0;
(3)当x增大一个单位时,增大个单位,这就是回归系数的实际意义;
(4)回归直线方程中x的系数是,表示直线的斜率,注意与《选择性必修第一册》中的一次函数的关系式或直线方程yax+b进行区分.
【即学即练2】已知某车间加工零件的个数x与所花费时间y(h)之间的回归直线方程为0.01x+0.5,则加工800个零件大约需要(  )
A.6.5 h       B.5.5 h
C.3.5 h D.0.5 h
【答案】A
【解析】 把x800代入回归直线方程中得,0.01×800+0.56.5,故选A.
知识点03 相关系数
1.概念:注意到现实生活中的数据,由于度量对象和单位的不同等,数值会有大有小,为了去除这些因素的影响,统计学里一般用
来衡量y与x的线性相关性强弱,这里的r称为线性相关系数(简称为相关系数).
2.性质
(1)|r|≤1,且y与x正相关的充要条件是r>0,y与x负相关的充要条件是r<0.
(2)|r|越小,说明两个变量之间的线性相关性越弱,也就是得出的回归直线方程越没有价值,即方程越不能反映真实的情况;|r|越大,说明两个变量之间的线性相关性越强,也就是得出的回归直线方程越有价值.
(3)|r|1的充要条件是成对数据构成的点都在回归直线上.
(1)样本的相关系数r可以定量地反映出变量间的相关程度,明确给出有无必要建立两变量间的回归方程;
(2)|r|很小只是说明两个变量之间的线性相关程度弱,但不一定不相关.
3.相关系数与向量夹角的余弦
一般地,a(x1-,x2-,…,xn-),b(y1-,y2-,…,yn-)都称为n维向量,如果按照类似2维与3维的情况定义向量的内积和模,则相关系数r总是等于两个向量夹角的余弦,即rcos .
【即学即练3】若对甲、乙、丙3组不同的数据作线性相关性检验,得到这3组数据的线性相关系数依次为0.83,0.72,-0.90,则线性相关性最强的一组是____________(填甲、乙、丙中的一个).
【答案】丙
【解析】两个变量y与x的回归模型中,它们的相关系数|r|越接近于1,
这个模型的两个变量线性相关性就越强,在甲、乙、丙中,所给的数值中-0.90的绝对值最接近1,
所以丙的线性相关性最强.
故答案为丙.
知识点04 非线性回归分析
1.非线性回归分析的思想
研究两个变量的关系时,依据样本点画出散点图,从整体上看,如果样本点没有分布在某个带状区域内,就称这两个变量之间不具有线性相关关系,此时不能直接利用线性回归方程来建立两个变量之间的关系.
2.非线性回归方程
当回归方程不是形如ybx+a(a,b∈R)时,称回归方程为非线性回归方程.
当两个变量不是线性相关关系时,依据样本点的分布选择合适的曲线方程来拟合数据,可通过变量代换,利用线性回归模型建立两个变量间的非线性回归方程.
【即学即练4】某校一个课外学习小组为研究某作物种子的发芽率和温度(单位:)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据得到下面的散点图:

由此散点图,在10℃至35℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A. B. C. D.
【答案】A
【分析】根据散点图的变化趋势,结合常见函数的性质特征可得.
【详解】由图可知,随着稳定的增加,发芽率的增长速度越来越慢,符合对数型函数的特征.
题型01 变量间的相关关系及判断
【典例1】(多选)以下两个变量成正相关的是(  )
A.学生的学籍号与学生的数学成绩
B.坚持每天吃早餐的人数与患胃病的人数
C.气温与冷饮销售量
D.电瓶车的重量和行驶每千米的耗电量
【答案】DD
【解析】对于A,学生的学籍号与学生的数学成绩没有相关关系;
对于B,一般情况下,坚持每天吃早餐的人患胃病的概率低,坚持每天吃早餐的人数与患胃病的人数成负相关关系;
对于C,一般情况下,气温低,喝冷饮的人少,气温与冷饮销售量成正相关关系;
对于D,一般情况下,电瓶车越重,每千米的耗电量越高,电瓶车的重量和行驶每千米的耗电量成正相关关系.
综上,两个变量成正相关的是选项C,D.
【变式1】(24-25高三上·上海·开学考试)已知气候温度和海水表层温度相关,且相关系数为负数,对此描述正确的是( )
A.气候温度高,海水表层温度就高
B.气候温度高,海水表层温度就低
C.随着气候温度由低到高,海水表层温度呈上升趋势
D.随着气候温度由低到高,海水表层温度呈下降趋势
【答案】A
【分析】根据相关系数的意义判断各项的正误即可.
【详解】由于相关系数表示一个变量变化对另一个变量变化趋势的影响,
所以随着气候温度由低到高,海水表层温度呈下降趋势.
【变式2】(24-25高三上·上海·课后作业)已知变量X与Y相对应的一组数据为,,,,,变量U与V相对应的一组数据为,,,,.表示变量X与Y之间的线性相关系数,表示变量U与V之间的线性相关系数,则下列结论中正确的是( )
A. B. C. D.
【答案】D
【分析】根据正负相关与相关系数的关系分析判断即可.
【详解】由变量X与Y相对应的一组数据,可得变量X与Y之间正相关,∴;
由变量U与V相对应的一组数据,可知变量U与V之间负相关,∴;
综上所述:与的大小关系是.
故选:C.
【变式3】(23-24高二上·全国·课后作业)相关系数r是衡量两变量之间的线性相关程度的,对此有下列说法:①越接近于1,相关程度越大;②越接近于0,相关程度越小;③越接近于1,相关程度越小;④越接近于0,相关程度越大.其中正确的是( )
A.①② B.②④ C.②③ D.①④
【答案】A
【分析】根据相关系数的性质可得结论.
【详解】由相关系数性质:越接近于1,成对样本数据的线性相关程度越强,
越接近于0,成对样本数据的线性相关程度越弱,
可知①②正确;
.
题型02 求线性回归方程
【典例2】(22-23高二下·福建三明·期中)《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》,这是21世纪以来第18个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴.为助力乡村振兴,某电商平台为某地的农副特色产品开设直播带货专场.为了对该产品进行合理定价,用不同的单价在平台试销,得到如下数据:
单价(元/件) 8 8.2 8.4 8.6 8.8 9
销量(万件) 90 84 83 80 75 68
(1)根据以上数据,求关于的线性回归方程;
(2)若该产品成本是7元/件,假设该产品全部卖出,预测把单价定为多少时,工厂获得最大利润,最大利润是多少.
附:参考公式:回归方程,
其中,.
参考数据:,.
【答案】(1)
(2)该产品的单价定为元时,工厂获得利润最大,最大利润为万元.
【分析】(1)计算相关数据代入回归方程公式中计算即可;
(2)设工厂获得的利润为万元,写出关于单价的二次函数,求出最大利润即可.
【详解】(1)因为,

所以.
则,
因此回归直线方程为.
(2)设工厂获得的利润为万元,
则,
所以该产品的单价定为元时,工厂获得利润最大,最大利润为万元.
【变式1】某地区实行社会主义新农村建设后,农村的经济收入明显增加,根据统计得到从2015年至2021年农村居民家庭收入y(单位:万元)的数据,其数据如下表:
年份 2015 2016 2017 2018 2019 2020 2021
年份代号t 1 2 3 4 5 6 7
农村居民家庭收入y 3.9 4.3 4.6 5.4 5.8 6.2 6.9
附:回归直线的斜率和截距的最小二乘估计公式分别为,.
参考数据:,.
(1)求y关于t的线性回归方程;
(2)根据(1)中的回归方程,分析2015年至2021年该地区农村居民家庭收入的变化情况,并预测该地区2024年农村居民家庭收入.
【答案】(1)
(2)2015年至2021年该地区农村居民家庭收入逐年增加,每年大约增加0.5万元,该地区2024年农村居民家庭收入为8.3万元.
【分析】(1)根据表中数据,结合最小二乘法的公式,求得,即可求得回归直线方程;
(2)由(1)知,阿静代入线性回归方程,求得,即可得到结论.
【详解】(1)解:由表中数据可得,,


则,又,
故所求线性回归方程为.
(2)解:由(1)可知,,
故2015年至2021年该地区农村居民家庭收入逐年增加,每年大约增加0.5万元,
将2024年的年份代号代入(1)中的线性回归方程得,,
故预测该地区2024年农村居民家庭收入为8.3万元.
【变式2】(22-23高二下·陕西西安·期中)基础学科招生改革试点,即强基计划,是教育部开展的招生改革工作,主要是为了选拔培养有志于服务国家重大战略需求且综合素质优秀或基础学科拔尖的学生.聚焦高端芯片与软件、智能科技、新材料、先进制造和国家安全等关键领域以及国家人才紧缺的人文社会科学领域.某校在一次强基计划模拟考试后,从全体考生中随机抽取52名,获取他们本次考试的数学成绩()和物理成绩(),绘制成如图散点图:根据散点图可以看出与之间有线性相关关系,但图中有两个异常点,.经调查得知,考生由于重感冒导致物理考试发挥失常,考生因故未能参加物理考试,为了使分析结果更科学准确,剔除这两组数据后,对剩下的数据作处理,得到一些统计的值:,,,,,其中,分别表示这70名考生的数学成绩、物理成绩,,与的相关系数.

(1)若不剔除,两名考生的数据,用52组数据作回归分析,设此时与的相关系数为.试判断与的大小关系(不必说明理由);
(2)求关于的线性回归方程(系数精确到0.01),并估计如果考生加了这次物理考试,物理成绩是多少?(精确到0.1)
【答案】(1)
(2),81.2分
【分析】(1)由题意结合相关系数的概念即可直接判断;
(2)由题意计算出,代入公式计算出,即可得回归方程,再代入即可估考生的物理成绩.
【详解】(1)由题意,
与成正相关关系,异常点会 低变量之间的相关程度,
∴;
(2)由题意,(1)及表得,
,,,,,
∴,
∴,
∴,
∴,
将代入,得,所以估计同学的物理成绩为分.
【变式3】(2024上·江西新余·高二统考期末)某地政府为解除空巢老人日常护理和社会照料的困境,大力培育发展养老护理服务市场.从年开始新建社区养老机构,下表为该地区近年新建社区养老机构的数量对照表.
年份 2017 2018 2019 2020 2021 2022 2023
年份代码 1 2 3 4 5 6 7
新建社区养老机构
(1)若该地区参与社区养老的老人的年龄近似服从正态分布,其中年龄的有人,试估计该地参与社区养老的老人有多少?(结果按四舍五入取整数)
(2)已知变量与之间的样本相关系数,请求出关于的线性回归方程,并据此估计年时,该地区新建社区养老机构的数量.(结果按四舍五入取整数)
参考公式与数据:①,.;
②若随机变量,则,,;
③,.
【答案】(1)约为人
(2)回归方程为;约为个.
【分析】(1)利用原则求出的值,即可求得该地参与社区养老的老人人数为;
(2)计算出的值,可求出的值,可求得的值,利用参考数据可求得的值,由此可得出回归直线方程,然后将代入回归直线方程可得结果.
【详解】(1)解:由题意可知,,,则,,
所以,

所以,估计该地参与社区养老的老人人数为.
(2)解:由表格中的数据可得,
所以,,
由已知条件可得,
所以,,
所以,,
又因为,
显然,解得,则,
所以,关于的回归直线方程为,
当时,.
估计年时,该地区新建社区养老机构的数量约为个.
题型03 回归直线方程的性质及应用
【典例3】1.(23-24高二下·福建宁德·阶段练习)已知变量和的统计数据如下表:
6 8 10 12
2 3 5 6
根据上表可得回归直线方程,据此可以预测当时,( )
A.7.8 B.6.5 C.9.6 D.8.2
【答案】A
【分析】利用回归直线过样本中心点求解,代入即可.
【详解】根据表格中的数据,
当时,
【变式1】(23-24高二下·河南南阳·期中)某电脑公司有3名产品推销员,其工作年限与年推销金额数据如下表所示:
推销员编号 1 2 3
工作年限年 3 5 10
推销金额万元 2 3 4
由表中数据算出经验回归方程中的.若第4名推销员的工作年限为7年,则估计他的年推销金额为( )
A.3.08万元 B.3.14万元 C.3.21万元 D.3.27万元
【答案】A
【分析】利用表格求出,代入经验回归方程,求得,即得回归方程,最后代入年限即可求得.
【详解】由题表中数据得,
由经验回归直线过点.又,所以,
所以,则当时,3.27,
所以估计第4名推销员的年推销金额为3.27万元.
.
【变式2】(24-25高二·江苏·假期作业)已知,的取值如下表所示,从散点图分析可知与线性相关,如果线性回归方程为,则实数的值为( )
2 3 4 5 6
6.5 10 11.5 18.5
A.13 B.13.5 C.14 D.14.5
【答案】C
【分析】利用线性回归方程一定过样本中心点,求解即可.
【详解】由题意可知,,
因为线性回归方程一定过样本中心点,,
所以,
所以,
解得.

【变式3】(23-24高二下·安徽安庆·期末)根据成对样本数据建立变量y关于x的经验回归方程为.若y的均值为6.2,则x的均值为( )
A.1.5 B.2 C.2.5 D.3
【答案】C
【分析】利用经验在归方程经过点,即可求出结果.
【详解】将代入方程,解得.
.
题型04 相关系数的计算及应用
【典例4】(24-25高三·上海·课堂例题)测得10对父子身高[单位:英寸(1英寸)如下:
父亲身高() 80 62 64 65 66 67 68 70 72 74
儿子身高() 63.6 65.2 66 65.5 66.9 67.1 67.4 68.3 70.1 70
(1)对变量与进行相关性检验;
(2)如果与之间具有相关关系,求回归直线方程;
(3)如果父亲身高为73英寸,试估计儿子的身高.
参考数据:,,,,,,.
【答案】(1)与之间具有较强的线性相关关系
(2)
(3)69.9英寸
【分析】(1)根据相关系数的公式代入计算的答案;
(2)根据最小二乘法计算得到回归直线方程;
(3)把代入回归方程得.
【详解】(1),
因为非常接近于1,所以与之间具有较强的线性相关关系;
(2)设回归直线方程为,,,
所以回归直线方程为;
(3)时,,所以父亲身高为73英寸时,儿子的身高约为69.9英寸.
【变式1】(23-24高二上·辽宁·期末)在一组样本数据、、、、、、、不全相等)的散点图中,若所有的样本点都在直线上,则这组样本数据的相关系数为( )
A. B. C. D.
【答案】D
【分析】根据相关系数的与线性相关关系可得解.
【详解】因为所有的样本点都在直线上,所以相关系数满足.
又因为,所以,所以.
.
【变式2】(24-25高三上·湖北随州·阶段练习)若已知是的4倍,是的1.5倍,则样本相关系数r的值为 .
【答案】/0.75
【分析】利用相关系数的公式计算即可.
【详解】解:.
故答案为:.
【变式3】(24-25高三·上海·随堂练习)随着智能手机的普及,使用手机上网成为人们日常生活的一部分,很多消费者对手机流量的需求越来越大,某通信公司为了更好地满足消费者对流量的需求,准备推出一款流量包.该通信公司选了5个城市(总人数、经济发展情况、消费能力等方面比较接近)采用不同的定价方案作为试点,经过一个月的统计,发现该流量包的定价x(单位:元/月)和购买人数y(单位:万人)的关系如下表:
x 30 35 40 45 70
y 18 14 10 8 5
计算该流量包的定价x与购买人数y的相关系数 .(结果保留3位小数)
【答案】
【分析】根据相关系数的公式计算结果;
【详解】根据表格中的数据,
可得,.
可列表如下:
i 1 2 3 4 5
-10 -5 0 5 10
7 3 -1 -3 -6
-70 -15 0 -15 -80
则,

因此相关系数

故答案为:.
【变式4】(25-26高三上·上海·单元测试)当前,冷冻冷藏类技术发展迅速且应用广泛.某制冷技术重点实验室研究了不同果蔬在不同冻结速率下的冰点温度,以及低温环境对果蔬热物性的影响.设冻结速率为x(单位:分钟),冰点温度为y(单位:℃),如表为某种水果冰点温度随冻结速率变化的统计数据:
x 10 20 30 40 70
y -5 -4.5 -2 1 2
根据以上数据,绘制了散点图:
(1)由散点图可以看出,可用线性回归模型拟合y与x的关系,请用相关系数r加以说明;
(2)求y关于x的线性回归方程,并预测当冻结速率为80分钟时,这种水果的冰点温度.
【答案】(1)答案见解析
(2), 4.15℃
【分析】(1)根据所给数据计算相关系数可得.
(2)求出回归方程中系数,得回归方程,代入回归方程可得估计值.
【详解】(1),
,因为,
故两个变量间线性相关性很强,可以用线性回归模型拟合y与x的关系;
(2)由表可知,,,
,,
故y关于x的线性回归方程为,
当时,,
故当冻结速率为80分钟时,这种水果的冰点温度为4.15℃.
题型05 非线性回归模型及应用
【典例5】为帮助乡村脱贫,某勘探队计划了解当地矿脉某金属的分布情况,测得了平均金属含量(单位:)与样本对原点的距离(单位:m)的数据,并作了初步处理,得到了下面的一些统计理的值.(表中,)
6 97.90 0.21 80 0.14 14.12 26.13
(1)利用样本相关系数的知识,判断与哪一个更适宜作为平均金属含量关于样本对原点的距离的回归方程类型?
(2)根据(1)的结果回答下列问题:
①建立关于的回归方程;
②样本对原点的距离时,金属含量的预报值是多少?
附:对于一组数据,其线性相关系数,其回归直线的斜率和截距的最小二乘估计分别为:,.
【答案】(1)更适宜;
(2)①;②
【分析】(1)分别求出与所对应的线性相关系数,然后比较大小即可判断.
(2)根据数据和公式即可求得关于的回归方程,根据回归方程代入,即可求出金属含量的预报值.
【详解】(1)由题的线性相关系数,
的线性相关系数,
因为,所以,
所以更适宜作为平均金属含量关于样本对原点的距离的回归方程类型.
(2)①由(1),令,,
则,
所以,,
则,
即.
②当时,
金属含量的预报值
【变式1】(24-25·高三全国·专题)一座城市的夜间经济不仅有助于拉动本地居民内需,还能延长外地游客、商务办公者等的留存时间,带动当地经济发展,是衡量一座城市生活质量、消费水平、投资环境及文化发展活力的重要指标.数据显示,近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模保持稳定增长,下表为2017—2022年中国夜间经济的市场发展规模(单位:万亿元),设2017—2022年对应的年份代码依次为1~6.
年份代码x 1 2 3 4 5 6
中国夜间经济的市场发展规模y/万亿元 20.5 22.9 26.4 30.9 36.4 42.4
(1)已知可用函数模型拟合y与x的关系,请建立y关于x的回归方程(a,b的值精确到0.01);
(2)某传媒公司发布的2023年中国夜间经济城市发展指数排行榜前10名中,吸引力超过90分的有4个,从这10个城市中随机抽取5个,记吸引力超过90分的城市数量为X,求X的分布列与数学期望.
参考数据:
3.366 73.282 17.25 1.16
其中.
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘法估计分别为,.
【答案】(1)
(2)分布列见解析,2
【分析】(1)将的等号两边同时取对数,再结合回归直线的斜率和截距的最小二乘法求得结果;
(2)X的所有可能取值为0,1,2,3,4,根据超几何分布求出分布列以及数学期望.
【详解】(1)将的等号两边同时取对数得,
所以.,

所以,

所以,即,
所以.
(2)由题可知X的所有可能取值为0,1,2,3,4,
,,
,,.
所以X的分布列为
X 0 1 2 3 4
P

【变式2】(2024·全国·模拟预测)一座城市的夜间经济不仅有助于拉动本地居民内需,还能延长外地游客、商务办公者等的留存时间,带动当地经济发展,是衡量一座城市生活质量、消费水平、投资环境及文化发展活力的重要指标.数据显示,近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模保持稳定增长,下表为2017—2022年中国夜间经济的市场发展规模(单位:万亿元),其中2017—2022年对应的年份代码依次为1~6.
年份代码 1 2 3 4 5 6
中国夜间经济的市场发展规模万亿元 20.5 22.9 26.4 30.9 36.4 42.4
(1)已知可用函数模型拟合与的关系,请建立关于的回归方程(的值精确到0.01);
(2)某传媒公司预测2023年中国夜间经济的市场规模将达到48.1万亿元,现用(1)中求得的回归方程预测2023年中国夜间经济的市场规模,若两个预测规模误差不超过1万亿元,则认为(1)中求得的回归方程是理想的,否则是不理想的,判断(1)中求得的回归方程是否理想.参考数据:
3.366 73.282 17.25 1.16 2.83
其中.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为.
【答案】(1);
(2)是理想的
【分析】(1)通过对所给的的函数模型取对数,转换为求回归直线方程即可,再结合题中所给的直线方程与数据即可得解.
(2)利用(1)中求得的函数模型进行预测,结合回归方程理想的定义判断即可.
【详解】(1)将的等号左右两边同时取自然对数得,
所以.,
而,
所以,

所以,即,
所以.
(2)2023年对应的年份代码为7,
当时,,,
所以(1)中求得的回归方程是理想的.
一、单选题
1.(23-24高二下·甘肃兰州·期末)下列各关系不属于相关关系的是( )
A.产品的样本与生产数量 B.球的表面积与体积
C.家庭的支出与收入 D.人的年龄与体重
【答案】C
【分析】根据相关关系的定义判断.
【详解】对于A:产品的样本与生产数量是相关关系,故A正确;
对于B:设球的半径为,球的表面积为、体积为,
则,所以,而,
所以球的表面积与体积是一种函数关系,故B错误;
对于C:家庭的支出与收入是相关关系,故C正确;
对于D:人的年龄与体重是相关关系,故D正确.
2.(23-24高二下·山西大同·期中)对两个变量进行线性相关性检验,得线性相关系数,对两个变量进行线性相关性检验,得线性相关系数,则下列判断正确的是( )
A.变量与变量正相关,变量与变量负相关,变量与变量的线性相关性更强
B.变量与变量负相关,变量与变量正相关,变量与变量的线性相关性更强
C.变量与变量负相关,变量与变量正相关,变量与变量的线性相关性更强
D.变量与变量正相关,变量与变量负相关,变量与变量的线性相关性更强
【答案】A
【分析】根据相关系数的符号的正负决定两个变量的正相关、负相关,以及相关系数绝对值越大,两个变量的线性相关性越强,进而可得出结论.
【详解】由线性相关系数知与正相关,
由线性相关系数知与负相关,
又,所以变量与变量的线性相关性比变量与变量的线性相关性更强.

3.(23-24高二上·江苏常州·期末)用最小二乘法得到一组数据的线性回归方程为,若,则( )
A.11 B.13 C.63 D.78
【答案】A
【分析】根据线性回归方程为一定过点,先求出,代入回归方程即可得出,进而可得的值.
【详解】依题意,
因为,所以,
因为线性回归方程为一定过点,
所以,
所以.
.
4.(23-24高二下·黑龙江大庆·期中)某校课外学习小组研究某作物种子的发芽率和温度(单位:)的关系,由实验数据得到如图所示的散点图.由此散点图判断,最适宜作为发芽率和温度的回归方程类型的是( )
A. B.
C. D.
【答案】A
【分析】根据散点的分布可得出合适的回归方程类型.
【详解】由散点图可见,数据分布成递增趋势,但是呈现上凸效果,即增加缓慢.
A中,是直线型,均匀增长,不符合要求;
B中,是二次函数型,图象呈现下凸,增长也较快,不符合要求;
C中,是指数型,爆炸式增长,增长快,不符合要求;
D中,是对数型,增长缓慢,符合要求.
故对数型最适宜该回归模型.
.
5.(24-25高二·江苏·假期作业)为创建良好的生态环境,某地大力发展新能源产业,近4年该地新能源产业生产总值情况如下表所示:
第年 1 2 3 4
生产总值百万元 32 52 73 95
已知变量与之间具有线性相关关系,设用最小二乘法建立的回归直线方程为,则利用该模型预测该地第六年的生产总值为( )
A.136.5 B.137.5 C.138.5 D.139.5
【答案】A
【分析】根据线性回归方程过样本中心点,计算、,求出回归方程,再计算时的值即可.
【详解】由题,,
代入回归方程得,
所以,
故当时,.
.
6.(24-25高二下·全国·课后作业)为考察两个变量,的相关性,搜集数据如表,则两个变量的线性相关程度( )
5 10 15 20 25
103 105 110 111 114
(参考数据:,,)
A.很强 B.很弱 C.无相关 D.不确定
【答案】A
【分析】根据已知计算相关系数,再根据相关系数的值判断线性相关程度.
【详解】由题可得,,


因为相关系数很接近于1,故两个变量的线性相关程度很强.
.
7.(23-24高二下·江苏南京·阶段练习)为了研究关于的线性相关关系,收集了组样本数据(见下表):
若已求得一元线性回归方程为,则下列选项中正确的是( )
(其中相关系数)
A.
B.当时,的预测值为
C.样本数据的第40百分位数为
D.去掉样本点后,与的样本相关系数不会改变
【答案】A
【分析】A项,求出,将样本中心点代入回归直线方程可求;B项,利用回归直线方程代值运算预测即可;C项,按百分位数求法步骤求解;D项,新样本平均值没有变化,由相关系数公式可知.
【详解】A项,,
所以样本点的中心坐标为,
将它代入得,,解得,故A错误;
B项,当时,的预测值为,故B错误;
C项,由为整数,则样本数据的第40百分位数为,故C错误;
D项,去掉样本点后,新样本数据的平均值没有变化,即仍然不成立,
不妨设为第组数据,即,则,其余数据没有变化.
则由相关系数公式可知,
即新样本数据与的相关系数与原数据相关系数相等,
即与的样本相关系数不会改变,故D正确.
.
8.(23-24高二下·福建漳州·阶段练习)2024海峡两岸各民族欢度“三月三”暨福籽同心爱中华·福建省第十一届“三月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据,其中,为第次入口人流量数据(单位:百人),由此得到关于的回归方程,,已知,根据回归方程(参考数据:,),可预测下午4点时入口游客的人流量为( )
A.9.6 B.11.0 C.11.4 D.12.0
【答案】C
【分析】令,由,得,因为,所以
则,即可求解.
【详解】令,则,
又,由,得,
因为,所以
则,
下午4点时对应的是,
可得,
二、多选题
9.(24-25高二下·全国·课后作业)/年月日,人社部官网发布全国各地区最低工资标准情况,从月最低工资标准来看,上海、深圳、北京位列前三.某学生为了研究居民收入与幸福指数的相关关系,查询到如下数据,后来发现其中一个数据记录有误,去掉该数据,则( )

A.样本相关系数变大 B.居民收入与幸福指数呈现负相关
C.样本相关系数 D.居民收入与幸福指数的线性相关程度变强
【答案】AD
【分析】根据散点图进行分析,利用相关系数的意义可得结论.、
【详解】由散点图知,去掉后,幸福指数与居民收入的线性相关程度变强,
且为正相关,变大,故A,D正确,B错误.
又该四组数据不在一条直线上,故,故C错误.
D.
10.(24-25高三上·四川绵阳·阶段练习)某类汽车在今年1至5月的销量y(单位:千辆)如下表所示(其中2月份销量未知):
月份x 1 2 3 4 5
月销量y 2.4 m 4 5 5.5
若变量y与x之间存在线性相关关系,用最小二乘法估计建立的经验回归方程为,则下列说法正确的是( )
A.
B.残差绝对值最大为0.2
C.样本相关系数
D.当解释变量每增加1,响应变量增加0.85
【答案】AB
【分析】对于A,根据回归直线必过样本中心点可解得;对于B,根据残差的定义计算,即可判断;对于C,根据表格和相关系数的意义,即可判断;对于D,根据相关关系的定义,即可判断.
【详解】由题意知:,又,
代入方程得,所以,解得,故A正确;
1月份的残差为,2月份的残差为,3月份的残差为,4月份的残差为,5月份的残差为,所以残差绝对值最大为,故B正确;
由表格可知变量与呈正线性相关,则,故C不正确;
当解释变量每增加1,响应变量不一定增加0.85,故D不正确,
B.
11.(2024高二下·全国·专题练习)某骑行爱好者在专业人士指导下对近段时间骑行锻炼情况进行统计分析,统计每次骑行期间的身体综合指标评分与骑行用时(单位:小时)如下表:
身体综合指标评分 1 2 3 4 5
用时小时) 9.5 8.8 7.8 7 6.1
由上表数据得到的错误结论是( )
参考数据:,
参考公式:相关系数.
A.身体综合指标评分与骑行用时正相关
B.身体综合指标评分与骑行用时的相关程度较弱
C.身体综合指标评分与骑行用时的相关程度较强
D.身体综合指标评分与骑行用时的关系不适合用线性回归模型拟合
【答案】ABD
【分析】利用公式求出相关系数值,根据相关系数的正负值判断与正负相关性;利用相关系数值判断相关程度强与弱.
【详解】由题意,

,,

因为相关系数.
即相关系数近似为,且相关程度强,
并且与负相关,从而可用线性回归模型拟合与的关系.
所以选项ABD错误,C正确.
BD.
三、填空题
12.(24-25高三上·广东江门·阶段练习)已知,之间的一组数据:若与满足经验回归方程,则此曲线必过点 .
x
y
【答案】
【分析】设,则,根据回归方程性质可得回归直线所过定点.
【详解】由已知,
设,则,
由回归直线性质可得在直线上,
又,,
所以点在直线上,故点在曲线上.
故答案为:.
13.(23-24高二下·天津·期末)为了了解家庭月收入(单位:千元)与月储蓄(单位:千元)的关系,从某居民区随机抽取10个家庭,根据测量数据的散点图可以看出与之间具有线性相关关系,其回归直线方程为,若该居民区某家庭月收入为7千元,据此估计该家庭的月储蓄为 千元.
【答案】
【分析】直接代入即得答案.
【详解】由于,代入,于是得到,故答案为1.7.
【点睛】本题主要考查线性回归方程的理解,难度很小.
14.(18-19高二下·内蒙古巴彦淖尔·阶段练习)在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线的周围.令,求得线性回归方程为,则该模型的非线性回归方程为 .
【答案】
【分析】由回归直线方程可得:,解出,问题得解.
【详解】由回归直线方程,得:,
整理得:,
所以该模型的回归方程为.
故答案为: .
四、解答题
15.(2025高三·全国·专题练习)2023年是全面贯彻落实党二十大精神的开局之年,也是实施“十四五”规划承上启下的关键之年,经济增长呈现稳中有进的可喜现象.2023年8月4日,贵州省工业和信息化厅召开推进贵州刺梨产业高质量发展专题会议,安排部署加快推进特色优势产业刺梨高质量发展工作,集中资源、力量打造“贵州刺梨”公共品牌.贵州省为做好刺梨产业的高质量发展,项目组统计了全省近5年刺梨产业综合总产值的各项数据如下:
年份,综合产值(单位:亿元)
年份 2018 2019 2020 2021 2022
年份代码 1 2 3 4 5
综合产值 23.1 37.0 62.1 111.6 170.8
(1)根据表格中的数据,可用一元线性回归模型刻画变量与变量之间的线性相关关系,请用相关系数加以说明(精确到0.01);
(2)求出关于的经验回归方程,并预测2023年底贵州省刺梨产业的综合总产值.
参考公式:
相关系数.回归方程中斜率和截距的最小二乘法估计公式分别为,;
参考数据:,,,,,.
【答案】(1)可用一元线性回归模型刻画变量与变量之间的线性相关关系,说明见解析
(2),亿元
【分析】(1)根据相关系数的计算公式可得,即可判断;
(2)根据最小二乘法即可求解,代入即可求解.
【详解】(1)由题设,
则,


所以,两个变量有强相关性,
故可用一元线性回归模型刻画变量与变量之间的线性相关关系.
(2)由(1),得,,
所以,
当时,亿元.
16.(2025高三·全国·专题练习)人们用大数据来描述和定义信息时代产生的海量数据,并利用这些数据处理事务和做出决策,某公司通过大数据收集到该公司销售的某电子产品1月至5月的销售量如下表.
月份 1 2 3 4 5
销售量(万件) 4.9 5.8 6.8 8.3 10.2
该公司为了预测未来几个月的销售量,建立了关于的回归模型:.
(1)根据所给数据与回归模型,求关于的回归方程(的值精确到0.1);
(2)已知该公司的月利润(单位:万元)与,的关系为,根据(1)的结果,问该公司哪一个月的月利润预报值最大?
【答案】(1)
(2)第9个月的月利润预报值最大.
【分析】(1)将非线性回归方程问题转化线性回归方程问题,根据最小二乘法求解即可.
(2)先求得的表达式,然后利用导数来求得最值问题.
【详解】(1)令,则,

,,
所以关于的回归方程为.
(2)由(1)知,

令(),
(),
令,得,单调递增,
令,得,单调递减,
令,得,
所以()在处取得极大值,也是最大值,
所以,
所以第9个月的月利润预报值最大.
17.(24-25高三上·重庆·阶段练习)小李和小张关注到习近平总书记今年4月在重庆考察时强调:“奋力打造新时代西部大开发重要战略支点、内陆开放综合枢纽”,于是决定大学毕业后回家乡重庆创业.他们投入5万元(包括购买设备、房租、生活费等)建立了一个直播间,帮助山区人民售卖农产品.在直播间里,他们利用所学知识谈天说地,跟粉丝互动,集聚了一定的人气,试播一段时间之后,正式带货.他们统计了第一周的带货数据如下:
第x天 1 2 3 4 5 6 7
销售额y(万元) 1.4 1.6 2.2 2.4 3 3.9 5.1
(1)求样本的相关系数(精确到0.01);
(2)用最小二乘法求出关于的回归方程(系数精确到0.01,并用精确后的的值计算的值),并预测第8天的销售额(预测结果精确到0.01).
附:①相关系数;
②回归方程中的斜率和截距的最小二乘估计公式分别为,;
③,,.
所以样本的相关系数约为0.96.
(2)因为,,
所以,
又,,
所以,
所以回归方程为,
当时,,
所以预测第8天的销售额为万元.
18.(24-25高三上·四川眉山·阶段练习)台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:令,数据经过初步处理得:
44 4.8 10 40.3 1.612 19.5 8.06
现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出关于的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少
(2)因为,
又由,,
得,
所以,即回归方程为.
当时,,
因此当年广告费为6(百万元)时,产品的销售量大概是13(百万辆).
19.(24-25高二上·四川眉山·期中)台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:

令,数据经过初步处理得:,,,,,,,现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润受年广告费和年研发经费影响外还受随机变量影响,设随机变量服从正态分布,且满足.在(2)的条件下,求该公司年净利润的最大值大于1000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量).
附:
①相关系数,回归直线中公式分别为,;
②参考数据:,,,.
【答案】(1)模型②的拟合程度更好
(2),13(百万辆)
(3)0.3
【分析】(1)分别求得模型①和②的相关系数,,然后比较得出结论;
(2)利用最小二乘法求解;
(3)由净利润为,求解.
【详解】(1)设模型①和②的相关系数分别为,,
由题意可得:,
,
所以,由相关系数的相关性质可得,模型②的拟合程度更好.
(2)因为,
又由,,
得,
所以,即回归方程为,
当时,,
因此当年广告费为6(百万元)时,产品的销售量大概是13(百万辆).
(3)净利润为,,
令,
所以,
可得在上为增函数,在上为减函数,
所以,
由题意得:,即,

即该公司年净利润大于1000(百万元)的概率为0.3.
21世纪教育网(www.21cnjy.com)第06讲 一元线性回归模型
课程标准 学习目标
1.理解散点图、线性相关、正相关、负相关的概念. 2.理解并掌握回归直线方程的概念和性质,会求线性相关的两个变量的回归直线方程. 3.理解并掌握相关系数的概念及性质,并能判断两个变量之间线性相关性的强弱. 4.了解非线性回归的相关概念. 1.通过对数据的分析、统计,培养数据分析等核心素养. 2.借助变量间相关关系的研究,提升数学抽象、数学运算等核心素养. 3.借助求回归直线方程和相关系数,培养学生数学建模、数据分析及数学运算等核心素养.
知识点01 变量的相关关系
1.两个变量的关系
(1)一类是两变量之间的关系具有确定性,当一个变量确定后,另一个变量就确定了.
(2)另一类是变量之间具有一定的关系,但没有达到可以相互决定的程度.它们之间的关系带有一定的随机性,这些两个变量之间的关系,在统计学上都称为相关关系.
【解读】相关关系与函数关系的异同:
关系 异同点 函数关系 相关关系
相同点 两者均是两个变量之间的关系
不同点 是一种确定性关系 是一种非确定性关系
是一种因果关系 不一定是因果关系,也可能是伴随关系
是一种理想的关系 是更为一般的情况
3.散点图
(1)概念:一般地,如果收集到了变量x和变量y的n对数据(简称为成对数据),如下表所示:
序号i 1 2 3 … n
变量x x1 x2 x3 … xn
变量y y1 y2 y3 … yn
则在平面直角坐标系xOy中描出点(xi,yi),i1,2,3,…,n,就可以得到这n对数据的散点图.
(2)作用:散点图展示了样本点散布的位置.根据散点图中点的分布趋势分析两个变量之间的关系,可直观地判断并得出结论.
【解读】
(1)散点图具有直观、简明的特点,我们可以根据散点图来判断两个变量有没有相关关系;
(2)通过散点图不但可以判断测量值的大小、变动范围与整体趋势,还可以通过观察剔除异常数值,提高估计相关程度的准确性;
(3)当所画的散点图的横坐标与纵坐标所对应的数据差距很大时,可在实际作图时,将横坐标与纵坐标取不同的单位长度,使画出的散点图形象、美观.
3.线性相关正相关、负相关
如果由变量的成对数据、散点图或直观经验可知,变量x与变量y之间的关系可以近似地用一次函数来刻画,则称x与y线性相关.此时,如果一个变量增大,另一个变量大体上也增大,则称这两个变量正相关;如果一个变量增大,另一个变量大体上减少,则称这两个变量负相关.
【即学即练1】)两个变量成正相关的是(  )
A.汽车的重量和汽车每消耗1升汽油所行驶的平均路程
B.平均日学习时间和平均学习成绩
C.某人每日吸烟量和其身体健康情况
D.汽车的重量和百公里耗油量
知识点02 回归直线方程
1.回归直线方程的概论
一般地,已知变量x与y的n对成对数据(xi,yi),i1,2,3,…,n.任意给定一个一次函数ybx+a,对每一个已知的xi,由直线方程可以得到一个估计值ibxi+a,如果一次函数x+能使(1-y1)2+(2-y2)2+…+(n-yn)2(yi-i)2取得最小值,则yx+称为y关于x的回归直线方程(对应的直线称为回归直线).
2.最小二乘法
上述求回归直线方程的过程中需使得平方和最小,所以其中涉及的方法称为最小二乘法.
可以证明,给定两个y与x的一组数据之后,回归直线方程x+总是存在的,而且
,=.
其中,称为回归系数.它实际上也就是回归直线方程的斜率.回归直线方程确定之后,就可用于预测.
需要注意的是,上述公式中,指的是x1,x2,x3,…,xn的平均数,即(x1+x2+…+xn);类似地,是y1,y2,y3,…,yn的平均数,即.
【解读】(1)回归直线一定过点(,);
(2)y与x正相关的充要条件是>0;y与x负相关的充要条件是<0;
(3)当x增大一个单位时,增大个单位,这就是回归系数的实际意义;
(4)回归直线方程中x的系数是,表示直线的斜率,注意与《选择性必修第一册》中的一次函数的关系式或直线方程yax+b进行区分.
【即学即练2】已知某车间加工零件的个数x与所花费时间y(h)之间的回归直线方程为0.01x+0.5,则加工800个零件大约需要(  )
A.6.5 h       B.5.5 h
C.3.5 h D.0.5 h
知识点03 相关系数
1.概念:注意到现实生活中的数据,由于度量对象和单位的不同等,数值会有大有小,为了去除这些因素的影响,统计学里一般用
来衡量y与x的线性相关性强弱,这里的r称为线性相关系数(简称为相关系数).
2.性质
(1)|r|≤1,且y与x正相关的充要条件是r>0,y与x负相关的充要条件是r<0.
(2)|r|越小,说明两个变量之间的线性相关性越弱,也就是得出的回归直线方程越没有价值,即方程越不能反映真实的情况;|r|越大,说明两个变量之间的线性相关性越强,也就是得出的回归直线方程越有价值.
(3)|r|1的充要条件是成对数据构成的点都在回归直线上.
(1)样本的相关系数r可以定量地反映出变量间的相关程度,明确给出有无必要建立两变量间的回归方程;
(2)|r|很小只是说明两个变量之间的线性相关程度弱,但不一定不相关.
3.相关系数与向量夹角的余弦
一般地,a(x1-,x2-,…,xn-),b(y1-,y2-,…,yn-)都称为n维向量,如果按照类似2维与3维的情况定义向量的内积和模,则相关系数r总是等于两个向量夹角的余弦,即rcos .
【即学即练3】若对甲、乙、丙3组不同的数据作线性相关性检验,得到这3组数据的线性相关系数依次为0.83,0.72,-0.90,则线性相关性最强的一组是____________(填甲、乙、丙中的一个).
知识点04 非线性回归分析
1.非线性回归分析的思想
研究两个变量的关系时,依据样本点画出散点图,从整体上看,如果样本点没有分布在某个带状区域内,就称这两个变量之间不具有线性相关关系,此时不能直接利用线性回归方程来建立两个变量之间的关系.
2.非线性回归方程
当回归方程不是形如ybx+a(a,b∈R)时,称回归方程为非线性回归方程.
当两个变量不是线性相关关系时,依据样本点的分布选择合适的曲线方程来拟合数据,可通过变量代换,利用线性回归模型建立两个变量间的非线性回归方程.
【即学即练4】某校一个课外学习小组为研究某作物种子的发芽率和温度(单位:)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据得到下面的散点图:

由此散点图,在10℃至35℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A. B. C. D.
题型01 变量间的相关关系及判断
【典例1】(多选)以下两个变量成正相关的是(  )
A.学生的学籍号与学生的数学成绩
B.坚持每天吃早餐的人数与患胃病的人数
C.气温与冷饮销售量
D.电瓶车的重量和行驶每千米的耗电量
【变式1】(24-25高三上·上海·开学考试)已知气候温度和海水表层温度相关,且相关系数为负数,对此描述正确的是( )
A.气候温度高,海水表层温度就高
B.气候温度高,海水表层温度就低
C.随着气候温度由低到高,海水表层温度呈上升趋势
D.随着气候温度由低到高,海水表层温度呈下降趋势
【变式2】(24-25高三上·上海·课后作业)已知变量X与Y相对应的一组数据为,,,,,变量U与V相对应的一组数据为,,,,.表示变量X与Y之间的线性相关系数,表示变量U与V之间的线性相关系数,则下列结论中正确的是( )
A. B. C. D.
【变式3】(23-24高二上·全国·课后作业)相关系数r是衡量两变量之间的线性相关程度的,对此有下列说法:①越接近于1,相关程度越大;②越接近于0,相关程度越小;③越接近于1,相关程度越小;④越接近于0,相关程度越大.其中正确的是( )
A.①② B.②④ C.②③ D.①④
题型02 求线性回归方程
【典例2】(22-23高二下·福建三明·期中)《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》,这是21世纪以来第18个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴.为助力乡村振兴,某电商平台为某地的农副特色产品开设直播带货专场.为了对该产品进行合理定价,用不同的单价在平台试销,得到如下数据:
单价(元/件) 8 8.2 8.4 8.6 8.8 9
销量(万件) 90 84 83 80 75 68
(1)根据以上数据,求关于的线性回归方程;
(2)若该产品成本是7元/件,假设该产品全部卖出,预测把单价定为多少时,工厂获得最大利润,最大利润是多少.
附:参考公式:回归方程,
其中,.
参考数据:,.
【变式1】某地区实行社会主义新农村建设后,农村的经济收入明显增加,根据统计得到从2015年至2021年农村居民家庭收入y(单位:万元)的数据,其数据如下表:
年份 2015 2016 2017 2018 2019 2020 2021
年份代号t 1 2 3 4 5 6 7
农村居民家庭收入y 3.9 4.3 4.6 5.4 5.8 6.2 6.9
附:回归直线的斜率和截距的最小二乘估计公式分别为,.
参考数据:,.
(1)求y关于t的线性回归方程;
(2)根据(1)中的回归方程,分析2015年至2021年该地区农村居民家庭收入的变化情况,并预测该地区2024年农村居民家庭收入.
【变式2】(22-23高二下·陕西西安·期中)基础学科招生改革试点,即强基计划,是教育部开展的招生改革工作,主要是为了选拔培养有志于服务国家重大战略需求且综合素质优秀或基础学科拔尖的学生.聚焦高端芯片与软件、智能科技、新材料、先进制造和国家安全等关键领域以及国家人才紧缺的人文社会科学领域.某校在一次强基计划模拟考试后,从全体考生中随机抽取52名,获取他们本次考试的数学成绩()和物理成绩(),绘制成如图散点图:根据散点图可以看出与之间有线性相关关系,但图中有两个异常点,.经调查得知,考生由于重感冒导致物理考试发挥失常,考生因故未能参加物理考试,为了使分析结果更科学准确,剔除这两组数据后,对剩下的数据作处理,得到一些统计的值:,,,,,其中,分别表示这70名考生的数学成绩、物理成绩,,与的相关系数.

(1)若不剔除,两名考生的数据,用52组数据作回归分析,设此时与的相关系数为.试判断与的大小关系(不必说明理由);
(2)求关于的线性回归方程(系数精确到0.01),并估计如果考生加了这次物理考试,物理成绩是多少?(精确到0.1)
【变式3】(2024上·江西新余·高二统考期末)某地政府为解除空巢老人日常护理和社会照料的困境,大力培育发展养老护理服务市场.从年开始新建社区养老机构,下表为该地区近年新建社区养老机构的数量对照表.
年份 2017 2018 2019 2020 2021 2022 2023
年份代码 1 2 3 4 5 6 7
新建社区养老机构
(1)若该地区参与社区养老的老人的年龄近似服从正态分布,其中年龄的有人,试估计该地参与社区养老的老人有多少?(结果按四舍五入取整数)
(2)已知变量与之间的样本相关系数,请求出关于的线性回归方程,并据此估计年时,该地区新建社区养老机构的数量.(结果按四舍五入取整数)
参考公式与数据:①,.;
②若随机变量,则,,;
③,.
题型03 回归直线方程的性质及应用
【典例3】1.(23-24高二下·福建宁德·阶段练习)已知变量和的统计数据如下表:
6 8 10 12
2 3 5 6
根据上表可得回归直线方程,据此可以预测当时,( )
A.7.8 B.6.5 C.9.6 D.8.2
【变式1】(23-24高二下·河南南阳·期中)某电脑公司有3名产品推销员,其工作年限与年推销金额数据如下表所示:
推销员编号 1 2 3
工作年限年 3 5 10
推销金额万元 2 3 4
由表中数据算出经验回归方程中的.若第4名推销员的工作年限为7年,则估计他的年推销金额为( )
A.3.08万元 B.3.14万元 C.3.21万元 D.3.27万元
【变式2】(24-25高二·江苏·假期作业)已知,的取值如下表所示,从散点图分析可知与线性相关,如果线性回归方程为,则实数的值为( )
2 3 4 5 6
6.5 10 11.5 18.5
A.13 B.13.5 C.14 D.14.5
【变式3】(23-24高二下·安徽安庆·期末)根据成对样本数据建立变量y关于x的经验回归方程为.若y的均值为6.2,则x的均值为( )
A.1.5 B.2 C.2.5 D.3
题型04 相关系数的计算及应用
【典例4】(24-25高三·上海·课堂例题)测得10对父子身高[单位:英寸(1英寸)如下:
父亲身高() 80 62 64 65 66 67 68 70 72 74
儿子身高() 63.6 65.2 66 65.5 66.9 67.1 67.4 68.3 70.1 70
(1)对变量与进行相关性检验;
(2)如果与之间具有相关关系,求回归直线方程;
(3)如果父亲身高为73英寸,试估计儿子的身高.
参考数据:,,,,,,.
【变式1】(23-24高二上·辽宁·期末)在一组样本数据、、、、、、、不全相等)的散点图中,若所有的样本点都在直线上,则这组样本数据的相关系数为( )
A. B. C. D.
【变式2】(24-25高三上·湖北随州·阶段练习)若已知是的4倍,是的1.5倍,则样本相关系数r的值为 .
【变式3】(24-25高三·上海·随堂练习)随着智能手机的普及,使用手机上网成为人们日常生活的一部分,很多消费者对手机流量的需求越来越大,某通信公司为了更好地满足消费者对流量的需求,准备推出一款流量包.该通信公司选了5个城市(总人数、经济发展情况、消费能力等方面比较接近)采用不同的定价方案作为试点,经过一个月的统计,发现该流量包的定价x(单位:元/月)和购买人数y(单位:万人)的关系如下表:
x 30 35 40 45 70
y 18 14 10 8 5
计算该流量包的定价x与购买人数y的相关系数 .(结果保留3位小数)
【变式4】(25-26高三上·上海·单元测试)当前,冷冻冷藏类技术发展迅速且应用广泛.某制冷技术重点实验室研究了不同果蔬在不同冻结速率下的冰点温度,以及低温环境对果蔬热物性的影响.设冻结速率为x(单位:分钟),冰点温度为y(单位:℃),如表为某种水果冰点温度随冻结速率变化的统计数据:
x 10 20 30 40 70
y -5 -4.5 -2 1 2
根据以上数据,绘制了散点图:
(1)由散点图可以看出,可用线性回归模型拟合y与x的关系,请用相关系数r加以说明;
(2)求y关于x的线性回归方程,并预测当冻结速率为80分钟时,这种水果的冰点温度.
题型05 非线性回归模型及应用
【典例5】为帮助乡村脱贫,某勘探队计划了解当地矿脉某金属的分布情况,测得了平均金属含量(单位:)与样本对原点的距离(单位:m)的数据,并作了初步处理,得到了下面的一些统计理的值.(表中,)
6 97.90 0.21 80 0.14 14.12 26.13
(1)利用样本相关系数的知识,判断与哪一个更适宜作为平均金属含量关于样本对原点的距离的回归方程类型?
(2)根据(1)的结果回答下列问题:
①建立关于的回归方程;
②样本对原点的距离时,金属含量的预报值是多少?
附:对于一组数据,其线性相关系数,其回归直线的斜率和截距的最小二乘估计分别为:,.
【变式1】(24-25·高三全国·专题)一座城市的夜间经济不仅有助于拉动本地居民内需,还能延长外地游客、商务办公者等的留存时间,带动当地经济发展,是衡量一座城市生活质量、消费水平、投资环境及文化发展活力的重要指标.数据显示,近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模保持稳定增长,下表为2017—2022年中国夜间经济的市场发展规模(单位:万亿元),设2017—2022年对应的年份代码依次为1~6.
年份代码x 1 2 3 4 5 6
中国夜间经济的市场发展规模y/万亿元 20.5 22.9 26.4 30.9 36.4 42.4
(1)已知可用函数模型拟合y与x的关系,请建立y关于x的回归方程(a,b的值精确到0.01);
(2)某传媒公司发布的2023年中国夜间经济城市发展指数排行榜前10名中,吸引力超过90分的有4个,从这10个城市中随机抽取5个,记吸引力超过90分的城市数量为X,求X的分布列与数学期望.
参考数据:
3.366 73.282 17.25 1.16
其中.
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘法估计分别为,.
【变式2】(2024·全国·模拟预测)一座城市的夜间经济不仅有助于拉动本地居民内需,还能延长外地游客、商务办公者等的留存时间,带动当地经济发展,是衡量一座城市生活质量、消费水平、投资环境及文化发展活力的重要指标.数据显示,近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模保持稳定增长,下表为2017—2022年中国夜间经济的市场发展规模(单位:万亿元),其中2017—2022年对应的年份代码依次为1~6.
年份代码 1 2 3 4 5 6
中国夜间经济的市场发展规模万亿元 20.5 22.9 26.4 30.9 36.4 42.4
(1)已知可用函数模型拟合与的关系,请建立关于的回归方程(的值精确到0.01);
(2)某传媒公司预测2023年中国夜间经济的市场规模将达到48.1万亿元,现用(1)中求得的回归方程预测2023年中国夜间经济的市场规模,若两个预测规模误差不超过1万亿元,则认为(1)中求得的回归方程是理想的,否则是不理想的,判断(1)中求得的回归方程是否理想.参考数据:
3.366 73.282 17.25 1.16 2.83
其中.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为.
一、单选题
1.(23-24高二下·甘肃兰州·期末)下列各关系不属于相关关系的是( )
A.产品的样本与生产数量 B.球的表面积与体积
C.家庭的支出与收入 D.人的年龄与体重
2.(23-24高二下·山西大同·期中)对两个变量进行线性相关性检验,得线性相关系数,对两个变量进行线性相关性检验,得线性相关系数,则下列判断正确的是( )
A.变量与变量正相关,变量与变量负相关,变量与变量的线性相关性更强
B.变量与变量负相关,变量与变量正相关,变量与变量的线性相关性更强
C.变量与变量负相关,变量与变量正相关,变量与变量的线性相关性更强
D.变量与变量正相关,变量与变量负相关,变量与变量的线性相关性更强
3.(23-24高二上·江苏常州·期末)用最小二乘法得到一组数据的线性回归方程为,若,则( )
A.11 B.13 C.63 D.78
4.(23-24高二下·黑龙江大庆·期中)某校课外学习小组研究某作物种子的发芽率和温度(单位:)的关系,由实验数据得到如图所示的散点图.由此散点图判断,最适宜作为发芽率和温度的回归方程类型的是( )
A. B.
C. D.
5.(24-25高二·江苏·假期作业)为创建良好的生态环境,某地大力发展新能源产业,近4年该地新能源产业生产总值情况如下表所示:
第年 1 2 3 4
生产总值百万元 32 52 73 95
已知变量与之间具有线性相关关系,设用最小二乘法建立的回归直线方程为,则利用该模型预测该地第六年的生产总值为( )
A.136.5 B.137.5 C.138.5 D.139.5
6.(24-25高二下·全国·课后作业)为考察两个变量,的相关性,搜集数据如表,则两个变量的线性相关程度( )
5 10 15 20 25
103 105 110 111 114
(参考数据:,,)
A.很强 B.很弱 C.无相关 D.不确定
7.(23-24高二下·江苏南京·阶段练习)为了研究关于的线性相关关系,收集了组样本数据(见下表):
若已求得一元线性回归方程为,则下列选项中正确的是( )
(其中相关系数)
A.
B.当时,的预测值为
C.样本数据的第40百分位数为
D.去掉样本点后,与的样本相关系数不会改变
8.(23-24高二下·福建漳州·阶段练习)2024海峡两岸各民族欢度“三月三”暨福籽同心爱中华·福建省第十一届“三月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据,其中,为第次入口人流量数据(单位:百人),由此得到关于的回归方程,,已知,根据回归方程(参考数据:,),可预测下午4点时入口游客的人流量为( )
A.9.6 B.11.0 C.11.4 D.12.0
二、多选题
9.(24-25高二下·全国·课后作业)/年月日,人社部官网发布全国各地区最低工资标准情况,从月最低工资标准来看,上海、深圳、北京位列前三.某学生为了研究居民收入与幸福指数的相关关系,查询到如下数据,后来发现其中一个数据记录有误,去掉该数据,则( )

A.样本相关系数变大 B.居民收入与幸福指数呈现负相关
C.样本相关系数 D.居民收入与幸福指数的线性相关程度变强
10.(24-25高三上·四川绵阳·阶段练习)某类汽车在今年1至5月的销量y(单位:千辆)如下表所示(其中2月份销量未知):
月份x 1 2 3 4 5
月销量y 2.4 m 4 5 5.5
若变量y与x之间存在线性相关关系,用最小二乘法估计建立的经验回归方程为,则下列说法正确的是( )
A.
B.残差绝对值最大为0.2
C.样本相关系数
D.当解释变量每增加1,响应变量增加0.85
11.(2024高二下·全国·专题练习)某骑行爱好者在专业人士指导下对近段时间骑行锻炼情况进行统计分析,统计每次骑行期间的身体综合指标评分与骑行用时(单位:小时)如下表:
身体综合指标评分 1 2 3 4 5
用时小时) 9.5 8.8 7.8 7 6.1
由上表数据得到的错误结论是( )
参考数据:,
参考公式:相关系数.
A.身体综合指标评分与骑行用时正相关
B.身体综合指标评分与骑行用时的相关程度较弱
C.身体综合指标评分与骑行用时的相关程度较强
D.身体综合指标评分与骑行用时的关系不适合用线性回归模型拟合
三、填空题
12.(24-25高三上·广东江门·阶段练习)已知,之间的一组数据:若与满足经验回归方程,则此曲线必过点 .
x
y
13.(23-24高二下·天津·期末)为了了解家庭月收入(单位:千元)与月储蓄(单位:千元)的关系,从某居民区随机抽取10个家庭,根据测量数据的散点图可以看出与之间具有线性相关关系,其回归直线方程为,若该居民区某家庭月收入为7千元,据此估计该家庭的月储蓄为 千元.
14.(18-19高二下·内蒙古巴彦淖尔·阶段练习)在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线的周围.令,求得线性回归方程为,则该模型的非线性回归方程为 .
四、解答题
15.(2025高三·全国·专题练习)2023年是全面贯彻落实党二十大精神的开局之年,也是实施“十四五”规划承上启下的关键之年,经济增长呈现稳中有进的可喜现象.2023年8月4日,贵州省工业和信息化厅召开推进贵州刺梨产业高质量发展专题会议,安排部署加快推进特色优势产业刺梨高质量发展工作,集中资源、力量打造“贵州刺梨”公共品牌.贵州省为做好刺梨产业的高质量发展,项目组统计了全省近5年刺梨产业综合总产值的各项数据如下:
年份,综合产值(单位:亿元)
年份 2018 2019 2020 2021 2022
年份代码 1 2 3 4 5
综合产值 23.1 37.0 62.1 111.6 170.8
(1)根据表格中的数据,可用一元线性回归模型刻画变量与变量之间的线性相关关系,请用相关系数加以说明(精确到0.01);
(2)求出关于的经验回归方程,并预测2023年底贵州省刺梨产业的综合总产值.
参考公式:
相关系数.回归方程中斜率和截距的最小二乘法估计公式分别为,;
参考数据:,,,,,.
16.(2025高三·全国·专题练习)人们用大数据来描述和定义信息时代产生的海量数据,并利用这些数据处理事务和做出决策,某公司通过大数据收集到该公司销售的某电子产品1月至5月的销售量如下表.
月份 1 2 3 4 5
销售量(万件) 4.9 5.8 6.8 8.3 10.2
该公司为了预测未来几个月的销售量,建立了关于的回归模型:.
(1)根据所给数据与回归模型,求关于的回归方程(的值精确到0.1);
(2)已知该公司的月利润(单位:万元)与,的关系为,根据(1)的结果,问该公司哪一个月的月利润预报值最大?
17.(24-25高三上·重庆·阶段练习)小李和小张关注到习近平总书记今年4月在重庆考察时强调:“奋力打造新时代西部大开发重要战略支点、内陆开放综合枢纽”,于是决定大学毕业后回家乡重庆创业.他们投入5万元(包括购买设备、房租、生活费等)建立了一个直播间,帮助山区人民售卖农产品.在直播间里,他们利用所学知识谈天说地,跟粉丝互动,集聚了一定的人气,试播一段时间之后,正式带货.他们统计了第一周的带货数据如下:
第x天 1 2 3 4 5 6 7
销售额y(万元) 1.4 1.6 2.2 2.4 3 3.9 5.1
(1)求样本的相关系数(精确到0.01);
(2)用最小二乘法求出关于的回归方程(系数精确到0.01,并用精确后的的值计算的值),并预测第8天的销售额(预测结果精确到0.01).
附:①相关系数;
②回归方程中的斜率和截距的最小二乘估计公式分别为,;
③,,.
18.(24-25高三上·四川眉山·阶段练习)台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:令,数据经过初步处理得:
44 4.8 10 40.3 1.612 19.5 8.06
现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出关于的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少
19.(24-25高二上·四川眉山·期中)台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:

令,数据经过初步处理得:,,,,,,,现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润受年广告费和年研发经费影响外还受随机变量影响,设随机变量服从正态分布,且满足.在(2)的条件下,求该公司年净利润的最大值大于1000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量).
附:
①相关系数,回归直线中公式分别为,;
②参考数据:,,,.
21世纪教育网(www.21cnjy.com)