专题12.6 成对数据的相关关系
1.变量的相关关系
⑴相关关系:两个变量有关系,但又没有确切到可由其中一个去精确地决定另一个的程度,这种关系称为相关关系.
注意:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.
⑵线性相关、非线性相关
①线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
②非线性相关:一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
⑶散点图
将样本中的个数据点描在平面直角坐标系中,所得图形叫做散点图.根据散点图中点的分布可以直观地判断两个变量之间的关系.
①如果散点图中的点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关,如图(1)所示;
②如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关关系,我们将它称为负相关,如图(2)所示.
①将收集到的两个变量的统计数据分别作为横、纵坐标,在直角坐标系中描点,这样得到的图叫作散点图;
②散点图具有直观简明的特点,可以根据散点图判断两个变量有没有相关关系.
⑷正相关、负相关
①正相关:从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;
②负相关:从整体上看,如果当一个变量的值增加时,另一个变量的相应值呈现减小的趋势,则称这两个变量负相关.
2.样本相关系数
⑴相关系数的计算
变量与变量的样本相关系数的计算公式如下:.
⑵相关系数的性质
①当时,称成对样本数据正相关;
当时,称成对样本数据负相关;
当时,成对样本数据间没有线性相关关系.
②样本相关系数的取值范围为,当越接近1时,成对样本数据的线性相关程度越强;当越接近0时,成对样本数据的线性相关程度越弱.
3.一元线性回归模型
⑴经验回归方程
我们将称为关于的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,其中
.
⑵利用决定系数刻画回归效果
,越大,即拟合效果越好,越小,模型拟合效果越差.
⑶一元线性回归模型参数的最小二乘估计
①经验回归方程:如果散点图中点的分布从整体上大致在一条直线附近,就称这两个变量之间具有线性相关关系,我们把这条直线称为经验回归直线(回归直线),借助最小二乘法得到的直线方程称为经验回归方程(线性回归方程).
②经验回归方程的性质
i.经验回归直线一定过点 ;
ii.与正相关的充要条件是的;与负相关的充要条件是;
iii.当增大一个单位时,增大个单位,这就是回归系数的实际意义.
4.列联表与独立性检验
(1)2×2列联表
如图,给出成对分类变量数据的交叉分类频数的数据统计表称为2×2列联表.
合计
合计
(2)独立性检验
①依据上述2×2列联表构造统计量,
忽略的实际分布与该近似分布的误差后,对于任何小概率值,可以找到相应的正实数,
使得成立.我们称为的临界值,这个临界值就可作为判断大小的标准.
②基于小概率值的检验规则是:
当时,我们就推断不成立,即认为和不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断不成立 ,可以认为和独立.
这种利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验.
下表给出了独立性检验中几个常用的小概率值和相应的临界值
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
【重要结论】
1.线性回归直线一定经过样本点的中心,据此性质可以解决有关的计算问题、判断结论的正确性.
2.根据回归方程计算的值,仅是一个预报值,不是真实发生的值.
3.根据的值可以判断两个分类变量有关的可信程度,若越大,则两分类变量有关的把握越大.
1.【人教A版选择性必修三 习题8.2 第1题 P120】如果发现散点图中所有的样本点都落在一条斜率为非实数的直线上,则下列说法错误的是( )
A. 解释变量和预报变量是一次函数关系 B. 决定系数
C. 残差平方和为 D. 相关系数
2.【人教A版选择性必修一 习题8.3 第5题 P135】为了研究高三年级学生的性别和身高是否大于的关联性,同学甲调查了某中学高三年级所有学生,整理得到列联表,同学乙从该校高三学生中获取容量为的有放回简单随机样本,由样本数据整理得到列联表.
表单位:人
性别 身高 合计
女
男
合计
表单位:人
性别 身高 合计
女
男
合计
Ⅰ利用表,通过比较不低于的学生在女生和男生中的比率,判断该中学高三年级学生的性别和身高是否有关联,如果有关联,请解释它们之间如何相互影响;
Ⅱ利用表,依据的独立性检验,推断该中学高三年级学生的性别和身高是否有关联,并解释所得结论的实际含义:
Ⅲ以上两种方法得出的结论是否一致?如果不一致,你认为哪种方法得出的结论准确,原因是什么?
【方法储备】
判断数据相关关系的方法:
1.散点图:如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.如果所有的样本点都落在某一函数曲线的附近, 变量之间就有相关关系.
2.样本相关系数法:若的值越接近于1,说明变量之间的线性相关程度越高;当时,称成对样本数据正相关;当时,称成对样本数据负相关.
3.经验回归方程法:在经验回归方程中,当时,正相关;当时,负相关.
【典例精讲】
例1.(2023·天津市真题) 调查某种群花萼长度和花瓣长度,所得数据如图所示,其中相关系数,下列说法正确的是( )
A. 花瓣长度和花萼长度没有相关性
B. 花瓣长度和花萼长度呈现负相关
C. 花瓣长度和花萼长度呈现正相关
D. 若从样本中抽取一部分,则这部分的相关系数一定是
例2.(2023·浙江省温州市月考) 中国茶文化博大精深,茶水的口感与茶叶类型和水的温度有关为了建立茶水温度随时间变化的函数模型,小明每隔分钟测量一次茶水温度,得到若干组数据,,,,绘制了如图所示的散点图小明选择了如下个函数模型来拟合茶水温度随时间的变化情况,函数模型一:函数模型二:,下列说法正确的是( )
①变量与具有负的相关关系
②由于水温开始降得快,后面降得慢,最后趋于平缓,因此模型二能更好的拟合茶水温度随时间的变化情况
③若选择函数模型二,利用最小二乘法求得到的图象一定经过点
④当时,通过函数模型二计算得,用温度计测得实际茶水温度为,则残差为
A.②③④ B. ①②④ C. ①③④ D. ①②③
【拓展提升】
练1-1(2023·广东省揭阳市月考) 在由一组样本数据,,,不全相等的点所构成的散点图中,若所有样本点都在直线上,则这组样本数据中变量,的相关系数为( )
A. B. C. D.
练1-2(2023·浙江省宁波市模拟)(多选) 根据某地月日到月日的每天最高气温与最低气温数据单位:绘制如下折线图,那么下列叙述正确的是( )
A. 号到号的最低气温与日期之间呈线性相关关系且为正相关
B. 号的最高气温与最低气温的差值最大
C. 最高气温的众数为
D. 号到号的最低气温的极差比最高气温的极差大
【方法储备】
1.求线性回归万程的步骤:
⑴利用散点图或进行相关性检验判定两个变量具有线性相关关系;
⑵列表求出,;
⑶利用相应公式计算;
⑷写出线性回归方程.
⑸经验回归方程的拟合效果,可以利用相关系数判断,当越趋近于1时,两变量的线性相关性越强.或利用决定系数判断,越大,拟合效果越好.
2.利用回归方程可以进行预测和估计总体,回归方程将部分观测值所反映的规律进行延伸,是我们对有线性相关关系的两个变量进行分析和控制、依据自变量的取值估计和预报因变量值的基础和依据.
3.非线性经验回归方程转化为线性经验回归方程的方法
如:①若,设,则;②若满足对数式:,设,则;③若满足指数式:,两边取对数解,设,则.
【典例精讲】
例3.(2023·湖南省长沙市模拟) 若需要刻画预报变量和解释变量的相关关系,且从已知数据中知道预报变量随着解释变量的增大而减小,并且随着解释变量的增大,预报变量大致趋于一个确定的值,为拟合和之间的关系,应使用以下回归方程中的为自然对数的底数( )
A. B. C. D.
例4. (2023·江苏省无锡市月考) 新能源汽车作为战略性新兴产业,代表汽车产业的发展方向.发展新能源汽车,对改善能源消费结构、减少空气污染、推动汽车产业和交通运输行业转型升级具有积极意义.经过十多年的精心培育,我国新能源汽车产业取得了显著成绩,产销量连续四年全球第一,保有量居全球首位.
已知某公司生产的新能源汽车电池的使用寿命单位:万公里服从正态分布,问:该公司每月生产的万块电池中,大约有多少块电池的使用寿命可以超过万公里?
参考数据:若随机变量,则,,.
下表给出了我国年新能源汽车保有量单位:万辆的数据.
年份
年份代码
新能源汽车保有量
经计算,变量与的样本相关系数,变量与的样本相关系数.
①试判断与哪一个更适合作为与之间的回归方程模型?
②根据①的判断结果,求出关于的回归方程精确到,并预测年我国新能源汽车保有量.
参考数据:令,计算得,,,.
参考公式:在回归方程中,,.
【拓展提升】
练2-1(2023·江西省南昌市模拟)(多选) 某同学用搜集到的六组数据绘制了如下散点图,在这六个点中去掉点后重新进行回归分析,则下列说法正确的是 ( )
A. 残差平方和变小 B. 相关系数的绝对值越趋于
C. 决定系数变小 D. 解释变量与预报变量相关性变弱
练2-2(2023·黑龙江省哈尔滨市模拟) 碳中和是指国家、企业、产品、活动或个人在一定时间内直接或间接产生的二氧化碳或温室气体排放总量,通过植树造林、节能减排等形式,以抵消自身产生的二氧化碳或温室气体排放量,实现正负抵消,达到相对“零排放,”年月日,中国政府在第七十五届联合国大会上提出:“中国将提高国家自主贡献力度,采取更加有力的政策和措施,二氧化碳排放力争于年前达到峰值,努力争取年前实现碳中和.”某工厂响应国家号召,随着对工业废气进行处理新技术不断升级,最近半年二氧化碳排放量逐月递减,具体数据如下表:
月份序号
碳排放量吨
并计算得,,,,.
这个月中,任取个月,求已知其中个月的碳排放量低于个月碳排放量的平均值的条件下,另个月碳排放量高于个月碳排放量的平均值的概率;
若用函数模型对两个变量月份与排放量进行拟合,根据表中数据,求出关于的回归方程.
附:对于同一组数据,,,,其回归直线的斜率和截距的最小二乘估计公式分别为:
,
【方法储备】
独立性检验的一般步骤:
(1)独立性检验原理只能解决两个对象, 且每个对象有两类属性的问题, 所以对于一个实际问题,我们首先要确定能否用独立性检验的思想加以解决;
(2)如果确实属于这类问题,要科学地抽取样本,样本容量要适当,不可太小;
(3)根据数据列出22列联表;
(4)提出假设:所研究的两类对象无关;
(5)根据公式计算的值;
(6)比较与临界值,根据小概率原理肯定或者否定假设,即判断是否相关.
【典例精讲】
例5.(2023·湖南省长沙市期末) 根据分类变量与的成对样本数据,计算得到依据的独立性检验,结论为( )
A. 变量与不独立
B. 变量与不独立,这个结论犯错误的概率不超过
C. 变量与独立
D. 变量与独立,这个结论犯错误的概率不超过
例6.(2022·湖南省长沙市期中) 新能源汽车是指除汽油、柴油发动机之外的所有其他能源汽车,被认为能减少空气污染和缓解能源短缺的压力在当今提倡全球环保的前提下,新能源汽车越来越受到消费者的青睐,新能源汽车产业也必将成为未来汽车产业发展的导向与目标某机构从某地区抽取了名近期购买新能源汽车的车主,调查他们的年龄情况,其中购买甲车型的有人,统计得到如下的频率分布直方图.
将年龄不低于岁的人称为中年,低于岁的人称为青年,购买其他车型的车主青年人数与中年人数之比为 完成下列列联表,依据 的独立性检验,能否认为购买甲车型新能源汽车与年龄有关?
青年 中年 合计
甲车型
其他车型
合计
用分层抽样的方法从购买甲车型的样本中抽取人,再从中随机抽取人,记青年有人,求的分布列和数学期望.
附:.
【拓展提升】
练3-1(2023·陕西省西安市模拟)(多选) 已知某学校高二年级男生人数是女生人数的倍,该年级全部男、女学生是否喜欢徒步运动的等高堆积条形图如下,下列说法正确的是( )
A. 参加调查的学生中喜欢徒步的男生比喜欢徒步的女生多
B. 参加调查的学生中不喜欢徒步的男生比不喜欢徒步的女生少
C. 若参加调查的学生总人数为,则能根据小概率的独立性检验,推断喜欢徒步和性别有关
D. 无论参加调查的学生总人数为多少,都能根据小概率的独立性检验,推断喜欢徒步和性别有关.
练3-2(2023·安徽省合肥市联考) 针对“中学生追星问题”,某校团委正在对“性别与中学生追星是否有关”做相关研究现从本校随机抽取名学生进行调查,得到下表:
是否追星 性别 合计
男生 女生
追星
不追星
合计
请将上述列联表补充完整,并依据的独立性检验,能否认为性别与中学生追星有关联
根据是否追星,在样本的女生中,按照分层抽样的方法抽取人作为研究小组为了更详细地了解情况,再从研究小组中随机抽取人,求抽到追星人数的分布列及数学期望.
参考公式:,
下表给出了独立性检验中几个常用的小概率值和相应的临界值.
1.(2023·浙江省杭州市联考) 足球是一项大众喜爱的运动,为了解喜爱足球是否与性别有关,随机抽取了若干人进行调查,抽取女性人数是男性的倍,男性喜爱足球的人数占男性人数的,女性喜爱足球的人数占女性人数的,若本次调查得出“在犯错误的概率不超过的前提下认为喜爱足球与性别有关”的结论,则被调查的男性至少有人 ( )
A. B. C. D.
2.(2023·重庆市市辖区模拟) 已知变量关于的回归方程为,若对两边取自然对数,可以发现与线性相关,现有一组数据如下表所示:
则当时,预测的值为( )
A. B. C. D.
3.(2023·湖北省荆州市月考)技术对社会和国家十分重要.从战略地位来看,业界一般将其定义为继蒸汽机革命、电气革命和计算机革命后的第四次工业革命.某科技集团生产,两种通信基站核心部件,下表统计了该科技集团近几年来在部件上的研发投入亿元与收益亿元的数据,结果如下:
研发投入亿元
收益亿元
利用相关系数说明是否可以用线性回归模型拟合与的关系当时,可以认为两个变量有很强的线性相关性;
求出关于的线性回归方程,并利用该方程回答下列问题:
若要使生产部件的收益不低于亿元,估计至少需要投入多少研发资金?精确到亿元
该科技集团计划用亿元对,两种部件进行投资,对部件投资亿元所获得的收益近似满足,则该科技集团针对,两种部件各应投入多少研发资金,能使所获得的总收益最大.
附:相关系数,回归直线方程的斜率,截距.
【答案解析】
1.【人教A版选择性必修三 习题8.2 第1题 P120】
解:因为样本点都落在一条斜率为非实数的直线上,所以相关系数满足,若直线的斜率为正,则;若斜率为负,则,故D错误;
直线对应的函数为一次函数,所以解释变量和预报变量是一次函数关系,故A正确;
决定系数和残差平方和都能反映模型的拟合程度,所以决定系数,残差的平方和为,故B,C正确.
故本题选D.
2.【人教A版选择性必修一 习题8.3 第5题 P135】
解:Ⅰ女学生身高低于,不低于的频率分别为,,
男学生身高低于,不低于的频率分别为,
通过比较发现,如果从女生、男生中各随机选取一名学生,女生中身高低于的概率大于男生中身高低于的概率,
故高三年级学生的性别和身高有关联,
又,
故女生中身高低于的频率是男生中身高低于的频率的倍以上,
所以女生身高更容易低于;
Ⅱ因为,
所以依据的独立性检验,没有的把握认为该中学高三年级学生的性别与身高有关系;
Ⅲ不一致,第一种准确,第二种样本容量太少,随机性太大.
例1.解:根据散点的集中程度可知,花瓣长度和花萼长度有相关性,选项错误
散点的分布是从左下到右上,从而花瓣长度和花萼长度呈现正相关性,选项错误,选项正确;
由于是全部数据的相关系数,取出来一部分数据,相关性可能变强,可能变弱,
即取出的数据的相关系数不一定是,选项错误.
故选:
例2.解:观察散点图,变量与具有负的相关关系,①正确,易得②正确,
若选择函数模型二,
利用最小二乘法求出的回归方程一定经过,③错误
残差真实值预测值,因此残差为,④正确.
其中说法正确的是①②④.
故选B.
练1-1.解:直线的斜率,
且若所有本点都在直线上,
说明这组数据的样本完全负相关,则相关系数达到最小值.
故选:.
练1-2. 解:由某地月日到月日的每天最高气温与最低气温单位:数据,折线图,知:
在中,号到号的最低气温与日期之间,在一条直线附近,成上升趋势,即呈线性相关关系且为正相关,故A正确;
在中,由图知,号的最高气温与最低气温的差值最大,故B错误;
在中,最高气温出现次,次数最多,则众数为,故C正确;
在中,号到号的最低气温的极差小于,最高气温的极差为,故最高气温的极差大,故D错误
故选:.
例3.解:对于:因为 在定义域内单调递增且 ,所以 随着 的增大而增大,不合题意,故A错误;
对于:因为 在定义域内单调递增且 ,所以 随着 的增大而减小,
当解释变量 , ,不合题意,故B错误;
对于:因为 在定义域内单调递增且 ,所以 随着 的增大而减小,
当解释变量 , ,不合题意,故C错误;
对于:因为 在定义域内单调递减且 ,所以 随着 的增大而减小,
当解释变量 , ,故D正确;
故选:.
例4.解:因为新能源汽车电池的使用寿命,
所以,
所以块,
则每月生产的万块电池中,使用寿命超过万公里的大约有块;
①因为,
所以更适合作为与之间的回归方程模型;
②因为,
则,
,
所以,
当时,万辆,
则年我国新能源汽车保有量约为万辆.
练2-1.解:由题图,去掉点后,回归效果更好,
则残差平方和变小,故A正确;
相关系数的绝对值越趋于,故B正确;
决定系数变大,故C错误;
解释变量与预报变量相关性增强,故D错误.
故选AB.
练2-2.解:设“个月的碳排放低于个月排放的平均值”,
“个月的碳排放高于个月排放的平均值”,
则.
,
则,
,
所以回归方程为:.
例5.解:时,,则大于时相关,不独立,
而,所以变量与独立,
但是这个结论犯错误的概率超过,故A,,D错误,C正确.
故选C.
例6.解:由直方图可知,购买甲车型的青年人数为 人,中年人数为 人,
购买其他车型的青年人数为 人,中年人数为 人,
可得 列联表:
青年 中年 合计
甲车型
其他车型
合计
零假设购买甲车型新能源汽车与年龄无关.
因为 ,
根据小概率值的独立性检验,我们推断不成立,即认为购买甲车型新能源汽车与年龄有关,此推断犯错误的概率不大于.
用分层抽样的方法从购买甲车型的样本中抽取人,则青年有 人,中年有 人,所以的可能取值为,,,.
, ,
, ,
得分布列:
所以 .
练3-1.解:设高二年级总人数为,则根据等高堆积条形图可得:
喜欢 不喜欢 合计
男生
女生
合计
对于:参加调查的学生中喜欢徒步的男生人数为,喜欢徒步的女生人数为,所以A正确;
对于 参加调查的学生中不喜欢徒步的男生与不喜欢徒步的女生人数均为,所以B错误;
对于与:
当时,,所以能根据小概率的独立性检验,推断喜欢徒步和性别有关
当总人数时,即不能根据小概率的独立性检验,
推断喜欢徒步和性别有关,故C正确,D错误.
故选AC.
练3-2.解:列联表补充为
是否追星 性别 合计
男生 女生
追星
不追星
合计
零假设性别与中学生追星无关联,
,
依据小概率值的独立性检验,我们推断不成立,即认为性别与中学生追星有关联,
此推断犯错误的概率不大于.
由题意知,人中追星的有人,不追星的有人.
由题意可知,的可能取值为,,,,,
,,
,,
,
的分布列为
.
1.解:设抽取的男生人数为,则抽取的女生人数为,列联表如下:
喜欢足球 不喜欢足球 总计
男生
女生
总计
则 ,
因为人数为整数,所以男生至少人.
故选C.
2.解:,,
令,
列表格如下,
故,,
故,故,
故当时,,故.
故选C.
3.解:由题知,,,,,
,
可以用线性回归模型拟合与的关系.
,.关于的线性回归方程为.
令,得,解得,
若要使生产部件的收益不低于亿元,估计至少需要投入亿元研发资金.
设部件的研发投入为亿元,则部件的研发投入为亿元,
总收益,
,
令得,
当时,,单调递增,
当时,,单调递减,
所以当时,取得最大值亿元.
所以该科技集团在,两种部件上分别投入亿元,亿元的研发资金,可使所获得的总收益最大.
共19页/第19页