(共61张PPT)
第八章 成对数据的统计分析
8.1 成对数据的统计相关性
图解课标要点
教材帮 新知课丨必备知识解读
知识点1 变量间的相关关系
1 相关关系的定义
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,
这种关系称为相关关系.
2 相关关系与函数关系辨析
两个变量之间的关系分为函数关系和相关关系.#1
分类 函数关系 相关关系
特征 变量之间的关系具有确定 性,当一个变量确定后, 另一个变量就确定了. 变量之间确实有一定的关系,但没有达到可以互
相决定的程度,它们之间的关系带有一定的随机
性.
区别 是确定性关系,还是因果 关系.例如,圆的半径由1 增大到2,其面积必然由 增大到 . 是一种不确定性关系.例如,吸烟不一定患肺癌,
但吸烟多的人患肺癌的风险会大幅度增加.相关关
系不一定是因果关系,也可能是伴随关系.
分类 函数关系 相关关系
联系 函数关系是一种理想的关系模型,而相关关系是一种更为一般的情况.二者 在一定条件下可以相互转化,对于具有线性相关关系的两个变量来说,当求 得其经验回归方程节讲具体求法 后,可以用一种确定性的关系对这两个 变量间的取值进行评估. 续表
学思用·典例详解
例1-1 [多选题]下列关系中,属于相关关系的是( )
BD
A.正方形的边长与面积之间的关系
B.农作物的产量与施肥量之间的关系
C.出租车打车费与行驶的里程
D.降雪量与交通事故的发生率之间的关系
【解析】在A中,正方形的边长与面积之间的关系是函数关系;在B中,农作物的产
量与施肥量之间不具有严格的函数关系,但具有相关关系;C为确定的函数关系;在
D中,降雪量与交通事故的发生率之间具有相关关系.
点评 对于两个变量之间的相关关系的判断,有以下两种方法:
(1)可以根据生活、学习经验进行相应的判断,因为“经验之中有规律”;
(2)根据两个变量相应值的对应关系进行判断.
知识点2 散点图
1 散点图的概念
在讨论两个变量, 之间的关系时,常将成对数据用点的形
式表示为 ,我们称这样的点为样本点.
将个样本点 描在平面直角坐标系中,所得的图形叫做散点图.
2 画散点图的步骤
(1)建立平面直角坐标系,两轴的单位长度可以不一致;
(2)将个样本点 描在平面直角坐标系中.
3 散点图的作用(从图形上直观地判断两个变量间的相关程度)
如果散点图中变量的对应点分布在某条曲线的周围,我们就可以得出结论:这
两个变量具有相关性,如图8.1-1(1)(2).如果变量的对应点分布没有规律,我们
就可以得出结论:这两个变量不具有相关性,如图8.1-1(3).
图8.1-1
. .
4 正相关、负相关的概念
正相关 负相关
概 念 当一个变量的值增加时,另一个变量的 相应值也呈现增加的趋势,我们就称这 两个变量正相关 当一个变量的值增加时,另一个变量
的相应值呈现减小的趋势,则称这两
个变量负相关
图 示 _________________________________________ 点散布在从左下角到右上角的区域内 _________________________________________
点散布在从左上角到右下角的区域内
5 线性相关与非线性相关(曲线相关)
线性相关 一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一
条直线附近,我们就称这两个变量线性相关.(如图8.1-1(1))
非线性相关 (曲线相 关) 一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称
这两个变量非线性相关或曲线相关.(如图8.1-1(2))
学思用·典例详解
图8.1-2
例2-2 [教材改编P138 T1][多选题]某中学的兴趣小
组在某座山测得了海拔、气压和沸点的若干个数据,并
绘制成如图8.1-2(1)(2)所示的散点图,则下列说
法正确的是( )
BCD
A.沸点与海拔正相关 B.沸点与气压正相关
C.沸点与海拔负相关 D.沸点与海拔、沸点与气压都线性相关
【解析】由图8.1-2(1)知气压随海拔的增加而减小,由图8.1-2(2)知沸点随气压
的升高而升高,所以沸点与气压正相关,沸点与海拔负相关,由图8.1-2易得两个散
点图中的点都落在一条直线附近,所以沸点与海拔、沸点与气压都线性相关,故B,
C,D正确,A错误.
例2-3 [教材改编P95 T2](2025·天津市实验中学期中)在下列所示的四个图中,两个
变量间具有较强线性相关关系的是( )
B
A. B. C. D.
【解析】对于A,散点落在某条曲线上,两个变量具有函数关系;
对于B,散点落在某条直线附近,这两个变量具有线性相关关系;
对于C,散点落在某条曲线附近,这两个变量具有非线性相关关系;
对于D,散点杂乱无章,无规律可言,这两个变量之间无相关关系.
知识点3 样本相关系数
1 样本相关系数(从数值上来判断两个变量间的线性相关程度,比散点图更
精确)计算公式
样本相关系数 的计算公式为
.(做题时,一般题目中会直接给
出计算公式,可根据题目中给出的数据选择适合的公式求解)
. .
. .
等价变形证明:
#2.3
.#2.5
2 样本相关系数与相关程度
的大小可以反映成对样本数据之间线性相关的程度, .
当 时,称成对样本数据正相关;
当 时,称成对样本数据负相关.
当 越接近1时,成对样本数据的线性相关程度越强;
当 越接近0时,成对样本数据的线性相关程度越弱.
当 时,表明成对样本数据都落在一条直线上;
当 时,只表明成对样本数据间没有线性相关关系,但不排除它们之间有其他
相关关系.
. .
学思用·典例详解
例3-4 (2025·天津市第二十中学调研)
两个变量,的样本相关系数,两个变量, 的样本相关系数
,则下列判断正确的是( )
C
A.变量与正相关,变量与负相关,变量与 的线性相关性更强
B.变量与负相关,变量与正相关,变量与 的线性相关性更强
C.变量与正相关,变量与负相关,变量与 的线性相关性更强
D.变量与负相关,变量与正相关,变量与 的线性相关性更强
【解析】由知与 正相关,
由知与 负相关.
又,所以变量与的线性相关性比与 的线性相关性强.
例3-5 (2025·黑龙江省伊春市第一中学期中)在一组样本数据,, ,
,,, ,不全相等 的散点图中,若所有样本点
都在直线 上,则这组样本数据的样本相关系数为
( )
D
A. B.0 C. D.1
【解析】由题设知,这组样本数据完全正相关,也就是具有函数关系,其样本相关
系数为1.
方法帮 解题课丨关键能力构建
题型1 相关关系的判断
例6 [教材改编P101例2]两对变量和,和 的取值分别对应表1和表2,画出散点
图,分别判断它们是否具有相关关系.若具有相关关系,说出它们相关关系的区别.
表1
26 18 13 10 4
20 24 34 38 50 64
表2
0 5 10 15
541.67 608.66 672.09 704.99
20 25 30 35
806.71 902.59 945.42
【解析】散点图分别如图8.1-3(1)和图8.1-3(2).
图8.1-3
从图中可以看出两图中的点各自分布在一条直线附近,因此两对变量都具有相关关系.
图8.1-3(1)中,当的值由小变大时,的值由大变小,故和 负相关;
图8.1-3(2)中,当的值由小变大时,的值也是由小变大,故和 正相关.
例7 (2025·黑龙江省哈师大附中期中)对四组不同数据进行统计,获得图8.1-4所示的散
点图,对它们的样本相关系数进行比较,正确的是( )
A
图8.1-4
A.
B.
C.
D.
【解析】由给出的四组数据的散点图可以看出,图①和图③中的成对数据是正相关
的,样本相关系数大于0,图②和图④中的成对数据是负相关的,样本相关系数小于
0,图①和图②中的点相对更加集中于一条直线附近,所以相关性更强,所以 接近
于1,接近于,由此可得 .
判断相关关系的两种方法
(1)散点图法:如果样本点大致落在某一函数图象的附近,变量之间就有相关关系.如
果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.
(2)样本相关系数法:利用样本相关系数判定,当 越趋近1时,相关性越强.
通过散点图可以从直观上判断成对样本数据的相关性,而样本相关系数是从数值上
来判断的,是定量分析法,比散点图要精细得多,但求解时比较麻烦.
【学会了吗丨变式题】
1.(2025·黑龙江省哈尔滨市第六中学校模拟)对两组数据进行统计后得到如图8.1-5所
示的散点图,下列结论不正确的是( )
C
图8.1-5
A.图(1)、图(2)两组数据都具有线性相关关系
B.图(1)数据正相关,图(2)数据负相关
C.图(1)样本相关系数 小于图(2)样本相关系
数
D.图(1)样本相关系数 和图(2)样本相关系数
之和小于0
【解析】对于A,因为散点图都呈直线型,所以图(1)、图(2)两组数据都具有
线性相关关系,A正确;
对于B,图(1)中散点从左至右呈上升趋势,所以数据正相关,图(2)中散点从左
至右呈下降趋势,所以数据负相关,故B正确;
对于C,图(1)正相关,图(2)负相关,所以,,即 ,所以C不
正确;
对于D,因为图(2)相关程度更强,,所以,即 ,所以
D正确.故选C.
题型2 样本相关系数的求解及其应用
例8 (2025·甘肃省武威第一中学期末)某沙漠地区经过治理,生态系统得到很大改善,
野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的
200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本
数据,其中和分别表示第 个样区的植物覆盖面积
(单位:公顷)和这种野生动物的数量,并计算得, ,
,, .
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这
种野生动物数量的平均数乘以地块数);
【解析】由已知得样本平均数 ,
从而该地区这种野生动物数量的估计值为 .
(2)求的样本相关系数(精确到 );
【解析】 的样本相关系数
.(一般情况下,题干都会将计算公
式及中间数据给出,将数据准确代入即可得出结果)
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以
获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,
并说明理由.
【解析】分层随机抽样:先根据植物覆盖面积的大小对200个地块进行分层,接着在
各层中按层在200个地块中所占比例进行随机抽样.
理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关关
系.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很
大,采用分层随机抽样的方法较好地保持了样本结构与总体结构的一致性,提高了
样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.(理由说明合
理即可)
【学会了吗丨变式题】
2.(2025·湖南省宁远县第一中学期末)为了监控某种零件的一条生产线的生产过程,
检验员每隔从该生产线上随机抽取一个零件,并测量其尺寸(单位: ).下
面是检验员在一天内依次抽取的16个零件的尺寸:
抽取次序 1 2 3 4 5 6 7 8
零件尺寸 9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04
抽取次序 9 10 11 12 13 14 15 16
零件尺寸 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95
经计算得, ,
,其中为抽取的第 个零件的
尺寸,,2, ,16.
(1)求的样本相关系数 ,并回答是否可以认为这一天生产的
零件尺寸不随生产过程的进行而系统地变大或变小(若 ,则可以认为零件
的尺寸不随生产过程的进行而系统地变大或变小).
【答案】由数据得 的样本相关系数为
.
由于 ,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地
变大或变小.
(2)一天内抽检零件中,如果出现了尺寸在 之外的零件,就认为这
条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?
【答案】由于,,, ,即
,由样本数据可以看出抽取的第13个零件的尺寸
为,在 以外,因此需对当天的生产过程进行检查.
(ⅱ)在 之外的数据称为离群值,试剔除离群值,估计这条生产线当
天生产的零件尺寸的均值与标准差.(精确到 )
【答案】剔除离群值,即第13个数据,
剩下数据的平均数为 ,
这条生产线当天生产的零件尺寸的均值为 ,
,
剔除第13个数据,剩下数据的样本方差为
,
这条生产线当天生产的零件尺寸的标准差为 .
高考帮 考试课丨核心素养聚焦
考情揭秘
高考对样本相关系数的考查主要有两方面,一是在选择题中,根据散点图判断样本
相关系数的正负与大小,难度较小;二是在解答题中,提炼相关数据,代入公式求
样本相关系数值,难度中等.
核心素养:逻辑推理(相关关系的判断)、数学运算(样本相关系数的计算)、数
据分析(从已知条件中提炼数据).
考向1相关关系的判断
例9 (2025·天津)已知 为样本相关系数,则下列说法中错误的是( )
B
A.若,则
B.若,,则
C. 越接近1,线性相关性越强
D. 越接近0,线性相关性越弱
【解析】对于A,由正态曲线的对称性可知 ,故A正确.
若,,则,(正态曲线关于
对称)故B错误.
样本相关系数的绝对值大小可以反映成对样本数据之间线性相关的程度,当 越接
近1时,成对样本数据的线性相关程度越强;当 越接近0时,成对样本数据的线性
相关程度越弱,故C,D正确.
考向2 样本相关系数的求解
例10 (2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估
计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面
积(单位:)和材积量(单位: ),得到如下数据:
样本号 1 2 3 4 5 6 7 8 9 10 总和
根部横截面积 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
并计算得
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
【解析】估计该林区这种树木平均一棵的根部横截面积 ,
估计该林区这种树木平均一棵的材积量 .
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到 );
【解析】 ,
(本题虽然给出了样本相关系数 的计算公式,但是在解题时,需要将分子、分母稍
加变换,采用题设中给出的数据求解)
,
,
所以 ,
所以样本相关系数 .
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横
截面积总和为 .已知树木的材积量与其根部横截面积近似成正比.利用以上数据
给出该林区这种树木的总材积量的估计值.
附:样本相关系数, .
【解析】设该林区这种树木的总材积量的估计值为 ,由题意可知,该种树木的
材积量与其根部横截面积近似成正比,所以 ,
所以 ,
即该林区这种树木的总材积量的估计值为 .
练习帮 习题课丨学业质量测评
1.(2025·四川省资中县月考)对于样本相关系数 ,下列说法正确的是( )
C
A., 越大,线性相关程度越强;反之,线性相关程度越弱
B., 越大,线性相关程度越强;反之,线性相关程度越弱
C.,且越接近于1,线性相关程度越强; 越接近于0,线性相关程度越弱
D.,且 越接近于1,线性相关程度越强;反之,线性相关程度越弱
【解析】由样本相关系数与相关程度的关系可以判断C选项正确.
2.(2025·河南省周口市期末)已知,,, 四组成对样本数据对应的样本相关系数
分别为,,, ,则线性相关程度最强的是
( )
A
A.组 B.组 C.组 D. 组
【解析】,则线性相关程度最强的是 组.
3.(2023·天津)调查某种群花萼长度和花瓣长度如图8.1-1(1),所得数据如图8.1-1
(2)所示.其中样本相关系数 ,下列说法正确的是( )
图8.1-1
C
A.花瓣长度和花萼长度没有相关性
B.花瓣长度和花萼长度呈负相关
C.花瓣长度和花萼长度呈正相关
D.若从样本中抽取一部分,则这部分的样本相关系数一定是
【解析】因为样本相关系数 ,所以花瓣长度和花萼长度的相关性较强,
并且呈正相关,所以选项A,B错误,选项C正确;
因为样本相关系数与样本的数据有关,所以当样本发生变化时,样本相关系数也会
发生变化,所以选项D错误.
4.(2025·河北省盐山中学月考)变量与相对应的一组数据为, ,
,,;变量与相对应的一组数据为, ,
,,表示变量与之间的样本相关系数,表示变量与
之间的样本相关系数,则( )
C
A. B. C. D.
【解析】对变量与而言,随的增大而增大,故变量与正相关,即 ;对
变量与而言,随的增大而减小,故变量与负相关,即.故 .
5.(2024·天津)下列图中,样本相关系数最大的是( )
A
A. B. C. D.
【解析】选项A中的散点有明显的从左下角到右上角沿直线分布的趋势,且散点集
中在一条直线的附近,故选项A中的样本相关系数最大,故选A.
6.新考法 学科综合在实验“利用单摆周期估计重力加速度”中,我们依据的理论是单
摆的周期公式,其中为单摆周期,为重力加速度, 为单摆的摆长.改
变单摆的摆长,并多次记录数据.若对以下各组数据做相关分析,样本相关系数最
大的一组是( )
B
A.与 B.与 C.与 D.与
【解析】由,得,即,故与 的样本相关系数最大.
7.新考法 学科综合[多选题]下列语句表示的事件中的因素具有相关关系的是
( )
ABC
A.瑞雪兆丰年 B.名师出高徒
C.不积跬步,无以至千里 D.喜鹊叫喜,乌鸦叫丧
【解析】对于A,瑞雪对庄稼有好处,可能使得庄稼丰收,所以具有相关关系;对
于B,名师水平高,可能使得学生学习好,所以具有相关关系;对于C,不积跬步,
就不会到达千里的地方,所以具有相关关系;对于D,喜鹊和乌鸦发出叫声是它们
自身的生理反应,与喜丧无任何关系.故选 .
图8.1-2
8.[教材改编P95 T2][多选题](2025·河北省邢台市质
检联盟期中)观察如图8.1-2所示的散点图,则
( )
BD
A. B. C. D.
【解析】散点图①,②中与呈负相关, ,
,散点图②中与 的线性相关性更强,即
,因此 ;
散点图③,④中与呈正相关,, ,散
点图④中与的线性相关性更强,即,因此 .
所以.故选 .
9.(2025·广东省深圳外国语学校期中)某景区试卖一款纪念品,现统计了该款纪念品
的定价(单位:元)与销量 (单位:百件)的对应数据,如下表所示.
12 12.5 13 13.5 14
14 13 11 9 8
(1)求该纪念品定价的平均值和销量的平均值 .
【答案】由题可知 ,
.
(2)计算与的样本相关系数,并判断与的线性相关性强弱(若 ,则
与 的线性相关性很强).
参考数据:, .
【答案】因为
,
,
故 .
因为与的样本相关系数的绝对值近似为,大于0.75且非常接近1,说明 与
的线性相关性很强.
10.(2025·江苏省南通市如皋市十四校联考期中)为调查某地区学生在高中学习中错题
订正整理情况与考试成绩的关系.首先对该地区所有高中学生错题订正整理情况进行
分值评价,给出得分;再组织考试.从这些学生中随机抽取20名学生的错题订正整理
情况得分和对应的考试成绩作为样本,得到样本数据 ,其中
和分别表示第 个样本错题订正整理情况得分和对应的考试成绩,计算得
,, .
(1)求的样本相关系数(精确到),并推断考试成绩 和
错题订正整理情况得分 的相关程度.
【答案】 ,
(题中所给数据不能直接代入参考公式,需对公式变形,因此依旧建议熟记样本相关系数的公式)
接近1, 考试成绩和错题订正整理情况得分 高度相关.
(2)已知20个样本中有8个样本的考试成绩低于样本平均数 .利用频率估计概率,
从该地区所有高中学生中随机抽取4个学生的错题订正整理情况得分和对应的考试成
绩,记抽到考试成绩低于的个数为,求随机变量 的分布列.
附:样本相关系数, .
【答案】将抽到考试成绩低于样本平均数的概率记为 ,
则, .
,
,
,
,
.
随机变量 的分布列为
0 1 2 3 4