8.1成对数据的统计相关性-【新教材】2020-2021学年人教A版(2019)高中数学选择性必修第三册辅导讲义

文档属性

名称 8.1成对数据的统计相关性-【新教材】2020-2021学年人教A版(2019)高中数学选择性必修第三册辅导讲义
格式 docx
文件大小 251.3KB
资源类型 教案
版本资源 人教A版(2019)
科目 数学
更新时间 2021-03-28 19:57:17

图片预览

文档简介

高中数学选择性必修第三册第八章计数原理(人教A版2019)
8.1成对数据的统计相关性
【基础梳理】
一、变量的相关关系
1.相关关系
两个变量间的关系有函数关系,相关关系和不相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系
2.正相关、负相关
从整体上看,当一个变量的值增加时,另一个变量的相应值也星现增加的趋势,我们就称这两个变量正相关;如果一个变量值增加时,另一个变量的相应值呈现减少的趋势,则称这个两个变量负相关
3.线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条线附近,
我们就称这两个变量线性相关
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量
非线性相关或曲线相关
二、样本相关系数
1.相关系数r的计算
注意:相关系数是研究变量之间线性相关程度的量
假设两个随机变量的数据分别为,对数据作进一步的“标准化处理”处理,用,分别除和(和分别为和的均值),得,,,为简单起见把上述“标准化”处理后的成对数据分别记为,,则变量x和变量y的样本相关系数r的计算公式如下:
2.相关系数r的性质
(1)当r>0时,称成对样本数据正相关;当r<0时,成对样本数据负相关;当r=0时,成对样本数据间没有线性相关关系.
(2)样本相关系数r的取值范围为
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱.
3.样本相关系数与标准化数据向量夹角的关系
(其中=(),=(),,为向量和向量的夹角)
【课堂探究】
例1.某次测量发现一组数据具有较强的相关性,并计算得,其中数据因书写不清楚,只记得是上的一个值,则该数据对应的残差(残差=真实值-预测值)的绝对位不大于0.5的概率为(

A.
B.
C.
D.
【答案】C
【分析】
求得估计值,用真实值减去估计值求得残差,根据已知残差的绝对位不大于列不等式,解不等式求得的取值范围,根据几何概型概率计算公式计算出所求概率.
【详解】
依题意可知,估计值为,残差为,依题意得,解得,根据几何概型概率计算公式可得所求概率为,故选C.
例2.下列说法中正确的是(

A.若两个随机变量的线性相关性越强,则相关系数的值越接近于1
B.设有一个回归方程,变量增加一个单位时,平均增加5个单位
C.把某中学的高三年级560名学生编号:1到560,再从编号为1到10的10名学生中随机抽取1名学生,其编号为,然后抽取编号为,,,…的学生,这样的抽样方法是分层抽样
D.若一组数据0,,3,4的平均数是2,则该组数据的方差是
【答案】D
【分析】
线性相关性越强,的值越接近于1;,斜率的意义;系统抽样和分层抽样的区别;方差的计算.
【详解】
对于A,若两个随机变量的线性相关性越强,则相关系数的值越接近于1,故A错误;
对于B,设有一个回归方程,变量增加一个单位时,平均减少5个单位,故B错误;
对于C,抽样方法是系统抽样,故C错误;
对于C,0,,3,4的平均数是2,可得,
方差
,故D正确.
故选:D
【课后练习】
1.下列四个命题:①在回归模型中,预报变量y的值不能由解释变量x唯一确定;②若变量x,y满足关系,且变量y与z正相关,则x与z也正相关;③在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高;④以模型去拟合一组数据时,为了求出回归方程,设,将其变换后得到线性方程,则,.
其中真命题的个数为(

A.1个
B.2个
C.3个
D.4个
【答案】C
【分析】
直接利用回归直线的方程的应用,相关的变量关系的应用,残差图的应用分析结果.
【详解】
下列四个命题:
①在回归模型中,预报变量y的值不能由解释变量x唯一确定;根据回归模型中的变量关系,正确.
②若变量x,y满足关系,且变量y与z正相关,则x与z也正相关;应该是负相关.故错误.
③在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高;即越接近于回归直线的距离越小,故正确.
④以模型去拟合一组数据时,为了求出回归方程,设,将其变换后得到线性方程,则,.故正确.
故选:C.
2.根据最小二乘法由一组样本点(其中),求得的回归方程是,则下列说法正确的是(
)
A.至少有一个样本点落在回归直线上
B.若所有样本点都在回归直线上,则变量同的相关系数为1
C.对所有的解释变量(),的值一定与有误差
D.若回归直线的斜率,则变量x与y正相关
【答案】D
【分析】
对每一个选项逐一分析判断得解.
【详解】
回归直线必过样本数据中心点,但样本点可能全部不在回归直线上﹐故A错误;
所有样本点都在回归直线上,则变量间的相关系数为,故B错误;
若所有的样本点都在回归直线上,则的值与相等,故C错误;
相关系数r与符号相同,若回归直线的斜率,则,样本点分布应从左到右是上升的,则变量x与y正相关,故D正确.
故选D.
3.有一散点图如图所示,在5个数据中去掉(3,10)后,下列说法正确的是(

A.残差平方和变小
B.方差变大
C.相关指数变小
D.解释变量与预报变量的相关性变弱
【答案】A
【分析】
由散点图可知,去掉后,与的线性相关性加强,由相关系数,相关指数及残差平方和与相关性的关系得出选项.
【详解】
由散点图可知,去掉后,与的线性相关性加强,且为正相关,
所以变大,变大,残差平方和变小,
故选A.
4.已知回归方程,则该方程在样本处的残差为(

A.-1
B.1
C.2
D.5
【答案】A
【解析】
分析:利用回归方程,计算时,的值,进而可求方程在样本处的残差.
详解:当时,,
∴方程在样本处的残差是
故选A.
5.已知变量,之间的线性回归方程为,且变量,之间的一组相关数据如下表所示,则下列说法中错误的是(

6
8
10
12
6
3
2
A.变量,之间呈现负相关关系
B.的值等于5
C.变量,之间的相关系数
D.由表格数据知,该回归直线必过点
【答案】C
【解析】
分析:根据平均数的计算公式,求得样本中心为,代入回归直线的方程,即可求解,得到样本中心,再根据之间的变化趋势,可得其负相关关系,即可得到答案.
详解:由题意,根据上表可知,
即数据的样本中心为,
把样本中心代入回归直线的方程,可得,解得,
则,即数据的样本中心为,
由上表中的数据可判定,变量之间随着的增大,值变小,所以呈现负相关关系,
由于回归方程可知,回归系数,而不是,所以C是错误的,故选C.
6.对于相关指数R2,下列说法正确的是
A.R2的取值越小,模型拟合效果越好
B.R2的取值可以任意大,且R2取值越大,拟合效果越好
C.R2的取值越接近于1,模型拟合效果越好
D.以上答案都不对
【答案】C
【解析】
两个变量y与x的回归模型中,它们的相关指数R2越接近于1,这个模型的拟合效果越好.故选C.
7.在一组样本数据,,…,(,,…不全相等)的散点图中,若所有样本点都在直线上,则这组样本数据的样本相关系数为(

A.-3
B.0
C.-1
D.1
【答案】C
【解析】
因为所有样本点都在直线上,所以回归直线方程是,可得这两个变量是负相关,故这组样本数据的样本相关系数为负值,且所有样本点,都在直线上,则有相关系数,故选C.
8.下列说法:
①将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;
②设有一个线性回归方程,变量x增加1个单位时,y平均增加5个单位;
③设具有相关关系的两个变量x,y的相关系数为r,则|r|越接近于0,x和y之间的线性相关程度越强;
④在一个2×2列联表中,由计算得K2的值,则K2的值越大,判断两个变量间有关联的把握就越大.
以上错误结论的个数为(  )
A.0
B.1
C.2
D.3
【答案】C
【解析】
方差反映一组数据的波动大小,将一组数据中的每个数据都加上或减去同一个常数后,方差不变,故①正确;在线性回归方程=3-5x中,变量x增加1个单位时,y平均减小5个单位,故②不正确;根据线性回归分析中相关系数的定义:在线性回归分析中,相关系数为r,|r|越接近于1,相关程度越强,故③不正确;对分类变量x与y的随机变量的观测值K2来说,K2越大,“x与y有关系”的可信程度越大,故④正确.综上所述,错误结论的个数为2,故选C.