第八章 成对数据的统计分析
8.1 成对数据的统计相关性
【知识梳理】
知识点一 相关关系
1.相关关系的定义:两个变量有关系,但没有确切到可由其中一个去精确地决定另一个的程度,这种关系称为相关关系.
2.相关关系的分类
(1)按变量间的增减性分为正相关和负相关.
①正相关:当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势;
②负相关:当一个变量的值增加时,另一个变量的相应值呈现减少的趋势.
(2)按变量间是否有线性特征分为线性相关和非线性相关(曲线相关).
①线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关;
②非线性相关或曲线相关:如果两个变量具有相关性,但不是线性相关,我们称这两个变量非线性相关或曲线相关.
知识点二 相关关系的刻画
1.散点图:为了直观描述成对样本数据的变化特征,把每对成对样本数据都用直角坐标系中的点表示出来,
由这些点组成的统计图,叫做散点图.
2.样本相关系数
(1)我们常用样本相关系数r来确切地反映成对样本数据(xi,yi)的相关程度,其中r=.
(2)样本相关系数r的取值范围为[-1,1].
①若r>0时,成对样本数据正相关;
②若r<0时,成对样本数据负相关;
③当|r|越接近1时,成对样本数据的线性相关程度越强;
④当|r|越接近0时,成对样本数据的线性相关程度越弱.
【题型归纳】
一、变量间相关关系的判断
1.下列两个变量之间的关系,哪个是相关关系( )
A.正方体的棱长和体积 B.圆半径和圆的面积
C.正边形的边数和内角度数之和 D.人的身高和体重
2.两对变量A和B,C和D的取值分别对应如表1和表2,画出散点图,分别判断它们是否具有相关关系;若具有相关关系,说出它们相关关系的区别.
表1
A 26 18 13 10 4 -1
B 20 24 34 38 50 64
表2
C 0 5 10 15 20 25 30 35
D 541.67 602.66 672.09 704.99 806.71 908.59 975.42 1 034.75
样本相关系数的性质
3.在一组成对样本数据为(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若这组成对样本数据的样本相关系数为-1,则所有的样本点(xi,yi)(i=1,2,…,n)满足的方程可以是( )
A.y=-x+1 B.y=x-1
C.y=x+1 D.y=-x2
4.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )
A. B.
C. D.
三、样本相关系数的计算及应用
5.某生物小组为了研究温度对某种酶的活性的影响进行了一组实验,实验数据经整理得到如下的折线图:
由图可以看出,这种酶的活性指标值与温度具有较强的线性相关关系,请用相关系数加以说明.
附:,,,样本相关系数.
6.某杂志社近9年来的纸质广告收入(单位:千万元)如表所示:
年份 2012 2013 2014 2015 2016 2017 2018 2019 2020
时间代号 1 2 3 4 5 6 7 8 9
纸质广告收入 2 2.2 2.5 2.6 3 2.4 2.2 2 1.8
(1)根据2012年至2020年的数据,求与之间的线性相关系数(精确到0.001).
(2)根据2016年至2020年的数据,求与之间的线性相关系数(精确到0.001).
(3)如果要用回归直线方程预测该杂志社2021年的纸质广告收入,现在有两个方案,方案一:选取这9年的数据进行预测,方案二:选取后5年的数据进行预测.请你从实际生活背景以及线性相关性的角度分析哪个方案更合适.(当时认为两个变量有很强的线性相关关系.)
【双基达标】
1.下列语句所表示的事件中的因素不具有相关关系的是( )
A.瑞雪兆丰年 B.读书破万卷,下笔如有神
C.吸烟有害健康 D.喜鹊叫喜,乌鸦叫丧
2.已知r1表示变量X与Y之间的线性相关系数,r2表示变量U与V之间的线性相关系数,且r1=0.837,r2=﹣0.957,则( )
A.变量X与Y之间呈正相关关系,且X与Y之间的相关性强于U与V之间的相关性
B.变量X与Y之间呈负相关关系,且X与Y之间的相关性强于U与V之间的相关性
C.变量U与V之间呈负相关关系,且X与Y之间的相关性弱于U与V之间的相关性
D.变量U与V之间呈正相关关系,且X与Y之间的相关性弱于U与V之间的相关性
3.已知变量与相对应的一组数据为,,,,,变量与相对应的一组数据为,,,,.表示变量与之间的线性相关系数,表示变量与之间的线性相关系数,则下列结论中正确的是( )
A. B. C. D.
4.某公司年的年利润(单位:百万元)与年广告支出(单位:百万元)的统计资料如表所示:
年份 2006 2007 2008 2009 2010 2011
利润 12.2 14.6 16 18 20.4 22.3
支出 0.62 0.74 0.81 0.89 1 1.11
根据统计资料,则利润中位数( )
A.是16,与有正线性相关关系
B.是17,与有正线性相关关系
C.是17,与有负线性相关关系
D.是18,与有负线性相关关系
5.如图,有5组(x,y)数据,去掉________点对应的数据后,剩下的4组数据的线性相关程度最大.
6.对两个变量的相关系数,有下列说法:(1)越大,相关程度越大;(2)越小,相关程度越大;(3)趋近于0时,没有非线性相关系数;(4)越接近于1时,线性相关程度越强,其中正确的是___________.
7.有一位同学家开了一个小卖部,他为了研究气温对热饮销售的影响,经过统计,得到一个卖出热饮杯数与当天气温的对比表:
温度/℃ -5 0 4 7 12 15
热饮杯数 156 150 132 128 130 116
温度/℃ 19 23 27 31 36
热饮杯数 104 89 93 76 54
(1)画出散点图;
(2)你能从散点图中发现气温与热饮销售杯数之间关系的一般规律吗?
8.互联网使我们的生活日益便捷,网络外卖也开始成为不少人日常生活中不可或缺的一部分,某市一调查机构针对该市市场占有率较高的甲,乙两家网络外卖企业(以下称外卖甲、外卖乙)的经营情况进行了调查,调查结果如下表:
1日 2日 3日 4日 5日
外卖甲日接单(百单) 5 2 9 8 11
外卖乙日接单(百单) 2 3 10 5 15
(1)试根据表格中这五天的日接单量情况,从统计的角度说明这两家外卖企业的经营状况;
(2)据统计表明,与之间具有线性相关关系,请用相关系数对与之间的相关性强弱进行判断;(若,则可认为与有较强的线性相关关系,值精确到0.001)
参考数据:,.
【高分突破】
1.如图是国家统计周公布的2020年下半年快递运输量情况,请根据图中信息选出错误的选项( )
A.2020年下半年,同城和异地快递量最高均出现在11月
B.2020年10月份异地快递增长率小于9月份的异地快递增长率(注.增长率指相对前一个月而言)
C.2020年下半年,异地快递量与月份呈正相关关系
D.2020年下半年,每个月的异地快递量都是同城快递量的6倍以上
2.某公司为了准确地把握市场,做好产品生产计划,对过去四年的数据进行整理得到了第年与年销量(单位:万件)之间的关系如表:
1 2 3 4
12 28 42 56
在图中画出表中数据的散点图,推断两个变量是否线性相关,计算样本相关系数,并估计它们的相关程度.
附注:参考数据:,,.
参考公式:相关系数
3.在我国,大学生就业压力日益严峻,伴随着政府政策引导与社会观念的转变,大学生创业意识,就业方向也悄然发生转变.某大学生在国家提供的税收,担保贷款等很多方面的政策扶持下选择加盟某专营店自主创业,该专营店统计了近五年来创收利润数(单位:万元)与时间(单位:年)的数据,列表如下:
1 2 3 4 5
2.4 2.7 4.1 6.4 7.9
(1)依据表中给出的数据,是否可用线性回归模型拟合与的关系,请计算相关系数并加以说明(计算结果精确到0.01).(若,则线性相关程度很高,可用线性回归模型拟合)
附:相关系数公式:
参考数据:,
(2)谈专营店为吸引顾客,特推出两种促销方案.
方案一:每满500元可减50元;
方案二:每满500元可抽奖一次,每次中奖的概率都为,中奖就可以获得100元现金奖励,假设顾客每次抽奖的结果相互独立.
某位顾客购买了2000元的产品,作为专营店老板,是希望该顾客直接选择返回现金,还是选择参加四次抽奖?说明理由.
4.根据统计,某蔬菜基地西红柿亩产量的增加量y(百千克)与某种液体肥料每亩使用量x(千克)之间的对应数据的散点图,如图所示.
依据数据的散点图可以看出,可用线性回归模型拟合y与x的关系,请计算相关系数r并加以说明(若,则线性相关程度很高,可用线性回归模型拟合);
附:相关系数公式.
参考数据:,.
5.随着电子阅读的普及,传统纸质媒体遭受到了强烈的冲击.某杂志社近年来的纸质广告收入如下表所示:
年份
时间代号
广告收入(千万元)
根据这年的数据,对和作线性相关性检验,求得样本相关系数的绝对值为;根据后年的数据,对和作线性相关性检验,求得样本相关系数的绝对值为.
(1)如果要用线性回归方程预测该杂志社年的纸质广告收入,现在有两个方案,方案一:选取这年数据进行预测,方案二:选取后年数据进行预测.从实际生活背景以及线性相关性检验的角度分析,你觉得哪个方案更合适?
(2)某购物网站同时销售某本畅销书籍的纸质版本和电子书,据统计,在该网站购买该书籍的大量读者中,只购买电子书的读者比例为,纸质版本和电子书同时购买的读者比例为,现用此统计结果作为概率.
①若从该网站购买该书籍的大量读者中任取一位,求只购买纸质版本的概率;
②若从上述读者中随机调查位,求购买电子书人数多于只购买纸质版本人数的概率.
【答案详解】
【题型归纳】
1.【答案】D
【详解】
A:由正方体的棱长与其体积有因果关系,不是相关关系;
B:圆的半径与其面积有因果关系,不是相关关系;
C:正边形的边数和内角度数之和有因果关系,不是相关关系;
D:人的身高和体重,存在非确定性的依存关系,属于相关关系.
故选:D
2.【详解】
散点图分别如图(1)和图(2).
从图中可以看出两图中的点各自分布在一条曲线附近,因此两对变量都具有相关关系.
图(1)中,当A的值由小变大时,B的值却是由大变小,故A和B成负相关;
图(2)中,当C的值由小变大时,D的值也是由小变大,故C和D成正相关.
3.【答案】 A
【详解】 ∵这组成对样本数据的样本相关系数为-1,
∴这一组成对样本数据(x1,y1),(x2,y2),…,(xn,yn)线性相关,且是负相关.
∴可排除B,C,D,故选A.
4.【答案】A
【详解】由图可知,图2和图3是正相关,图1和图4是负相关,
囷1和图2的点相对更加集中,所以相关性更强,所以接近于,接近1,
所以,故选:A
5.【详解】由题意得:,
,
,
由此可得酶的活性指标值与温度具有较强的线性相关关系.
6.【详解】(1)由2012年至2020年的数据得,
,
,
,
,
,
所以所求线性相关系数.
(2)由2016年至2020年的数据得
,
,
,
,
,
所以所求线性相关系数为.
(3)选取方案二更合适,理由如下:.
①从表格中的数据可以看出从2016年开始,纸质广告收入呈现逐年下降的趋势,可以预见2021年的纸质广告收入会接着下跌,前四年的增长趋势已经不能作为预测后续数据的依据;
②越接近1,两个变量之间的线性相关性越强,因为根据这9年的数据得到的相关系数的绝对值,我们没有理由认为与具有线性相关关系,而后5年的数据得到的相关系数的绝对值,所以认为与具有很强的线性相关关系.
【双基达标】
1.【答案】D
【详解】“瑞雪兆丰年”和“读书破万卷,下笔如有神”是根据多年经验总结归纳出来的,吸烟有害健康具有科学根据,所以它们都是相关关系,所以A、B、C三项具有相关关系;
结合生活经验知喜鹊和乌鸦发出叫声是它们自身的生理反应,与人无任何关系,故D项不具有相关关系
故选:D.
2.【答案】C
【详解】因为线性相关系数r1=0.837,r2=﹣0.957,
所以变量X与Y之间呈正相关关系,变量U与V之间呈负相关关系,
X与Y之间的相关性弱于U与V之间的相关性.
故选:C
3.【答案】C
【详解】由变量与相对应的一组数据为,,,,,可得变量与之间正相关,;
由变量与相对应的一组数据为,,,,,可知变量与之间负相关,;
综上所述:与的大小关系是.
故选:C.
4.【答案】B
【详解】由题意,利润中位数是,而且随着利润的增加,支出也在增加,故与有正线性相关关系.
故选:B.
5.【答案】D
【详解】、、、四点分布在一条直线附近且贴近某一直线,点离得远.
去掉点剩下的4组数据的线性相关性最大
故答案为:D
6.【答案】(1)、(4)
【详解】用相关系数衡量两个变量之间的相关关系强弱时,
的绝对值越接近于1,表示两个变量的线性相关性越强,
的绝对值越接近于0,表示两个变量的线性相关性越弱,
对于(1),越大,相关程度越大,命题(1)正确;
对于(2),越小,相关程度越小,命题(2)错误;
对于(3),趋近于0时,线性相关关系越弱,命题(3)错误;
对于(4),越接近于1时,线性相关程度越强,命题(4)正确.
综上正确的命题是(1)、(4).
故答案为:(1)、(4).
7.【详解】(1)以x轴表示温度,以y轴表示热饮杯数,可作散点图如图.
(2)从图中可以看出,各点散布在从左上角到右下角的区域里,
因此,气温与热饮销售杯数之间是具有相关关系,
即气温越高,卖出去的热饮杯数越少.
8.【详解】
(1)由表格中的数据,可得,,
外卖甲的日接单量的方差,
外卖乙的日接单量的方差,
因为,即外卖甲平均日接单量与外卖乙平均日接单量相同,但外卖甲日接单量波动更小,所以外卖甲比外卖乙经营状况更好.
(2)因为
又,,
所以代入计算可得,相关系数,
所以可认为与之间有较强的线性相关关系.
【高分突破】
1.【答案】D
【详解】对于A,由图可看出,同城和异地快递量最高都在11月份,故A正确;
对于B,因为,9月异地快递增长率明显高于10月异地快递增长率,故B正确;
对于C,由图可看出,除2020年12月异地快递量较11月略少,其余都有较明显增加,因此可以判断异地快递量与月份呈正相关关系,故C正确;
对于D,2020年7月的异地快递量为572812.9万件,同城快递量为105191.1万件,异地快递量不到同城快递量的6倍,故D不正确.
故选:D.
2.【详解】作出散点图如图:
由散点图可知,各点大致分布在一条直线附近,由此推断与线性相关.
由题中所给表格及参考数据得:
,,,,,
,
,
.
∵与的相关系数近似为0.9997,可以推断该公司的年销量与第年呈正线性相关,且线性相关程度很强.
3.【详解】(1)由题知,,,
.
则.
故与的线性相关程度很高,可以用线性回归方程拟合;
(2)设表示顾客在四次抽奖中中奖的次数,
由于顾客每次抽奖的结果相互独立,则,∴.
由于顾客每中一次可获得100元现金奖励,
因此顾客在四次抽奖中可获得的奖励金额的均值为.
由于顾客参加四次抽奖获得现金奖励的均值160小于直接返现的200元现金,
故专营店老板希望该顾客选择参加四次抽奖.
4.【详解】由已知数据可得,,
所以,
,
,
所以相关系数.
因为,所以可用线性回归模型拟合y与x的关系.
5.【详解】(1)选取方案二更合适,理由如下:
①题中介绍了,随着电子阅读的普及,传统纸媒受到了强烈的冲击,从表格中的数据中可以看出从年开始,广告收入呈现逐年下降的趋势,可以预见,年的纸质广告收入会接着下跌,前四年的增长趋势已经不能作为预测后续数据的依据;
②相关系数越接近,线性相关性越强,因为根据年的数据得到的相关系数的绝对值 ,我们没有理由认为与具有线性相关关系;而后年的数据得到的相关系数的绝对值,所以认为与具有很强的线性相关关系;
(2)①因为在该网站购买该书籍的大量读者中,只购买电子书的读者比例为 ,纸质版本和电子书同时购买的读者比例为,所以从该网站购买该书籍的大量读者中任取一位,购买电子书的概率为 ,只购买纸质书的概率为;
②购买电子书人数多于只购买纸质书人数有两种情况:人购买电子书,人购买电子书人只购买纸质书.
所求概率为: