中小学教育资源及组卷应用平台
必考点06 成对数据的统计相关性
题型一 变量间相关关系的判断
例题1成语“名师出高徒”可以解释为“知名老师指导出高水平学生的概率较大”,即教师的名声与学生的水平之间有关联.下列能描述出生活中两种属性或现象之间关联的成语是( )
A.登高望远 B.亡羊补牢
C.目瞪口呆 D.袖手旁观
例题2数列表示第n天午时某种细菌的数量.细菌在理想条件下第n天的日增长率.当这种细菌在实际条件下生长时,其日增长率会发生变化.下图描述了细菌在理想和实际两种状态下细菌数量Q随时间的变化规律.那么,对这种细菌在实际条件下日增长率的规律描述正确的是( )
A. B.
C. D.
【解题技巧提炼】
两个变量是否相关的两种判断方法
(1)根据实际经验:借助积累的经验进行分析判断;
(2)利用散点图:通过散点图,观察它们的分布是否存在一定的规律,直观地进行判断.如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.
题型二 相关系数的性质应用
例题1甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得样本相关系数r如下表:
甲 乙 丙 丁
r 0.82 0.78 0.69 0.85
则哪位同学的试验结果体现A,B两变量有更强的线性相关性( )
A.甲 B.乙 C.丙 D.丁
例题2在一组成对样本数据为(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若这组成对样本数据的样本相关系数为-1,则所有的样本点(xi,yi)(i=1,2,…,n)满足的方程可以是( )
A.y=-x+1 B.y=x-1
C.y=x+1 D.y=-x2
【解题技巧提炼】
样本相关系数的性质
(1)r的绝对值越接近0,相关性越弱.
(2)r的绝对值越接近1,相关性越强.
题型三 相关系数的计算及应用
例题1【2020年高考全国Ⅰ卷理数节选】某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得,,,,.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi) (i=1,2,…,20)的相关系数(精确到0.01);
附:相关系数,.
【解题技巧提炼】
利用相关系数r来判断x,y是否线性相关时,当|r|>0.75,就认为x与y线性相关.
题型一 变量间相关关系的判断
1.以下是在某地搜集到的不同楼盘新房屋的销售价格y(单位:万元)和房屋面积x(单位:m2)的数据:
房屋面积x/m2 115 110 80 135 105
销售价格y/万元 24.8 21.6 19.4 29.2 22
(1)画出数据对应的散点图;
(2)判断新房屋的销售价格和房屋面积之间是否具有相关关系?如果有相关关系,是正相关还是负相关?
题型二 相关系数的性质应用
1.对变量x,y有成对样本数据(xi,yi)(i=1,2,…,10),得散点图图1;对变量u,v有成对样本数据(ui,vi)(i=1,2,…,10),得散点图图2.由这两个散点图可以判断( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
2.(多选)对两个变量的样本相关系数r,下列说法正确的是( )
A.|r|越大,相关程度越大
B.|r|越小,相关程度越大
C.|r|趋近于0时,没有线性相关关系
D.|r|越接近1时,线性相关程度越强
题型三 相关系数的计算及应用
1.(2022山东潍坊一中高二月考)某单位一种大型设备的使用年限x(单位:年)与所支出的维修费用y(单位:万元)有如下统计资料:
x 2 3 4 5 6
y 2.2 3.8 5.5 6.5 7.0
计算y与x之间的样本相关系数(精确到0.001,已知,,,,),并推断它们的相关程度.
【解析】∵,,
∴,
,
,
∴
.
由样本相关系数,可以推断这个大型设备的使用年限与所支出的维修费用这两个变量具有正相关关系,且相关程度很强.
一、单选题
1.2020年全球经济都受到了新冠疫情影响,但我国在中国共产党的正确领导下防控及时 措施得当,很多企业的生产所受影响甚微.我国某电子公司于2020年6月底推出了一款领先于世界的5G电子产品,现调查得到该5G产品上市时间x和市场占有率y(单位:%)的几组相关对应数据.如图所示的折线图中,横轴1代表2020年8月,2代表2020年9月……,5代表2020年12月,根据数据得出y关于x的线性回归方程为.若用此方程分析并预测该产品市场占有率的变化趋势,则该产品市场占有率最早何时能超过0.5%(精确到月)( )
A.2021年5月 B.2021年6月 C.2021年7月 D.2021年8月
2.下面的散点图与相关系数一定不符合的是( )
A.①②③ B.①②④ C.①③④ D.②③④
3.2020年初,新型冠状病毒(COVID-19)引起的肺炎疫情爆发以来,各地医疗机构采取了各种针对性的治疗方法,取得了不错的成效,某地开始使用中西医结合方法后,每周治愈的患者人数如下表所示:
周数(x) 1 2 3 4 5
治愈人数(y) 2 17 36 93 142
由表格可得y关于x的二次回归方程为,则此回归模型第2周的残差(实际值与预报值之差)为( )A.5 B.4 C.1 D.0
4.下列说法错误的是( )
A.正方体的体积与棱长之间的关系是函数关系
B.人的身高与视力之间的关系是相关关系
C.汽车的重量与汽车每消耗1升汽油所行驶的平均路程负相关
D.体重与学习成绩之间不具有相关关系
5.变量x,y的线性相关系数为,变量m,n的线性相关系数为,下列说法错误的是( )
A.若,则说明变量x,y之间线性相关性强
B.若,则说明变量x,y之间的线性相关性比变量m,n之间的线性相关性强
C.若,则说明变量x,y之间的相关性为正相关
D.若,则说明变量x,y之间线性不相关
6.下列数据中,拟合效果最好的回归直线方程,其对应的相关指数为( )
A. B. C. D.
7.如下四个散点图中,正相关的是( )
A. B.
C. D.
8.下列两个变量之间是相关关系的是( )
A.圆的面积与半径之间的关系 B.球的体积与半径之间的关系
C.角度与它的正弦值之间的关系 D.降雪量与交通事故的发生率之间的关系
二、多选题
9.根据下面四个散点图中点的分布状态,可以直观地判断两个变量之间具有线性相关关系的是( )
A. B.C. D.
10.(多选)下列说法正确的是( )
A.两个变量的相关系数,则两个变量正相关
B.两个变量的相关系数越大,它们的线性相关程度越强
C.若两个变量负相关,则其样本点集中在一条斜率为负的直线附近
D.相关系数的取值范围是
11.某地建立了农业科技图书馆,供农民免费借阅,收集了近5年的借阅数据如下表:
年份 2016 2017 2018 2019 2020
年份代码x 1 2 3 4 5
年借阅量y/万册 4.9 5.1 5.5 5.7 5.8
根据上表,可得y关于x的线性回归方程为,则( )A.
B.估计近5年借阅量以0.24万册/年的速度增长
C.y与x的样本相关系数
D.2021年的借阅量一定不少于6.12万册
12.对两个变量,进行线性回归分析,计算得到相关系数,则下列说法中正确的是( )
A.与负相关
B.与具有较强的线性相关关系
C.与几乎不具有线性相关关系
D.与的线性相关关系还需进一步确定
三、填空题
13.以模型去拟合一组数据时,为了求出回归方程,设,其变换后得到线性回归方程z=0.3x+4.则c=___________.
14.某种产品的广告费支出与销售额 (单位:万元)之间的关系如下表:
x 2 4 5 6 8
y 30 40 60 50 70
与的线性回归方程为,当广告支出5万元时,随机误差的残差为________.
15.若线性回归方程中的回归系数,则相关系数=______.
16.某品牌餐饮公司准备在10个规模相当的地区开设加盟店,为合理安排各地区加盟店的个数,先在其中5个地区进行试点,得到试点地区加盟店个数x及单店日平均营业额y(万元)的::数据如下:
x 1 2 3 4 5
y 10.9 10.2 9.0 7.8 7.1
根据上表可得y关于x线性相关,为保证规模和效益,该公司要求在其他5个地区需满足同一地区所有加盟店的日平均营业额预计值总和不低于35万元,则一个地区开设的加盟店个数m的所有可能取值为______.(参考数据:,)
四、解答题
17.某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
满意 不满意
男顾客 40 10
女顾客 30 20
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?
附:.
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
18.互联网使我们的生活日益便捷,网络外卖也开始成为不少人日常生活中不可或缺的一部分,某市一调查机构针对该市市场占有率较高的甲,乙两家网络外卖企业(以下称外卖甲、外卖乙)的经营情况进行了调查,调查结果如下表:
1日 2日 3日 4日 5日
外卖甲日接单(百单) 5 2 9 8 11
外卖乙日接单(百单) 2 3 10 5 15
(1)试根据表格中这五天的日接单量情况,从统计的角度说明这两家外卖企业的经营状况;
(2)据统计表明,与之间具有线性相关关系,请用相关系数对与之间的相关性强弱进行判断;(若,则可认为与有较强的线性相关关系,值精确到0.001)
参考数据:,.
19.某统计部门依据《中国统计年鉴——2017》提供的数据,对我国1997-2016年的国内生产总值(GDP)进行统计研究,作出了两张散点图:图1表示1997-2016年我国的国内生产总值(GDP),图2表示2007-2016年我国的国内生产总值(GDP).
(1)用表示第i张图中的年份与GDP的线性相关系数,,依据散点图的特征分别写出的结果;
(2)分别用线性回归模型和指数回归模型对两张散点图进行回归拟合,分别计算出统计数据——相关指数的数值,部分结果如下表所示:
年份 1997-2016 2007-2016
线性回归模型 0.9306
指数回归模型 0.9899 0.978
①将上表中的数据补充完整(结果保留3位小数,直接写在答题卡上);
②若估计2017年的GDP,结合数据说明采用哪张图中的哪种回归模型会更精准一些?若按此回归模型来估计,2020年的GDP能否突破100万亿元?事实上,2020年的GDP刚好突破了100万亿元,估计与事实是否吻合?结合散点图解释说明.
20.数据显示,中国在线直播用户规模及在线直播购物规模近几年都保持高速增长态势,下表为2017-2021年中国在线直播用户规模(单位:亿人),其中2017年-2021年对应的代码依次为1-5.
年份代码x 1 2 3 4 5
市场规模y 3.98 4.56 5.04 5.86 6.36
(1)由上表数据可知,可用函数模型拟合y与x的关系,请建立y关于x的回归方程(,的值精确到0.01);
(2)已知中国在线直播购物用户选择在品牌官方直播间购物与不在品牌官方直播间购物的人数之比为4:1,按照分层抽样从这两类用户中抽取5人,再从这5人中随机抽取2人,求这2人全是选择在品牌官方直播间购物用户的概率.
参考数据:,,,其中.
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计公式分别为,.
21.山东鲁洁棉业公司的科研人员在7块并排、形状大小相同的试验田上对某棉花新品种进行施化肥量x对产量y影响的试验,得到如下表所示的一组数据(单位:kg):
施化肥量x 15 20 25 30 35 40 45
棉花产量y 330 345 365 405 445 450 455
(1)画出散点图;
(2)判断是否具有相关关系.
22.为打造“四态融合 产村一体”望山 见水 忆乡愁的美丽乡村,增加农民收入,某乡政府统计了景区农家乐在2012—2018年中任选5年接待游客人数(单位:万人)的数据如表:
年份 2012 2013 2015 2017 2018
年份代号 2 3 5 7 8
接待游客人数 3 3.5 4 6.5 8
(1)根据数据说明变量,是正相关还是负相关;
(2)求相关系数的值,并说明年份与接待游客数相关性的强与弱;
(3)分析2012年至2018年该景区农家乐接待游客人数的变化情况,利用最小二乘法求该景区农家乐接待游客人数关于年份代号的回归直线方程;并预测该景区农家乐2020年接待游客人数约为多少万人(精确到小数点后2位数).
附:回归直线的斜率和截距的最小二乘法估计公式,相关系数的公式分别为,,,一般地,当的绝对值大于0.75时认为两个变量之间有很强的线性关系.
21世纪教育网(www.21cnjy.com)
(北京)股份有限公司中小学教育资源及组卷应用平台
必考点06 成对数据的统计相关性
题型一 变量间相关关系的判断
例题1成语“名师出高徒”可以解释为“知名老师指导出高水平学生的概率较大”,即教师的名声与学生的水平之间有关联.下列能描述出生活中两种属性或现象之间关联的成语是( )
A.登高望远 B.亡羊补牢
C.目瞪口呆 D.袖手旁观
【答案】A
【解析】成语“名师出高徒”的意思说有名的教师一定能教出高明的徒弟,
通常情况下,高水平的教师有很大的趋势教出高水平的学生,
所以教师的水平与学生的水平成正相关关系,四个选项中只有“登高望远”满足题意,
即登高有很大的趋势可以看更远,登高和望远之间成正相关关系.故选:A.
例题2数列表示第n天午时某种细菌的数量.细菌在理想条件下第n天的日增长率.当这种细菌在实际条件下生长时,其日增长率会发生变化.下图描述了细菌在理想和实际两种状态下细菌数量Q随时间的变化规律.那么,对这种细菌在实际条件下日增长率的规律描述正确的是( )
A. B.
C. D.
【答案】B
【解析】由图象可知,第一天到第五天,实际情况与理想情况重合, 为定值,而实际情况在第六天以后日增长率逐渐降低,且逐渐趋于0故选:B
【解题技巧提炼】
两个变量是否相关的两种判断方法
(1)根据实际经验:借助积累的经验进行分析判断;
(2)利用散点图:通过散点图,观察它们的分布是否存在一定的规律,直观地进行判断.如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.
题型二 相关系数的性质应用
例题1甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得样本相关系数r如下表:
甲 乙 丙 丁
r 0.82 0.78 0.69 0.85
则哪位同学的试验结果体现A,B两变量有更强的线性相关性( )
A.甲 B.乙 C.丙 D.丁
【答案】D
【解析】|r|越接近1,相关性越强,故选D.
例题2在一组成对样本数据为(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若这组成对样本数据的样本相关系数为-1,则所有的样本点(xi,yi)(i=1,2,…,n)满足的方程可以是( )
A.y=-x+1 B.y=x-1
C.y=x+1 D.y=-x2
【答案】A
【解析】∵这组成对样本数据的样本相关系数为-1,
∴这一组成对样本数据(x1,y1),(x2,y2),…,(xn,yn)线性相关,且是负相关.
∴可排除B,C,D,故选A.
【解题技巧提炼】
样本相关系数的性质
(1)r的绝对值越接近0,相关性越弱.
(2)r的绝对值越接近1,相关性越强.
题型三 相关系数的计算及应用
例题1【2020年高考全国Ⅰ卷理数节选】某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得,,,,.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi) (i=1,2,…,20)的相关系数(精确到0.01);
附:相关系数,.
【解析】(1)由已知得样本平均数,从而该地区这种野生动物数量的估计值为60×200=12000.
(2)样本的相关系数
.
【解题技巧提炼】
利用相关系数r来判断x,y是否线性相关时,当|r|>0.75,就认为x与y线性相关.
题型一 变量间相关关系的判断
1.以下是在某地搜集到的不同楼盘新房屋的销售价格y(单位:万元)和房屋面积x(单位:m2)的数据:
房屋面积x/m2 115 110 80 135 105
销售价格y/万元 24.8 21.6 19.4 29.2 22
(1)画出数据对应的散点图;
(2)判断新房屋的销售价格和房屋面积之间是否具有相关关系?如果有相关关系,是正相关还是负相关?
【解析】(1)数据对应的散点图如图所示.
(2)通过以上数据对应的散点图可以判断,新房屋的销售价格和房屋面积之间具有相关关系,且是正相关.
题型二 相关系数的性质应用
1.对变量x,y有成对样本数据(xi,yi)(i=1,2,…,10),得散点图图1;对变量u,v有成对样本数据(ui,vi)(i=1,2,…,10),得散点图图2.由这两个散点图可以判断( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
【答案】C
【解析】由这两个散点图可以判断,变量x与y负相关,u与v正相关.
2.(多选)对两个变量的样本相关系数r,下列说法正确的是( )
A.|r|越大,相关程度越大
B.|r|越小,相关程度越大
C.|r|趋近于0时,没有线性相关关系
D.|r|越接近1时,线性相关程度越强
【答案】AD
【解析】对于A,|r|越大,相关程度越大,A正确;对于B,|r|越小,相关程度越小,B错误;对于C,|r|趋近于0时,线性相关关系越弱,C错误;对于D,|r|越接近1时,线性相关程度越强,D正确.综上,正确的是AD.
题型三 相关系数的计算及应用
1.(2022山东潍坊一中高二月考)某单位一种大型设备的使用年限x(单位:年)与所支出的维修费用y(单位:万元)有如下统计资料:
x 2 3 4 5 6
y 2.2 3.8 5.5 6.5 7.0
计算y与x之间的样本相关系数(精确到0.001,已知,,,,),并推断它们的相关程度.
【解析】∵,,
∴,
,
,
∴
.
由样本相关系数,可以推断这个大型设备的使用年限与所支出的维修费用这两个变量具有正相关关系,且相关程度很强.
一、单选题
1.2020年全球经济都受到了新冠疫情影响,但我国在中国共产党的正确领导下防控及时 措施得当,很多企业的生产所受影响甚微.我国某电子公司于2020年6月底推出了一款领先于世界的5G电子产品,现调查得到该5G产品上市时间x和市场占有率y(单位:%)的几组相关对应数据.如图所示的折线图中,横轴1代表2020年8月,2代表2020年9月……,5代表2020年12月,根据数据得出y关于x的线性回归方程为.若用此方程分析并预测该产品市场占有率的变化趋势,则该产品市场占有率最早何时能超过0.5%(精确到月)( )
A.2021年5月 B.2021年6月 C.2021年7月 D.2021年8月
【答案】D
【解析】根据表中数据,计算,
代入回归方程得,解得.
所以线性回归方程为:,
由解得,
预计上市13月时,即最早在2021年8月,市场占有率能超过.故选:D
2.下面的散点图与相关系数一定不符合的是( )
A.①②③ B.①②④ C.①③④ D.②③④
【答案】C
【解析】①中,由散点图可得,两相关变量呈负相关,故①错;
②中,由散点图可得,两相关变量呈正相关,且相关系数可能是;
③中,若相关系数,则所有的点应该分布在一条直线上,散点图显然不符合,故③错;
④中,若相关系数,则所有的点应该分布在一条直线上,散点图显然不符合,故④错;故选:C.
3.2020年初,新型冠状病毒(COVID-19)引起的肺炎疫情爆发以来,各地医疗机构采取了各种针对性的治疗方法,取得了不错的成效,某地开始使用中西医结合方法后,每周治愈的患者人数如下表所示:
周数(x) 1 2 3 4 5
治愈人数(y) 2 17 36 93 142
由表格可得y关于x的二次回归方程为,则此回归模型第2周的残差(实际值与预报值之差)为( )A.5 B.4 C.1 D.0
【答案】C
【解析】设,则,
,所以.令,得.故选:C
4.下列说法错误的是( )
A.正方体的体积与棱长之间的关系是函数关系
B.人的身高与视力之间的关系是相关关系
C.汽车的重量与汽车每消耗1升汽油所行驶的平均路程负相关
D.体重与学习成绩之间不具有相关关系
【答案】B
【解析】正方体的体积与棱长之间的关系是函数关系,故A正确;
人的身高与视力之间不具有相关关系,故B错误;
汽车的重量与汽车每消耗1升汽油所行驶的平均路程负相关,故C正确;
体重与学习成绩之间不具有相关关系,故D正确.故选:B.
5.变量x,y的线性相关系数为,变量m,n的线性相关系数为,下列说法错误的是( )
A.若,则说明变量x,y之间线性相关性强
B.若,则说明变量x,y之间的线性相关性比变量m,n之间的线性相关性强
C.若,则说明变量x,y之间的相关性为正相关
D.若,则说明变量x,y之间线性不相关
【答案】B
【解析】A:因为接近于1,所以说明变量x,y之间线性相关性强,故A正确;
B:若,满足,
但是不能说明变量x,y之间的线性相关性比变量m,n之间的线性相关性强,故B错误;
C:若,则说明变量x,y之间的相关性为正相关,故C正确;
D:,则说明变量x,y之间线性不相关,故D正确.故选:B.
6.下列数据中,拟合效果最好的回归直线方程,其对应的相关指数为( )
A. B. C. D.
【答案】D
【解析】因为相关指数越大,拟合效果更好,故选:D
7.如下四个散点图中,正相关的是( )
A. B.
C. D.
【答案】A
【解析】对于A,散点图中的点从左向右是上升的,且在一条直线附近,是正相关;
对于B,散点图中的点从左向右是下降的,且在一条直线附近,是负相关;
对于C、D,散点图中的点不成带状分布,没有明显的相关关系;故选:A.
8.下列两个变量之间是相关关系的是( )
A.圆的面积与半径之间的关系 B.球的体积与半径之间的关系
C.角度与它的正弦值之间的关系 D.降雪量与交通事故的发生率之间的关系
【答案】D
【解析】由题意知A表示圆的面积与半径之间的关系S=πr2,
B表示球的体积与半径之间的关系V=,
C表示角度与它的正弦值之间的关系y=sinα,
都是确定的函数关系,只有D是相关关系,故选:D.
二、多选题
9.根据下面四个散点图中点的分布状态,可以直观地判断两个变量之间具有线性相关关系的是( )
A. B.C. D.
【答案】BC
【解析】A中的点无规律分布,范围很广,表明两个变量之间的相关程度很小;
B,C中的点分布在一条直线的附近,两个变量之间具有线性相关关系;
D中所有的点分布在一条曲线附近,所以不是线性相关关系.
故选:BC.
10.(多选)下列说法正确的是( )
A.两个变量的相关系数,则两个变量正相关
B.两个变量的相关系数越大,它们的线性相关程度越强
C.若两个变量负相关,则其样本点集中在一条斜率为负的直线附近
D.相关系数的取值范围是
【答案】AC
【解析】两个变量的相关系数,则两个变量正相关,A对;
两个变量的相关系数的绝对值越大,它们的线性相关程度越强,B错;
若两个变量负相关,则其样本点集中在一条斜率为负的直线附近,C对;
相关系数的取值范围是,D错.故选:AC.
11.某地建立了农业科技图书馆,供农民免费借阅,收集了近5年的借阅数据如下表:
年份 2016 2017 2018 2019 2020
年份代码x 1 2 3 4 5
年借阅量y/万册 4.9 5.1 5.5 5.7 5.8
根据上表,可得y关于x的线性回归方程为,则( )A.
B.估计近5年借阅量以0.24万册/年的速度增长
C.y与x的样本相关系数
D.2021年的借阅量一定不少于6.12万册
【答案】ABC
【解析】,,代入,可得,所以A正确;因为,所以估计每年借阅量的增长量为0.24万册,所以B正确;因为,所以y与x正相关,,所以C正确;把代入得,而6.12万册是预测值,不是精确值,所以D错误.
故选:ABC.
12.对两个变量,进行线性回归分析,计算得到相关系数,则下列说法中正确的是( )
A.与负相关
B.与具有较强的线性相关关系
C.与几乎不具有线性相关关系
D.与的线性相关关系还需进一步确定
【答案】AB
【解析】因为相关系数的绝对值越接近于,线性相关性越强,且当时,认为变量,具有较强的线性相关关系.
对于A选项,相关系数,故与负相关,正确;
对于BCD选项,,故与具有较强的线性相关关系,故B正确,CD错误;故选:AB
三、填空题
13.以模型去拟合一组数据时,为了求出回归方程,设,其变换后得到线性回归方程z=0.3x+4.则c=___________.
【答案】
【解析】,即,
所以,.故答案为:
14.某种产品的广告费支出与销售额 (单位:万元)之间的关系如下表:
x 2 4 5 6 8
y 30 40 60 50 70
与的线性回归方程为,当广告支出5万元时,随机误差的残差为________.
【答案】
【解析】由题意,当时,,
因此其残差为.故答案为:.
15.若线性回归方程中的回归系数,则相关系数=______.
【答案】0
【解析】,且,
故答案为:0.
16.某品牌餐饮公司准备在10个规模相当的地区开设加盟店,为合理安排各地区加盟店的个数,先在其中5个地区进行试点,得到试点地区加盟店个数x及单店日平均营业额y(万元)的::数据如下:
x 1 2 3 4 5
y 10.9 10.2 9.0 7.8 7.1
根据上表可得y关于x线性相关,为保证规模和效益,该公司要求在其他5个地区需满足同一地区所有加盟店的日平均营业额预计值总和不低于35万元,则一个地区开设的加盟店个数m的所有可能取值为______.(参考数据:,)
【答案】5,6,7
【解析】由题意可得,,,
,
,
设线性回归方程为,
则,,
故线性回归方程为.
根据题意,,解得,又,
所以m的所有可能取值为5,6,7.
故答案为:5,6,7
四、解答题
17.某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
满意 不满意
男顾客 40 10
女顾客 30 20
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?
附:.
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
【解析】(1)由题中表格可知,50名男顾客对商场服务满意的有40人,
所以男顾客对商场服务满意率估计为,
50名女顾客对商场满意的有30人,
所以女顾客对商场服务满意率估计为,
(2)由列联表可知,
所以能有的把握认为男、女顾客对该商场服务的评价有差异.
18.互联网使我们的生活日益便捷,网络外卖也开始成为不少人日常生活中不可或缺的一部分,某市一调查机构针对该市市场占有率较高的甲,乙两家网络外卖企业(以下称外卖甲、外卖乙)的经营情况进行了调查,调查结果如下表:
1日 2日 3日 4日 5日
外卖甲日接单(百单) 5 2 9 8 11
外卖乙日接单(百单) 2 3 10 5 15
(1)试根据表格中这五天的日接单量情况,从统计的角度说明这两家外卖企业的经营状况;
(2)据统计表明,与之间具有线性相关关系,请用相关系数对与之间的相关性强弱进行判断;(若,则可认为与有较强的线性相关关系,值精确到0.001)
参考数据:,.
【解析】 (1)由表格中的数据,可得,,
外卖甲的日接单量的方差,
外卖乙的日接单量的方差,
因为,即外卖甲平均日接单量与外卖乙平均日接单量相同,但外卖甲日接单量波动更小,所以外卖甲比外卖乙经营状况更好.
(2)因为
又,,
所以代入计算可得,相关系数,
所以可认为与之间有较强的线性相关关系.
19.某统计部门依据《中国统计年鉴——2017》提供的数据,对我国1997-2016年的国内生产总值(GDP)进行统计研究,作出了两张散点图:图1表示1997-2016年我国的国内生产总值(GDP),图2表示2007-2016年我国的国内生产总值(GDP).
(1)用表示第i张图中的年份与GDP的线性相关系数,,依据散点图的特征分别写出的结果;
(2)分别用线性回归模型和指数回归模型对两张散点图进行回归拟合,分别计算出统计数据——相关指数的数值,部分结果如下表所示:
年份 1997-2016 2007-2016
线性回归模型 0.9306
指数回归模型 0.9899 0.978
①将上表中的数据补充完整(结果保留3位小数,直接写在答题卡上);
②若估计2017年的GDP,结合数据说明采用哪张图中的哪种回归模型会更精准一些?若按此回归模型来估计,2020年的GDP能否突破100万亿元?事实上,2020年的GDP刚好突破了100万亿元,估计与事实是否吻合?结合散点图解释说明.
【解析】 (1)由散点图可知,图2拟合效果更好、相关系数较大,所以,.
(2)①0.996
②由图2中的线性回归模型得到的相关指数为0.996,是所有回归模型的相关指数中数值最大的,而且2017年是最近的年份,因此选择图2中的线性回归模型来估计2017年的GDP,是比较精准的.
按照图2中的线性回归模型来估计(延长回归直线可发现),2020年不能突破100万亿元.
估计与事实不吻合.综合两张图来考虑,我国的GDP随年份的增长整体上呈现指数增长的趋势,而且2020年比2016年又多发展了4年,指数回归趋于明显,因此,按照线性回归模型得到的估计值与实际数据有偏差、不吻合,属于正常现象.
20.数据显示,中国在线直播用户规模及在线直播购物规模近几年都保持高速增长态势,下表为2017-2021年中国在线直播用户规模(单位:亿人),其中2017年-2021年对应的代码依次为1-5.
年份代码x 1 2 3 4 5
市场规模y 3.98 4.56 5.04 5.86 6.36
(1)由上表数据可知,可用函数模型拟合y与x的关系,请建立y关于x的回归方程(,的值精确到0.01);
(2)已知中国在线直播购物用户选择在品牌官方直播间购物与不在品牌官方直播间购物的人数之比为4:1,按照分层抽样从这两类用户中抽取5人,再从这5人中随机抽取2人,求这2人全是选择在品牌官方直播间购物用户的概率.
参考数据:,,,其中.
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【解析】 (1)设,则,
,,,
所以,
.
所以关于的回归方程为.
(2)因为中国在线直播购物用户选择在品牌官方直播间购物与不在品牌官方直播间购物的人数之比为4:1,
按照分层抽样从这两类用户中抽取5人,则选择在品牌官方直播间购物的用户为人,记作,
不在品牌官方直播间购物的用户为人,记作,
从这人随机抽取人,结果有:
,共种,
其中人全是选择在品牌官方直播间购物用户的结果为:
,共种,
所以这2人全是选择在品牌官方直播间购物用户的概率为.
21.山东鲁洁棉业公司的科研人员在7块并排、形状大小相同的试验田上对某棉花新品种进行施化肥量x对产量y影响的试验,得到如下表所示的一组数据(单位:kg):
施化肥量x 15 20 25 30 35 40 45
棉花产量y 330 345 365 405 445 450 455
(1)画出散点图;
(2)判断是否具有相关关系.
【解析】(1)散点图如图所示
(2)由散点图知,各组数据对应点大致都在一条直线附近,所以施化肥量x与产量y具有线性相关关系.
22.为打造“四态融合 产村一体”望山 见水 忆乡愁的美丽乡村,增加农民收入,某乡政府统计了景区农家乐在2012—2018年中任选5年接待游客人数(单位:万人)的数据如表:
年份 2012 2013 2015 2017 2018
年份代号 2 3 5 7 8
接待游客人数 3 3.5 4 6.5 8
(1)根据数据说明变量,是正相关还是负相关;
(2)求相关系数的值,并说明年份与接待游客数相关性的强与弱;
(3)分析2012年至2018年该景区农家乐接待游客人数的变化情况,利用最小二乘法求该景区农家乐接待游客人数关于年份代号的回归直线方程;并预测该景区农家乐2020年接待游客人数约为多少万人(精确到小数点后2位数).
附:回归直线的斜率和截距的最小二乘法估计公式,相关系数的公式分别为,,,一般地,当的绝对值大于0.75时认为两个变量之间有很强的线性关系.
【解析】(1)由表中数据可得
,
,
则
,
由于变量的值随的值增加而增加(),
故与之间是正相关.
(2)
,
故年份与接待游客量相关性很强.
(3)∵,
∴景区农家乐接待游客人数关于年份代号的回归直线方程为,
当时,,
∴预测2020年该景区农家乐接待游客人数约为9.04万人.
.
21世纪教育网(www.21cnjy.com)
(北京)股份有限公司