进阶01 成对数据的相关分析综合专练(解析版)-【尖子生题典】专题训练(沪教版2021选择性必修二)

文档属性

名称 进阶01 成对数据的相关分析综合专练(解析版)-【尖子生题典】专题训练(沪教版2021选择性必修二)
格式 zip
文件大小 1.1MB
资源类型 试卷
版本资源 上教版(2020)
科目 数学
更新时间 2022-03-18 19:48:26

文档简介

编者学科君小注:
本专辑专为2022年上海高中数学课改版沪教版2021必修二、选择性必修一、选择性必修二研发,供中等及以上学生使用。
思路设计:重在培优训练,分选择、填空、解答三种类型题,知识难度层层递进,由中等到压轴,基础差的学生选做每种类型题的前4题;基础中等的学生必做前4题、选做5-8题;尖子生全部题型必做,冲刺压轴题。
进阶01 成对数据的相关分析综合专练(原卷版)
错误率:___________易错题号:___________
一、单选题
1.随着我国智慧城市建设加速和园区信息化发展趋向成熟,智慧园区建设需求将持续增大,市场规模恢复较高增长态势,未来发展空间广阔.下面是2017﹣2020年中国智慧园区市场规模统计表,则下列结论错误的是( )
年份 2017 2018 2019 2020
规模(亿元) 1888 2101 2270 2417
A.2017年到2020年我国智慧园区市场规模逐年增长
B.2017年到2020年我国智慧园区市场规模增长率逐年增大
C.2017年到2020年我国智慧园区市场规模的平均值约为2169亿元
D.2017年到2020年我国智慧园区市场规模与年份成正相关
2.变量x,y的线性相关系数为,变量m,n的线性相关系数为,下列说法错误的是( )
A.若,则说明变量x,y之间线性相关性强
B.若,则说明变量x,y之间的线性相关性比变量m,n之间的线性相关性强
C.若,则说明变量x,y之间的相关性为正相关
D.若,则说明变量x,y之间线性不相关
3.已知变量关于的回归方程为,变量与负相关,则( )
A.与正相关,与负相关
B.与正相关,与正相关
C.与负相关,与负相关
D.与负相关,与正相关
4.对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是( )
A. B.
C. D.
5.某化工厂产生的废气经过过滤后排放,以模型去拟合过滤过程中废气的污染物浓度与时间之间的一组数据,为了求出线性回归方程,设,其变换后得到线性回归方程为,则当经过后,预报废气的污染物浓度为( )
A. B. C. D.
6.某公司年的年利润(单位:百万元)与年广告支出(单位:百万元)的统计资料如表所示:
年份 2006 2007 2008 2009 2010 2011
利润 12.2 14.6 16 18 20.4 22.3
支出 0.62 0.74 0.81 0.89 1 1.11
根据统计资料,则利润中位数( )A.是16,与有正线性相关关系
B.是17,与有正线性相关关系
C.是17,与有负线性相关关系
D.是18,与有负线性相关关系
7.下列命题中假命题是( )
A.一组数据的极差可以表示这组数据的波动范围大小;
B.任意给定统计数据,都可以绘制散点图;
C.茎叶图既可以用于呈现单组数据,也可以用于对两组同类数据的比较分析;
D.一组数据中的百分位数既可能是这组数据中的数,也可能不是这组数据中的数.
8.如图,是对某位同学一学期次体育测试成绩(单位:分)进行统计得到的散点图,关于这位同学的成绩分析,下列结论错误的是( )
A.该同学的体育测试成绩总的趋势是在逐步提高,且次测试成绩的极差超过分
B.该同学次测试成绩的众数是分
C.该同学次测试成绩的中位数是分
D.该同学次测试成绩与测试次数具有相关性,且呈正相关
9.如图,5个数据,去掉后,下列说法错误的是( )
A.相关系数r变大 B.残差平方和变大
C.R2变大 D.解释变量x与预报变量y的相关性变强
10.如图是国家统计周公布的2020年下半年快递运输量情况,请根据图中信息选出错误的选项( )
A.2020年下半年,同城和异地快递量最高均出现在11月
B.2020年10月份异地快递增长率小于9月份的异地快递增长率(注.增长率指相对前一个月而言)
C.2020年下半年,异地快递量与月份呈正相关关系
D.2020年下半年,每个月的异地快递量都是同城快递量的6倍以上
二、解答题
11.某校从高二年级随机抽取了20名学生的数学总评成绩和物理总评成绩,记第i位学生的成绩为() (i=1,2,3...20),其中分别为第i位学生的数学总评成绩和物理总评成绩.抽取的数据列表如下( 按数学成绩降序整理):
序号 1 2 3 4 5 6 7 8 9 10
数学总评成绩x 95 92 91 90 89 88 88 87 86 85
物理总评成绩y 96 90 89 87 92 81 86 88 83 84
序号 11 12 13 14 15 16 17 18 19 20
数学总评成绩x 83 82 81 80 80 79 78 77 75 74
物理总评成绩 81 80 82 85 80 78 79 81 80 78
(1)根据统计学知识,当相关系数|r|≥0.8时,可视为两个变量之间高度相关.根据抽取的数据,能否说明数学总评成绩与物理总评成绩高度相关 请通过计算加以说明.
参考数据:
参考公式:相关系数
(2)规定:总评成绩大于等于85分者为优秀,小于85分者为不优秀,对优秀赋分1,对不优秀赋分0,从这20名学生中随机抽取2名学生,若用X表示这2名学生两科赋分的和,求X的分布列和数学期望.
12.2020年全面建成小康社会取得伟大历史成就,决战脱贫攻坚取得决定性胜利.某市积极探索区域特色经济,引导商家利用多媒体的优势,对本地特产进行广告宣传,取得了社会效益和经济效益的双丰收,某商家统计了7个月的月广告投入(单位:万元)与月销量(单位:万件)的数据如表所示:
月广告投入/万元 1 2 3 4 5 6 7
月销量/万件 28 32 35 45 49 52 60
(1)已知可用线性回归模型拟合与的关系,请用相关系数加以说明,并求关于的线性回归方程;
(2)根据(1)的结论,预计月广告投入大于多少万元时,月销量能突破70万件.
参考数据:,,.
参考公式:相关系数;
回归直线的斜率和截距的最小二乘估计分别为,.
13.在我国,大学生就业压力日益严峻,伴随着政府政策引导与社会观念的转变,大学生创业意识,就业方向也悄然发生转变.某大学生在国家提供的税收,担保贷款等很多方面的政策扶持下选择加盟某专营店自主创业,该专营店统计了近五年来创收利润数(单位:万元)与时间(单位:年)的数据,列表如下:
1 2 3 4 5
2.4 2.7 4.1 6.4 7.9
(1)依据表中给出的数据,是否可用线性回归模型拟合与的关系,请计算相关系数并加以说明(计算结果精确到0.01).(若,则线性相关程度很高,可用线性回归模型拟合)
附:相关系数公式:
参考数据:,
(2)谈专营店为吸引顾客,特推出两种促销方案.
方案一:每满500元可减50元;
方案二:每满500元可抽奖一次,每次中奖的概率都为,中奖就可以获得100元现金奖励,假设顾客每次抽奖的结果相互独立.
某位顾客购买了2000元的产品,作为专营店老板,是希望该顾客直接选择返回现金,还是选择参加四次抽奖?说明理由.
14.某杂志社近9年来的纸质广告收入(单位:千万元)如表所示:
年份 2012 2013 2014 2015 2016 2017 2018 2019 2020
时间代号 1 2 3 4 5 6 7 8 9
纸质广告收入 2 2.2 2.5 2.6 3 2.4 2.2 2 1.8
(1)根据2012年至2020年的数据,求与之间的线性相关系数(精确到0.001).
(2)根据2016年至2020年的数据,求与之间的线性相关系数(精确到0.001).
(3)如果要用回归直线方程预测该杂志社2021年的纸质广告收入,现在有两个方案,方案一:选取这9年的数据进行预测,方案二:选取后5年的数据进行预测.请你从实际生活背景以及线性相关性的角度分析哪个方案更合适.(当时认为两个变量有很强的线性相关关系.)
15.如图是某地2014年至2020年生活垃圾无害化处理量(单位:万吨)的折线图.
注:年份代码1~7分别对应年份2014~2020.
(1)由折线图看出,可用线性回归模型拟合与的关系,请用相关系数加以证明;
(2)建立关于的回归方程(系数精确到0.01),预测2022年某地生活垃圾无害化处理量.
附注:
参考数据:,,,.
参考公式:相关系数,回归方程中斜率和截距的最小二乘法估计公式分别为,.
16.为了更好的指导青少年健康饮食,某机构调查了本地区不同身高的未成年男性,得到他们的体重的平均值,并对数据做了初步处理,得到下面的散点图及一些统计量的值.
(其中,)
(1)根据散点图判断回归方程①;②都可以作为这个地区未成年男性体重千克与身高厘米的回归方程,请结合相关系数判断哪一个回归方程更合适,并说明理由;
(2)根据(1)的判断结果及表中的数据写出体重千克与身高厘米的回归方程;
(3)若体重超过相同身高男性体重平均值的倍为偏胖,低于倍为偏瘦,现该地区有一名身高厘米的未成年男性,根据(2)的结果请你给出一个合理建议,指出他的体重应该控制在多少千克的范围内?
参考数据:;参考公式:样本的相关系数,其回归直线方程 的斜率和截距的估计值分别为,.
17.某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每件产品的非原料成本(元)与生产该产品的数量(千件)有关,经统计得到如下数据:
x 1 2 3 4 5 6 7 8
y 56.5 31 22.75 17.8 15.95 14.5 13 12.5
根据以上数据绘制了散点图观察散点图,两个变量间关系考虑用反比例函数模型和指数函数模型分别对两个变量的关系进行拟合.已求得用指数函数模型拟合的回归方程为,与x的相关系数.
(1)用反比例函数模型求y关于x的回归方程;
(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到0.001),并用其估计产量为10千件时每件产品的非原料成本;
(3)根据企业长期研究表明,非原料成本y服从正态分布,用样本平均数作为的估计值,用样本标准差s作为的估计值,若非原料成本y在之外,说明该成本异常,并称落在之外的成本为异样成本,此时需寻找出现异样成本的原因.利用估计值判断上述非原料成本数据是否需要寻找出现异样成本的原因?
参考数据(其中):
0.34 0.115 1.53 184 5777.555 93.06 30.705 13.9
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为:,,相关系数.
18.2021年6月17日9时22分,我国酒泉卫星发射中心用长征2F遥十二运载火箭,成功将神舟十二号载人飞船送入预定轨道,顺利将聂海胜 刘伯明 汤洪波3名航天员送入太空,发射取得圆满成功,这标志着中国人首次进入自己的空间站.某公司负责生产的A型材料是神舟十二号的重要零件,该材料应用前景十分广泛.该公司为了将A型材料更好地投入商用,拟对A型材料进行应用改造.根据市场调研与模拟,得到应用改造投入x(亿元)与产品的直接收益y(亿元)的数据统计如下表:建立了y与x的两个回归模型:模型①:,
模型②:;
序号 1 2 3 4 5 6 7
x 2 3 4 6 8 10 13
y 15 22 27 40 48 54 60
(1)根据表格中的数据,比较模型①,②的相关指数的大小;
(2)据(2)选择拟合精度更高 更可靠的模型,预测对A型材料进行应用改造的投入为17亿元时的直接收益.
附:刻画回归效果的相关指数,且当越大时,回归方程的拟合效果越好..
回归模型 模型① 模型②
79.31 20.2
19.互联网使我们的生活日益便捷,网络外卖也开始成为不少人日常生活中不可或缺的一部分,某市一调查机构针对该市市场占有率较高的甲,乙两家网络外卖企业(以下称外卖甲、外卖乙)的经营情况进行了调查,调查结果如下表:
1日 2日 3日 4日 5日
外卖甲日接单(百单) 5 2 9 8 11
外卖乙日接单(百单) 2 3 10 5 15
(1)试根据表格中这五天的日接单量情况,从统计的角度说明这两家外卖企业的经营状况;
(2)据统计表明,与之间具有线性相关关系,请用相关系数对与之间的相关性强弱进行判断;(若,则可认为与有较强的线性相关关系,值精确到0.001)
参考数据:,.
20.某统计部门依据《中国统计年鉴——2017》提供的数据,对我国1997-2016年的国内生产总值(GDP)进行统计研究,作出了两张散点图:图1表示1997-2016年我国的国内生产总值(GDP),图2表示2007-2016年我国的国内生产总值(GDP).
(1)用表示第i张图中的年份与GDP的线性相关系数,,依据散点图的特征分别写出的结果;
(2)分别用线性回归模型和指数回归模型对两张散点图进行回归拟合,分别计算出统计数据——相关指数的数值,部分结果如下表所示:
年份 1997-2016 2007-2016
线性回归模型 0.9306
指数回归模型 0.9899 0.978
①将上表中的数据补充完整(结果保留3位小数,直接写在答题卡上);
②若估计2017年的GDP,结合数据说明采用哪张图中的哪种回归模型会更精准一些?若按此回归模型来估计,2020年的GDP能否突破100万亿元?事实上,2020年的GDP刚好突破了100万亿元,估计与事实是否吻合?结合散点图解释说明.编者学科君小注:
本专辑专为2022年上海高中数学课改版沪教版2021必修二、选择性必修一、选择性必修二研发,供中等及以上学生使用。
思路设计:重在培优训练,分选择、填空、解答三种类型题,知识难度层层递进,由中等到压轴,基础差的学生选做每种类型题的前4题;基础中等的学生必做前4题、选做5-8题;尖子生全部题型必做,冲刺压轴题。
进阶01 成对数据的相关分析综合专练(解析版)
错误率:___________易错题号:___________
一、单选题
1.随着我国智慧城市建设加速和园区信息化发展趋向成熟,智慧园区建设需求将持续增大,市场规模恢复较高增长态势,未来发展空间广阔.下面是2017﹣2020年中国智慧园区市场规模统计表,则下列结论错误的是( )
年份 2017 2018 2019 2020
规模(亿元) 1888 2101 2270 2417
A.2017年到2020年我国智慧园区市场规模逐年增长
B.2017年到2020年我国智慧园区市场规模增长率逐年增大
C.2017年到2020年我国智慧园区市场规模的平均值约为2169亿元
D.2017年到2020年我国智慧园区市场规模与年份成正相关
【标准答案】B
【思路指引】
根据表中数据对选项一一分析即可.
【详解详析】
解:对于A,由表中的数据可以看出,2017年到2020年我国智慧园区市场规模逐年增长,故选项A正确;
对于B,2017年到2018年市场规模增长率为,
2018年到2019年场规模增长率为,
因为,故选项B错误;
对于C,2017年到2020年我国智慧园区市场规模的平均值为亿元,故选项C正确;
对于D,2017年到2020年我国智慧园区市场规模与随着年份的增大而增大,故两者呈正相关,故选项D正确.
故选:B.
2.变量x,y的线性相关系数为,变量m,n的线性相关系数为,下列说法错误的是( )
A.若,则说明变量x,y之间线性相关性强
B.若,则说明变量x,y之间的线性相关性比变量m,n之间的线性相关性强
C.若,则说明变量x,y之间的相关性为正相关
D.若,则说明变量x,y之间线性不相关
【标准答案】B
【思路指引】
根据相关系数的意义逐项分析判断即可.
【详解详析】
A:因为接近于1,所以说明变量x,y之间线性相关性强,故A正确;
B:若,满足,
但是不能说明变量x,y之间的线性相关性比变量m,n之间的线性相关性强,故B错误;
C:若,则说明变量x,y之间的相关性为正相关,故C正确;
D:,则说明变量x,y之间线性不相关,故D正确.
故选:B.
3.已知变量关于的回归方程为,变量与负相关,则( )
A.与正相关,与负相关
B.与正相关,与正相关
C.与负相关,与负相关
D.与负相关,与正相关
【标准答案】A
【思路指引】
根据斜率与线性相关之间的关系判断即可.
【详解详析】
因为直线的斜率大于,所以与正相关.
因为与负相关,可设,且,
则,
故与负相关.
故选:A.
4.对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是( )
A. B.
C. D.
【标准答案】A
【思路指引】
由给出的四组数据的散点图,结合相关系数的概念,逐图判定,即可求解.
【详解详析】
由给出的四组数据的散点图可以看出,题图1和题图3是正相关,相关系数大于0,
题图2和题图4是负相关,相关系数小于0,
题图1和题图2的点相对更加集中,所以相关性更强,所以接近于1,接近于,
由此可得.
故选:A.
5.某化工厂产生的废气经过过滤后排放,以模型去拟合过滤过程中废气的污染物浓度与时间之间的一组数据,为了求出线性回归方程,设,其变换后得到线性回归方程为,则当经过后,预报废气的污染物浓度为( )
A. B. C. D.
【标准答案】D
【思路指引】
把代入中求出的值,再将的值代入中可求出的值.
【详解详析】
当时, ,
所以.
故选:D.
6.某公司年的年利润(单位:百万元)与年广告支出(单位:百万元)的统计资料如表所示:
年份 2006 2007 2008 2009 2010 2011
利润 12.2 14.6 16 18 20.4 22.3
支出 0.62 0.74 0.81 0.89 1 1.11
根据统计资料,则利润中位数( )
A.是16,与有正线性相关关系
B.是17,与有正线性相关关系
C.是17,与有负线性相关关系
D.是18,与有负线性相关关系
【标准答案】B
【思路指引】
根据数据分析可直接得出结论.
【详解详析】
由题意,利润中位数是,而且随着利润的增加,支出也在增加,故与有正线性相关关系.
故选:B.
7.下列命题中假命题是( )
A.一组数据的极差可以表示这组数据的波动范围大小;
B.任意给定统计数据,都可以绘制散点图;
C.茎叶图既可以用于呈现单组数据,也可以用于对两组同类数据的比较分析;
D.一组数据中的百分位数既可能是这组数据中的数,也可能不是这组数据中的数.
【标准答案】B
【思路指引】
根据极差、散点图、茎叶图和百分位数的定义即可判断答案.
【详解详析】
极差表示最大值与最小值的差距,它在一定程度上能表示这组数据的波动大小范围.A正确;
散点图应该是表示两个变量组成的数对.B错误;
根据茎叶图的作法可知,C正确;
一组n个观测值按数值大小排列,处于p%位置的值称第p百分位数,例如中位数是第50百分位数,显然中位数可以在数据中,也可以不在数据中.D正确.
故选:B.
8.如图,是对某位同学一学期次体育测试成绩(单位:分)进行统计得到的散点图,关于这位同学的成绩分析,下列结论错误的是( )
A.该同学的体育测试成绩总的趋势是在逐步提高,且次测试成绩的极差超过分
B.该同学次测试成绩的众数是分
C.该同学次测试成绩的中位数是分
D.该同学次测试成绩与测试次数具有相关性,且呈正相关
【标准答案】C
【思路指引】
根据给定的散点图,逐一分析各个选项即可判断作答.
【详解详析】
对于A,由散点图知,8次测试成绩总体是依次增大,极差为,A正确;
对于B,散点图中8个数据的众数是48,B正确;
对于C,散点图中的8个数由小到大排列,最中间两个数都是48,则次测试成绩的中位数是分,C不正确;
对于D,散点图中8个点落在某条斜向上的直线附近,则次测试成绩与测试次数具有相关性,且呈正相关,D正确.
故选:C
9.如图,5个数据,去掉后,下列说法错误的是( )
A.相关系数r变大 B.残差平方和变大
C.R2变大 D.解释变量x与预报变量y的相关性变强
【标准答案】B
【思路指引】
根据图中的点,计算去掉前后的相关系数、残差平方和、,即可判断各选项的正误.
【详解详析】
由图,,,则,,,
∴相关系数.
令回归方程,则,
∴,即回归方程为,可得为,,,,,
∴残差平方和,故,
去掉后,
,,则,,,
∴相关系数.
∴,A、D正确;
令回归方程,则,
∴,即回归方程为,可得为,,,,
∴残差平方和,故,
∴,B错误,C正确;
故选:B
10.如图是国家统计周公布的2020年下半年快递运输量情况,请根据图中信息选出错误的选项( )
A.2020年下半年,同城和异地快递量最高均出现在11月
B.2020年10月份异地快递增长率小于9月份的异地快递增长率(注.增长率指相对前一个月而言)
C.2020年下半年,异地快递量与月份呈正相关关系
D.2020年下半年,每个月的异地快递量都是同城快递量的6倍以上
【标准答案】D
【思路指引】
根据统计图表中的数据计算可得答案.
【详解详析】
对于A,由图可看出,同城和异地快递量最高都在11月份,故A正确;
对于B,因为,9月异地快递增长率明显高于10月异地快递增长率,故B正确;
对于C,由图可看出,除2020年12月异地快递量较11月略少,其余都有较明显增加,因此可以判断异地快递量与月份呈正相关关系,故C正确;
对于D,2020年7月的异地快递量为572812.9万件,同城快递量为105191.1万件,异地快递量不到同城快递量的6倍,故D不正确.
故选:D.
二、解答题
11.某校从高二年级随机抽取了20名学生的数学总评成绩和物理总评成绩,记第i位学生的成绩为() (i=1,2,3...20),其中分别为第i位学生的数学总评成绩和物理总评成绩.抽取的数据列表如下( 按数学成绩降序整理):
序号 1 2 3 4 5 6 7 8 9 10
数学总评成绩x 95 92 91 90 89 88 88 87 86 85
物理总评成绩y 96 90 89 87 92 81 86 88 83 84
序号 11 12 13 14 15 16 17 18 19 20
数学总评成绩x 83 82 81 80 80 79 78 77 75 74
物理总评成绩 81 80 82 85 80 78 79 81 80 78
(1)根据统计学知识,当相关系数|r|≥0.8时,可视为两个变量之间高度相关.根据抽取的数据,能否说明数学总评成绩与物理总评成绩高度相关 请通过计算加以说明.
参考数据:
参考公式:相关系数
(2)规定:总评成绩大于等于85分者为优秀,小于85分者为不优秀,对优秀赋分1,对不优秀赋分0,从这20名学生中随机抽取2名学生,若用X表示这2名学生两科赋分的和,求X的分布列和数学期望.
【标准答案】(1)“数学学期综合成绩”与“物理学期综合成绩”高度相关;答案见解析;(2)分布列见解析,.
(1)代入公式计算,解得即可得解;
(2)由超几何分布概率公式计算出、、、、,进而可得分布列,再由数学期望的公式即可得数学期望.
【详解详析】
(1)由题意,

所以“数学学期综合成绩”与“物理学期综合成绩”高度相关;
(2) 由题意得:的可能取值为0,1,2,3,4.,
根据赋分规则可知,7人赋分为2,4人赋分为1,9个人赋分为0,
所以,,,,,
所以的分布列为:
0 1 2 3 4
所以.
【名师指路】
关键点点睛:解决本题的关键是对的值合理放缩及超几何分布的应用.
12.2020年全面建成小康社会取得伟大历史成就,决战脱贫攻坚取得决定性胜利.某市积极探索区域特色经济,引导商家利用多媒体的优势,对本地特产进行广告宣传,取得了社会效益和经济效益的双丰收,某商家统计了7个月的月广告投入(单位:万元)与月销量(单位:万件)的数据如表所示:
月广告投入/万元 1 2 3 4 5 6 7
月销量/万件 28 32 35 45 49 52 60
(1)已知可用线性回归模型拟合与的关系,请用相关系数加以说明,并求关于的线性回归方程;
(2)根据(1)的结论,预计月广告投入大于多少万元时,月销量能突破70万件.
参考数据:,,.
参考公式:相关系数;
回归直线的斜率和截距的最小二乘估计分别为,.
【标准答案】(1)相关系数,线性回归模型能够很好地拟合与的关系;;(2)9.04万元.
【思路指引】
(1)现根据题中数据求得相关系数,从而说明线性回归模型能够很好地拟合与的关系,再根据题中数据求得和,进而求得回归方程;
(2)解不等式即可求出结果.
【详解详析】
(1)由题意,知,


结合,可得,
相关系数,
显然与的线性相关程度相当高,从而线性回归模型能够很好地拟合与的关系.
易知,

∴.
∴关于的线性回归方程为.
(2)若月销量突破70万件,则,
解得.
故当月广告投入大于9.04万元时,月销量能突破70万件.
【名师指路】
易错点睛:解决有关线性回归方程问题时需要特别注意:回归直线的斜率是线性回归方程中的系数,在应用公式及将数据代入线性回归方程时,不要把回归直线的斜率与截距搞混.
13.在我国,大学生就业压力日益严峻,伴随着政府政策引导与社会观念的转变,大学生创业意识,就业方向也悄然发生转变.某大学生在国家提供的税收,担保贷款等很多方面的政策扶持下选择加盟某专营店自主创业,该专营店统计了近五年来创收利润数(单位:万元)与时间(单位:年)的数据,列表如下:
1 2 3 4 5
2.4 2.7 4.1 6.4 7.9
(1)依据表中给出的数据,是否可用线性回归模型拟合与的关系,请计算相关系数并加以说明(计算结果精确到0.01).(若,则线性相关程度很高,可用线性回归模型拟合)
附:相关系数公式:
参考数据:,
(2)谈专营店为吸引顾客,特推出两种促销方案.
方案一:每满500元可减50元;
方案二:每满500元可抽奖一次,每次中奖的概率都为,中奖就可以获得100元现金奖励,假设顾客每次抽奖的结果相互独立.
某位顾客购买了2000元的产品,作为专营店老板,是希望该顾客直接选择返回现金,还是选择参加四次抽奖?说明理由.
【标准答案】(1)答案见解析;(2)专营店老板希望该顾客选择参加四次抽奖;理由见解析.
【思路指引】
(1)根据表中数据计算出相关系数可得结论;
(2)设表示顾客在四次抽奖中中奖的次数,,求出,从而可得顾客获取现金的期望值,再求得顾客直接得现金的金额,比较可得.
【详解详析】
解:(1)由题知,,,

则.
故与的线性相关程度很高,可以用线性回归方程拟合;
(2)设表示顾客在四次抽奖中中奖的次数,
由于顾客每次抽奖的结果相互独立,则,∴.
由于顾客每中一次可获得100元现金奖励,
因此顾客在四次抽奖中可获得的奖励金额的均值为.
由于顾客参加四次抽奖获得现金奖励的均值160小于直接返现的200元现金,
故专营店老板希望该顾客选择参加四次抽奖.
14.某杂志社近9年来的纸质广告收入(单位:千万元)如表所示:
年份 2012 2013 2014 2015 2016 2017 2018 2019 2020
时间代号 1 2 3 4 5 6 7 8 9
纸质广告收入 2 2.2 2.5 2.6 3 2.4 2.2 2 1.8
(1)根据2012年至2020年的数据,求与之间的线性相关系数(精确到0.001).
(2)根据2016年至2020年的数据,求与之间的线性相关系数(精确到0.001).
(3)如果要用回归直线方程预测该杂志社2021年的纸质广告收入,现在有两个方案,方案一:选取这9年的数据进行预测,方案二:选取后5年的数据进行预测.请你从实际生活背景以及线性相关性的角度分析哪个方案更合适.(当时认为两个变量有很强的线性相关关系.)
【标准答案】(1);(2);(3)方案二更合适,理由见解析.
【思路指引】
(1)求出2012年至2020年,,,,利用公式计算相关系数即可;
(2)求出2016年至2020年,,,,利用公式计算相关系数即可;
(3)根据表格中近9年来的纸质广告收入的变化,以及样本中相关系数的绝对值的大小与线性相关性强弱关系可得出结论.
【详解详析】
(1)由2012年至2020年的数据得,





所以所求线性相关系数.
(2)由2016年至2020年的数据得





所以所求线性相关系数为
.
(3)选取方案二更合适,理由如下:.
①从表格中的数据可以看出从2016年开始,纸质广告收入呈现逐年下降的趋势,可以预见2021年的纸质广告收入会接着下跌,前四年的增长趋势已经不能作为预测后续数据的依据;
②越接近1,两个变量之间的线性相关性越强,因为根据这9年的数据得到的相关系数的绝对值,我们没有理由认为与具有线性相关关系,而后5年的数据得到的相关系数的绝对值,所以认为与具有很强的线性相关关系.
15.如图是某地2014年至2020年生活垃圾无害化处理量(单位:万吨)的折线图.
注:年份代码1~7分别对应年份2014~2020.
(1)由折线图看出,可用线性回归模型拟合与的关系,请用相关系数加以证明;
(2)建立关于的回归方程(系数精确到0.01),预测2022年某地生活垃圾无害化处理量.
附注:
参考数据:,,,.
参考公式:相关系数,回归方程中斜率和截距的最小二乘法估计公式分别为,.
【标准答案】(1)存在较强的正相关关系,理由见解析
(2),1.82万吨
【思路指引】
(1)、结合参考数据及参考公式求出相关系数,进而可以得出结论;
(2)、根据参考公式求出回归直线方程,进而可以根据回归直线方程进行数据统计.
(1)
由折线图看出,与之间存在较强的正相关关系,理由如下:
,,,,
.
,故与之间存在较强的正相关关系.
(2)
由(1)结合题中数据可得,

关于的回归方程,2022年对应的值为9,故,
预测2022年该地生活垃圾无害化处理量为1.82万吨.
16.为了更好的指导青少年健康饮食,某机构调查了本地区不同身高的未成年男性,得到他们的体重的平均值,并对数据做了初步处理,得到下面的散点图及一些统计量的值.
(其中,)
(1)根据散点图判断回归方程①;②都可以作为这个地区未成年男性体重千克与身高厘米的回归方程,请结合相关系数判断哪一个回归方程更合适,并说明理由;
(2)根据(1)的判断结果及表中的数据写出体重千克与身高厘米的回归方程;
(3)若体重超过相同身高男性体重平均值的倍为偏胖,低于倍为偏瘦,现该地区有一名身高厘米的未成年男性,根据(2)的结果请你给出一个合理建议,指出他的体重应该控制在多少千克的范围内?
参考数据:;参考公式:样本的相关系数,其回归直线方程 的斜率和截距的估计值分别为,.
【标准答案】(1)更合适
(2)
(3)体重应控制在千克之间
【思路指引】
(1)通过计算相关系数进行判断即可,
(2)利用回归方程公式和表中的数据进行计算,
(3)根据(2)中的回归方程进行计算
(1)
由,得,令,则,
由题意可得其相关系数为,
,令,则,
由题意可得其相关系数为,
因为,所以与的线性相关性较强,
所以更合适
(2)
由(1)可知更适合作为这个地区未成年男性体重千克与身高厘米的回归方程,
令,则,

所以,
所以
(3)
当时,,
,,
所以体重应控制在千克之间
17.某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每件产品的非原料成本(元)与生产该产品的数量(千件)有关,经统计得到如下数据:
x 1 2 3 4 5 6 7 8
y 56.5 31 22.75 17.8 15.95 14.5 13 12.5
根据以上数据绘制了散点图观察散点图,两个变量间关系考虑用反比例函数模型和指数函数模型分别对两个变量的关系进行拟合.已求得用指数函数模型拟合的回归方程为,与x的相关系数.
(1)用反比例函数模型求y关于x的回归方程;
(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到0.001),并用其估计产量为10千件时每件产品的非原料成本;
(3)根据企业长期研究表明,非原料成本y服从正态分布,用样本平均数作为的估计值,用样本标准差s作为的估计值,若非原料成本y在之外,说明该成本异常,并称落在之外的成本为异样成本,此时需寻找出现异样成本的原因.利用估计值判断上述非原料成本数据是否需要寻找出现异样成本的原因?
参考数据(其中):
0.34 0.115 1.53 184 5777.555 93.06 30.705 13.9
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为:,,相关系数.
【标准答案】(1)
(2)反比例函数模型拟合效果更好,产量为10千件时每件产品的非原料成本约为11元,
(3)见解析
【思路指引】
(1)令,则可转化为,求出样本中心,回归方程的斜率,转化求回归方程即可,
(2)求出与的相关系数,通过比较,可得用反比例函数模型拟合效果更好,然后将代入回归方程中可求结果
(3)利用已知数据求出样本标准差s,从而可得非原料成本y服从正态分布,再计算,然后各个数据是否在此范围内,从而可得结论
(1)
令,则可转化为,
因为,
所以,
所以,所以,
所以y关于x的回归方程为
(2)
与的相关系数为
因为,所以用反比例函数模型拟合效果更好,
把代入回归方程得(元),
所以产量为10千件时每件产品的非原料成本约为11元
(3)
因为,所以,
因为样本标准差为,
所以,
所以非原料成本y服从正态分布,
所以
因为在之外,所以需要此非原料成本数据寻找出现异样成本的原因
18.2021年6月17日9时22分,我国酒泉卫星发射中心用长征2F遥十二运载火箭,成功将神舟十二号载人飞船送入预定轨道,顺利将聂海胜 刘伯明 汤洪波3名航天员送入太空,发射取得圆满成功,这标志着中国人首次进入自己的空间站.某公司负责生产的A型材料是神舟十二号的重要零件,该材料应用前景十分广泛.该公司为了将A型材料更好地投入商用,拟对A型材料进行应用改造.根据市场调研与模拟,得到应用改造投入x(亿元)与产品的直接收益y(亿元)的数据统计如下表:建立了y与x的两个回归模型:模型①:,
模型②:;
序号 1 2 3 4 5 6 7
x 2 3 4 6 8 10 13
y 15 22 27 40 48 54 60
(1)根据表格中的数据,比较模型①,②的相关指数的大小;
(2)据(2)选择拟合精度更高 更可靠的模型,预测对A型材料进行应用改造的投入为17亿元时的直接收益.
附:刻画回归效果的相关指数,且当越大时,回归方程的拟合效果越好..
回归模型 模型① 模型②
79.31 20.2
【标准答案】(1)
(2)收益为
【思路指引】
(1)对于模型①模型②,计算出, ,对应的相关指数,可得答案;
(2)故模型②拟合精度更高 更可靠,可计算出对A型材料进行应用改造的投入为17亿元时的直接收益.
(1)
对于模型①,
对应的,
故对应的,
故对应的相关指数,对于模型②,
同理对应的相关指数,.
(2)
故模型②拟合精度更高 更可靠.
故对A型材料进行应用改造的投入为17亿元时的直接收益为.
19.互联网使我们的生活日益便捷,网络外卖也开始成为不少人日常生活中不可或缺的一部分,某市一调查机构针对该市市场占有率较高的甲,乙两家网络外卖企业(以下称外卖甲、外卖乙)的经营情况进行了调查,调查结果如下表:
1日 2日 3日 4日 5日
外卖甲日接单(百单) 5 2 9 8 11
外卖乙日接单(百单) 2 3 10 5 15
(1)试根据表格中这五天的日接单量情况,从统计的角度说明这两家外卖企业的经营状况;
(2)据统计表明,与之间具有线性相关关系,请用相关系数对与之间的相关性强弱进行判断;(若,则可认为与有较强的线性相关关系,值精确到0.001)
参考数据:,.
【标准答案】(1)外卖甲比外卖乙经营状况更好
(2)答案见解析
【思路指引】
(1)由表格中的数据,直接求得,即可得结论;
(2)①根据公式,求得相关系数的值,结合,即可得到结论;
②令,根据回归直线方程,求得,进而得到外卖甲所获取的日纯利润.
(1)
由表格中的数据,可得,,
外卖甲的日接单量的方差,
外卖乙的日接单量的方差,
因为,即外卖甲平均日接单量与外卖乙平均日接单量相同,但外卖甲日接单量更集中一些,所以外卖甲比外卖乙经营状况更好.
(2)
①因为
又,,
所以代入计算可得,相关系数,
所以可认为与之间有较强的线性相关关系.
②令,可得,解得,
又,
所以当外卖乙日接单量不低于25百单时,外卖甲所获取的日纯利润大约不低于6006元.
20.某统计部门依据《中国统计年鉴——2017》提供的数据,对我国1997-2016年的国内生产总值(GDP)进行统计研究,作出了两张散点图:图1表示1997-2016年我国的国内生产总值(GDP),图2表示2007-2016年我国的国内生产总值(GDP).
(1)用表示第i张图中的年份与GDP的线性相关系数,,依据散点图的特征分别写出的结果;
(2)分别用线性回归模型和指数回归模型对两张散点图进行回归拟合,分别计算出统计数据——相关指数的数值,部分结果如下表所示:
年份 1997-2016 2007-2016
线性回归模型 0.9306
指数回归模型 0.9899 0.978
①将上表中的数据补充完整(结果保留3位小数,直接写在答题卡上);
②若估计2017年的GDP,结合数据说明采用哪张图中的哪种回归模型会更精准一些?若按此回归模型来估计,2020年的GDP能否突破100万亿元?事实上,2020年的GDP刚好突破了100万亿元,估计与事实是否吻合?结合散点图解释说明.
【标准答案】(1),
(2)①0.996,②不吻合,理由见解析.
【思路指引】
(1)观察两图,根据的范围,我们只需要确定哪个图像关联系数更高,即选择较大的那个相关系数;
(2)第一小问可根据第(1)问中确定的的值,通过来计算;第二小问可通过计算出来的数据跟已有的数据对比,选出最适合模拟最近的年份的回归模型,并且按照这个回归模型来模拟,预测2020年是否能够突破100万亿,并且根据回归模型的增长趋势来判断.
(1)
由散点图可知,图2拟合效果更好、相关系数较大,所以,.
(2)
①0.996
②由图2中的线性回归模型得到的相关指数为0.996,是所有回归模型的相关指数中数值最大的,而且2017年是最近的年份,因此选择图2中的线性回归模型来估计2017年的GDP,是比较精准的.
按照图2中的线性回归模型来估计(延长回归直线可发现),2020年不能突破100万亿元.
估计与事实不吻合.综合两张图来考虑,我国的GDP随年份的增长整体上呈现指数增长的趋势,而且2020年比2016年又多发展了4年,指数回归趋于明显,因此,按照线性回归模型得到的估计值与实际数据有偏差、不吻合,属于正常现象.
同课章节目录