第8章 成对数据的统计分析(专项训练)-【新教材】2020-2021学年人教A版(2019)高中数学选择性必修第三册(Word版含解析)

文档属性

名称 第8章 成对数据的统计分析(专项训练)-【新教材】2020-2021学年人教A版(2019)高中数学选择性必修第三册(Word版含解析)
格式 docx
文件大小 836.6KB
资源类型 教案
版本资源 人教A版(2019)
科目 数学
更新时间 2021-08-08 20:03:21

图片预览

文档简介

2020—2021学年高二数学下学期
成对数据的统计分析
专项训练
一、单选题(共12题;共60分)
1.已知具有线性相关的变量x,y,设其样本点为false,回归直线方程为false,若false(O为坐标原点),则false( )
A.-1 B.-6 C.1 D.6
2.某中学共有1000人,其中男生700人,女生300人,为了了解该校学生每周平均体育锻炼时间的情况以及经常进行体育锻炼的学生是否与性别有关(经常进行体育锻炼是指:周平均体育锻炼时间不少于4小时),现在用分层抽样的方法从中收集200位学生每周平均体育锻炼时间的样本数据(单位:小时),其频率分布直方图如图.已知在样本数据中,有40位女生的每周平均体育锻炼时间超过4小时,根据独立性检验原理( )
附:false,其中false.
false
0.10
0.05
0.01
0.005
false
2.706
3.841
6.635
7.879
A.有95%的把握认为“该校学生每周平均体育锻炼时间与性别无关”
B.有90%的把握认为“该校学生每周平均体育锻炼时间与性别有关”
C.有90%的把握认为“该校学生每周平均体育锻炼时间与性别无关”
D.有95%的把握认为“该校学生每周平均体育锻炼时间与性别有关”
3.一组数据如下表所示:
false
1
2
3
4
false
false
false
false
false
已知变量false关于false的回归方程为false,若false,则预测false的值可能为
A.false B.false C.false D.false
4.已知false的对应值表为:
false
0
1
3
4
5
6
false
false
false
false
false
false
false
且false线性相关,由于表格污损,false的对应值看不到了,若false,且线性回归直线方程为false,则false时,false的预报值为( )
A.false B.false C.false D.false
5.以下说法:
①将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;
②设有一个回归方程false,变量false增加1个单位时,false平均增加5个单位
③线性回归方程false必过false
④设具有相关关系的两个变量false的相关系数为false,那么false越接近于0,false之间的线性相关程度越高;
⑤在一个false列联表中,由计算得false的值,那么false的值越大,判断两个变量间有关联的把握就越大。
其中错误的个数是( )
A.0 B.1 C.2 D.3
6.为了研究某大型超市开业天数与销售额的情况,随机抽取了5天,其开业天数与每天的销售额的情况如表所示:
开业天数
10
20
30
40
50
销售额/天(万元)
62
75
81
89
根据上表提供的数据,求得false关于false的线性回归方程为false,由于表中有一个数据模糊看不清,请你推断出该数据的值为( )
A.68 B.68.3 C.71 D.71.3
7.下列有关命题的说法错误的是( )
A.已知false是椭圆false的两个焦点,过点false的直线与椭圆交于A,B两点,则 false的周长为false
B.若“false”为假命题,则false与false均为假命题
C.若命题false,则命题false
D.两个随机变量的线性相关性越强,相关系数的绝对值越接近于0
8.已知变量x,y之间具有较强的线性相关性,测得它们的四组数据如表所示:
x
1
2
3
4
y
false
false
false
false
现已求得变量x,y之间的回归方程为false,请根据给出的条件,预测false时,y的值约为( )
A.false B.false C.false D.false
9.下列命题中正确的个数①“false,false”的否定是“false,false”;②用相关指数false可以刻画回归的拟合效果,false值越小说明模型的拟合效果越好;③命题“若false,则false”的逆命题为真命题;④若falsefalse的解集为false,则false.
A.false B.false C.false D.false
10.从某大学中随机选取8名女大学生,其身高false(单位:false)与体重false(单位:false)数据如下表:
false
165
165
157
170
175
165
155
170
false
48
57
50
54
64
61
43
59
若已知false与false的线性回归方程为false,那么选取的女大学生身高为false时,相应的残差为( )
A.false B.0. 96 C.63. 04 D.false
11.有下列说法:
①若某商品的销售量false(件)关于销售价格false(元/件)的线性回归方程为false,当销售价格为10元时,销售量一定为300件;
②线性回归直线false一定过样本点中心false;
③若两个随机变量的线性相关性越强,则相关系数false的值越接近于1;
④在残差图中,残差点比较均匀落在水平的带状区域中即可说明选用的模型比较合适,与带状区域的宽度无关;
⑤在线性回归模型中,相关指数false表示解释变量对于预报变量变化的贡献率,false越接近于1,表示回归的效果越好;
其中正确的结论有几个
A.1 B.2 C.3 D.4
12.下列说法中错误的是
A.先把高二年级的false名学生编号为false到false,再从编号为false到false的false名学生中随机抽取false名学生,其编号为false,然后抽取编号为false,false,false的学生,这样的抽样方法是系统抽样法.
B.正态分布false在区间false和false上取值的概率相等
C.若两个随机变量的线性相关性越强,则相关系数false的值越接近于false
D.若一组数据false的平均数是false,则这组数据的众数和中位数都是false
二、填空题(共4题;共20分)
13.下列说法:
①线性回归方程false必过false;
②命题“false”的否定是“false”
③相关系数false越小,表明两个变量相关性越弱;
④在一个false列联表中,由计算得false,则有false的把握认为这两个变量间有关系;
其中正确的说法是__________.(把你认为正确的结论都写在横线上)
本题可参考独立性检验临界值表:
14.2019年7月15日,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价false元和销售量false件之间的一组数据如下表所示:
价格false
9
9.5
false
10.5
11
销售量false
11
false
8
6
5
可知,销售量false与价格false之间有较强的线性相关关系,其线性回归方程是false,且false,则其中的false______.
15.对两个变量false和false进行回归分析,得到一组样本数据false,false,…,false,则下列说法中正确的序号是______.
①由样本数据得到的回归直线方程false必过样本点的中心
②残差平方和越小的模型,拟合的效果越好
③用相关指数false来刻画回归效果,false越小说明拟合效果越好
④若变量false和false之间的相关系数为false,则变量false和false之间线性相关性强
16.下列命题中:
①已知点false,动点false满足false,则点false的轨迹是一个圆;
②已知false,则动点false的轨迹是双曲线;
③两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1;
④在平面直角坐标系内,到点false和直线false的距离相等的点的轨迹是抛物线;
正确的命题是_________.
三、解答题(共4题;共20分)
17.受疫情的影响,各实体商铺的销售额受到了不同程度的冲击,某小商品批发市场的管理部门提出了“线上线下两不误,打赢销售攻坚战”的口号,鼓励小商品批发市场内的所有商户开展线上销售活动.管理部门为了调查商户每天销售额与每天线上销售时间之间的相关关系,对小商品批发市场内的商户随机选取45家进行跟踪调查,其中每日线上销售时间不少于6小时的商户有19家,余下的商户中,每天的销售额不足3万元的占false,统计后得到如下 false列联表:
销售额不少于3万元
销售额不足3万元
合计
线上销售时间不少于6小时
4
19
线上销售时间不足6小时
合计
45
(1)请完成上面的false列联表,并判断是否所有99%的把握认为“小商品批发市场内的商户每天销售额与商户每天线上销售时间有关.”
(2)(i)按分层抽样的方法,在上述样本中从销售额不少于3万元和销售额不足3万元的两组商户上抽取9家商户,设抽到销售额不足3万元且每天线上销售时间不足6小时的人数是false,求false的分布列(概率用组合数算式表示);
(ii)若将频率视为概率,从小商品批发市场内所有商户中每天销售额不少于3万元的商户中随机抽取20家,求这些商户中每天线上销售时间不少于6小时的商户家数的数学期望和方差.
附:
false(false)
0.10
0.05
0.025
0.010
0.005
0.001
false
2.706
3.841
5.024
6.635
7.879
10.828
参考公式:false,其中 false.
18.某公司研发了一种帮助家长解决孩子早教问题的萌宠机器人.萌宠机器人语音功能让它就像孩子的小伙伴一样和孩子交流,记忆功能还可以记住宝宝的使用习惯,很快找到宝宝想听的内容.同时提供快乐儿歌、国学经典、启蒙英语等早期教育内容,且云端内容可以持续更新.萌宠机器人一投放市场就受到了很多家长欢迎.为了更好地服务广大家长,该公司研究部门从流水线上随机抽取100件萌宠机器人(以下简称产品),统计其性能指数并绘制频率分布直方图(如图1):
产品的性能指数在false的适合托班幼儿使用(简称A类产品),在false的适合小班和中班幼儿使用(简称B类产品),在false的适合大班幼儿使用(简称C类产品),A,B,C,三类产品的销售利润分别为每件1.5,3.5,5.5(单位:元).以这100件产品的性能指数位于各区间的频率代替产品的性能指数位于该区间的概率.
(1)求每件产品的平均销售利润;
(2)该公司为了解年营销费用false(单位:万元)对年销售量false(单位:万件)的影响,对近5年的年营销费用false,和年销售量false数据做了初步处理,得到的散点图(如图2)及一些统计量的值.
false
false
false
false
16.30
24.87
0.41
1.64
表中false,false,false,false.
根据散点图判断,false可以作为年销售量false(万件)关于年营销费用false(万元)的回归方程.
(i)建立false关于false的回归方程;
(ii)用所求的回归方程估计该公司应投入多少营销费,才能使得该产品一年的收益达到最大?
(收益=销售利润-营销费用,取false).
参考公式:对于一组数据false,其回归直线false的斜率和截距的最小二乘估计分别为false,false.
19.某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每批产品的非原料总成本false(元)与生产该产品的数量false(千件)有关,经统计得到如下数据:
false
1
2
3
4
5
6
7
false
6
11
21
34
66
101
196
根据以上数据,绘制如图所示的散点图.
观察散点图,两个变量不具有线性相关关系,现考虑用对数函数模型false和指数函数模型false分别对两个变量的关系进行拟合.
(1)根据散点图判断,false与false(false,false均为大于零的常数)哪一个适宜作为非原料总成本false关于生产该产品的数量false的回归方程类型;(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表1中的数据,建立false关于false的回归方程;
(3)已知每件产品的原料成本为10元,若该产品的总成本不得高于123470元,请估计最多能生产多少千件产品.
参考数据:
false
false
false
false
false
62.14
1.54
2535
50.12
3.47
其中false,false.
参考公式:对于一组数据false,false,…,false,其回归直线false的斜率和截距的最小二乘估计公式分别为false,false.
20.2018年11月5日至10日,首届中国国际进口博览会在国家会展中心(上海)举行,吸引过来58个“一带一路”沿线国家的超过1000多家企业参展,成为共建“一带一路”的又一个重要支撑。某企业为了参加这次盛会,提升行业竞争力,加大了科技投入;该企业连续6年来得科技投入false(百万元)与收益false(百万元)的数据统计如下:
根据散点图的特点,甲认为样本点分布在指数曲线false的周围,据此他对数据进行了一些初步处理,如下表:
其中false,false.
(1)(false)请根据表中数据,建立false关于false的回归方程(保留一位小数);
(false)根据所建立回归方程,若该企业想在下一年的收益达到2亿,则科技投入的费用至少要多少(其中false)?
(2)乙认为样本点分布在二次曲线false的周围,并计算得回归方程为false,以及该回归模型的相关指数false,试比较甲乙两位员工所建立的模型,谁的拟合效果更好.
附:对于一组数据false,false,……false,其回归直线方程false的斜率和截距的最小二乘估计分别为false,false,相关指数:false.
参考答案
1.A
【详解】
因为样本点为false且false,
所以false
所以false ,
false;
又回归直线方程为false过false,
∴false,解得false,
故选:A.
2.B
【详解】
由频率分布直方图可知, 平均体育锻炼时间不少于4小时的频率为false,故经常进行体育锻炼的学生false人.又其中有40位女生的每周平均体育锻炼时间超过4小时,故有false位男生经常锻炼.根据分层抽样的方法可知,样本中男生的人数为false,女生有false.列出false列联表有:
男生
女生
总计
经常锻炼
110
40
150
不经常锻炼
30
20
50
总计
140
60
200
故false,因为false.
故有90%的把握认为“该校学生每周平均体育锻炼时间与性别有关”.
故选:B
3.C
【详解】
将式子两边取对数,得到false,令false,得到false,
根据已知表格数据,得到false的取值对照表如下:
false
false
false
false
false
false
false
false
false
false
由上述表格可知:
false,false,
利用回归直线过样本中心点,即可得false,
求得false,则false,
进而得到false,将false代入,
解得false.
故选:C.
4.A
【详解】
由表格知,false,
falsefalse
false,
代入false得:false,
false,
则回归方程为false,
当false时,false,
故选:A.
5.C
【详解】
方差反映一组数据的波动大小,将一组数据中的每个数据都加上或减去同一个常数后,方差不变,故①正确;一个回归方程false,变量false增加1个单位时,false平均减少5个单位,故②不正确;线性回归方程false必过样本中心点,故③正确;根据线性回归分析中相关系数的定义:在线性回归分析中,相关系数为r,false越接近于1,相关程度越大,故④不正确;对于观察值false来说,false越大,“x与y有关系”的可信程度越大,故⑤正确.
故选:C
6.A
【详解】
根据表中数据,可得false,
代入线性回归方程false中,
求得false,
则表中模糊不清的数据是false,
故选:A.
7.D
【详解】
椭圆false的标准方程是false,false,false的周长为false,A正确;
若“false”为假命题,则false都是假命题,false只要有一个为真,则false为真,B正确;
命题false,则命题false,C正确;
两个随机变量的线性相关性越强,相关系数的绝对值越接近于1,D错.
故选:D.
8.B
【详解】
false,false,
false,则线性回归方程为false,
取false,得false.
故选:B.
9.C
【详解】
①根据全称量词的否定可知“false,false”的否定是“false,false”,则①错误;
②相关指数false越接近false,模型拟合度越高,即拟合效果越好;false越接近false,模型拟合度越低,即拟合效果越差,则②错误;
③若“false,则false”的逆命题为:若“若false,则false”,根据不等式性质可知其为真命题,则③正确;
④当false时,false,此时解集不为false,不合题意;
当false时,若false解集为false,只需:false
解得:false,则④正确.
false正确的命题为:③④
本题正确选项:false
10.B
【详解】
已知false与false的线性回归方程为false
当false时:false
相应的残差为:false
故答案选B
11.B
【详解】
①当销售价格为false时,销售量的预估值为false件,但预估值与实际值未必相同,①错误;
②由最小二乘法可知,回归直线必过false,②正确;
③若两个随机变量为负相关,若线性相关性越强,相关系数false越接近false,③错误;
④残差图中,带状区域越窄,模型拟合度越高,④错误;
⑤相关指数false越接近false,拟合度越高,则在线性回归模型中,回归效果越好,⑤正确.
可知正确的结论为:②⑤,共false个
本题正确选项:false
12.C
【详解】
对于false,根据抽样方法特征是数据多,抽样间隔相等,是系统抽样,false正确;
对于false,正态分布false的曲线关于false对称,区间false和false与对称轴距离相等,所以在两个区间上的概率相等,false正确;
对于false,两个随机变量的线性相关性越强,则相关系数false的值越接近于false,false错误;
对于false,一组数据false的平均数是false,false;所以该组数据的众数和中位数均为false,false正确..
13.①④
【解析】
分析:根据性回归方程,独立性检验,相关关系,以及命题的否定等知识,选出正确的,得到结果.
详解:线性回归方程false必过样本中心点false,故①正确.
命题“false”的否定是“false” 故②错误
③相关系数r绝对值越小,表明两个变量相关性越弱,故不正确;
④在一个false列联表中,由计算得false,则有false的把握认为这两个变量间有关系,正确.
故答案为①④.
14.10
【详解】
依题意false,代入回归直线方程得false①,根据题意false②,解①②组成的方程组得false,故填false.
15.①②④
【详解】
由题意,根据回归直线方程的特征,可得线性回归直线方程一定过样本中心,所以①正确;
根据残差的概念,可得残差平方和越小的模型,拟合效果越好,所以②正确;
根据相关指数的概念,可得false越大说明拟合效果越好,所以③不正确;
若变量false和false之间的相关系数为false,则变量false和false之间负相关,且线性相关性强,所以④正确;
故答案为:①②④.
16.①③
【详解】
①:设动点false,由false,故可得false,
整理得:false,且false,故该方程表示圆,则①正确;
②:根据双曲线的定义,false,
则动点false的轨迹只表示双曲线的左支,故②错误;
③:根据相关系数的性质,相关性越强,则相关系数的绝对值就越接近于1,故③正确;
④:因为点false在直线false上,
故满足题意的点的轨迹为过点false且垂直于直线false的直线,故④错误.
故答案为:①③.
17.(1)列联表见解析,有99%的把握;(2)(i)分布列见解析;(ii)false,false.
【详解】
(1)
销售额不少于3万元
销售额不足3万元
合计
线上销售时间不少于6小时
15
4
19
线上销售时间不足6小时
10
16
26
合计
25
20
45
false,
∴有99%的把握认为“小商品批发市场内的商户每天销售额与商户每天线上销售时间有关”.
(2)(i)由分层抽样知,需要从销售额不足3万元的商户中抽取false(家),则false的可能取值为0,1,2,3,4,
∴false,false,false,false,false,
∴false的分布列为
false
0
1
2
3
4
false
false
false
false
false
false
(ii)从全市场销售额不少于3万元的商户中随机抽取1家,此商户每天线上销售时间不少于6小时的概率为false,设从全市场销售额不少于3万元的商户中随机抽取20家,这些商户中每天线上销售时间不少于6小时的人数为false,则false,故false,false.
18.(1)每件产品的平均销售利润为4元(2)(i)false(ii)该厂应投入256万元营销费.
【详解】
(1)设每件产品的销售利润为false元,则false的所有可能取值为1.5,3.5,5.5,
由直方图可得,false,false,false三类产品的频率分别为0.15、0.45、0.4,
所以,false,false,false,
所以随机变量false的分布列为:
false
1.5
3.5
5.5
false
0.15
0.45
0.4
所以,false,
故每件产品的平均销售利润为4元;
(2)(i)由false得,false,
令false,false,false,则false,
由表中数据可得,false,
则false,
所以,false,
即false,
因为false,所以false,
故所求的回归方程为false;
(ii)设年收益为false万元,则false,
设false,false,
则false,
当false时,false,false在false单调递增,
当false时,false,false在false单调递减,
所以,当false,即false时,false有最大值为768,
即该厂应投入256万元营销费,能使得该产品一年的收益达到最大768万元.
19.(1)false适宜;(2)false;(3)12千件产品.
【详解】
(1)根据散点图判断,false适宜作为非原料总成本y关于生产该产品的数量x的回归方程类型.
(2)由false,两边同时取常用对数得false.
设false,∴false,
∵false,
∴false.
把false代入false,得false,
∴false,∴false,
∴false,
即y关于x的回归方程为false.
(3)设生产了x千件该产品.则生产总成本为false.
又false在其定义域内单调递增,且false,
故最多能生产12千件产品.
20.(1)(i)false;(ii)false;(2)甲建立的回归模型拟合效果更好
【详解】
(1)(false)false,令false.
令false,则false,根据最小二乘估计可知false.
从而false,故回归方程为false,也即false.
(false)设false,解得false=>false.
(2)先计算残差:
则false,从而false.
即甲建立的回归模型拟合效果更好.