专题5 统计案例(提升篇,含解析)-2020-2021学年高二数学下学期专题复习卷(江苏专用)(Word含解析)

文档属性

名称 专题5 统计案例(提升篇,含解析)-2020-2021学年高二数学下学期专题复习卷(江苏专用)(Word含解析)
格式 zip
文件大小 773.0KB
资源类型 教案
版本资源 苏教版(2019)
科目 数学
更新时间 2021-05-25 14:54:44

文档简介

2020-2021学年高二数学下学期统计案例章末检测卷(提升篇)
一、选择题:本题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的.
1.已知x,y之间一组数据
则与之间的线性回归方程必过点(

A.
B.
C.
D.
2.为了调查中学生近视情况,某校名男生中有名近视,名女生中有名近视,在检验这些中学生眼睛近视是否与性别有关时,用(
)方法最有说服力
A.平均数
B.方差
C.回归分析
D.独立性检验
3.为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,经计算得x2=7.01,则认为“喜欢乡村音乐与性别有关系”的把握约为(

α
0.1
0.05
0.01
0.005
0.001

2.706
3.841
6.635
7.879
10.828
A.0.1%
B.1%
C.99%
D.99.9%
4.对两个变量y和x进行回归分析,得到一组样本数据:,,…,,则下列说法中不正确的是(  )
A.由样本数据得到的回归方程必过样本中心
B.残差平方和越小的模型,拟合的效果越好
C.用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好
D.若变量y和x之间的相关系数为r=-0.9362,则变量y和x之间具有线性相关关系
5.某省二线城市地铁正式开工建设,地铁时代的到来能否缓解该市的交通拥堵状况呢?某社团进行社会调查,得到的数据如下表:
男性市民
女性市民
认为能缓解交通拥堵
认为不能缓解交通拥堵
附:.
则下列结论正确的是(

A.有的把握认为“对能否缓解交通拥堵的认识与性别有关”
B.有的把握认为“对能否缓解交通拥堵的认识与性别无关”
C.有的把握认为“对能否缓解交通拥堵的认识与性别有关”
D.有的把握认为“对能否缓解交通拥堵的认识与性别无关”
6.如图是某地区2010年至2019年污染天数y(单位:天)与年份x的折线图.根据2010年至2014年数据,2015年至2019年的数据,2010年至2019年的数据分别建立线性回归模型,,,则(  )
A.b1<b2<b3,a1<a2<a3
B.b1<b3<b2,a1<a3<a2
C.b2<b3<b1,a1<a3<a2
D.b2<b3<b1,a3<a2<a1
7.有下列四个命题:(

①在回归分析中,残差的平方和越小,模型的拟合效果越好;
②在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适;
③若数据,,…,的平均数为1,则,,…的平均数为2;
④对分类变量与的随机变量的观测值来说,越小,判断“与有关系”的把握越大.
其中真命题的个数为(

A.1
B.2
C.3
D.4
8.是指空气中直径小于或等于2.5微米的颗粒物(也称可入肺颗粒物).为了探究车流量与的浓度是否有关,现采集到某城市周一至周五某一时间段车流量与的浓度的数据如下表.由最小二乘法求得回归直线方程.表中一个数据模糊不清,请你推断出该数据为(

时间
周一
周二
周三
周四
周五
车流量(万辆)
100
102
108
114
116
的浓度(微克/立方米)
78
84
88
90
A.78
B.79
C.80
D.81
二、选择题:本题共4小题,每小题5分,共20分.在每小题给出的选项中,有多项符合题目要求.全部选对的得5分,部分选对的得2分,有选错的得0分.
9.
因防疫的需要,多数大学开学后启用封闭式管理.某大学开学后也启用封闭式管理,该校有在校学生9000人,其中男生4000人,女生5000人,为了解学生在封闭式管理期间对学校的管理和服务的满意度,随机调查了40名男生和50名女生,每位被调查的学生都对学校的管理和服务给出了满意或不满意的评价,经统计得到如下列联表:
满意
不满意

20
20

40
10
附表:
P(K2≥k)
0.100
0.05
0.025
0.010
0.001
k
2.706
3
.841
5.024
6.635
10.828
附:
以下说法正确的有(

A.满意度的调查过程采用了分层抽样的抽样方法
B.该学校学生对学校的管理和服务满意的概率的估计值为0.6
C.有99%的把握认为学生对学校的管理和服务满意与否与性别有关系
D.没有99%的把握认为学生对学校的管理和服务满意与否与性别有关系
10.月亮公转与自转的周期大约为30天,阴历是以月相变化为依据.人们根据长时间的观测,统计了月亮出来的时间y(简称“月出时间”,单位:小时)与天数x(x为阴历日数,,且)的有关数据,如下表,并且根据表中数据,求得y关于x的线性回归方程为.
x
2
4
7
10
15
22
y
12
24
其中,阴历22日是分界线,从阴历22日开始月亮就要到第二天(即23日)才升起.则(

A.
样本点的中心为
B.
C.
预报月出时间为16时的那天是阴历13日
D.
预报阴历27日的月出时间为阴历28日早上
11.以下四个命题中正确的是(

A.8道四选一的单选题,随机猜结果,猜对答案的题目数
B.两个随机变量的线性相关性越强,则相关系数的绝对值越接近于
C.在某项测量中,测量结果服从正态分布(),若在内取值的概率为,则在内取值的概率为
D.对分类变量与的随机变量的观测值来说,越小,判断“与有关系”的把握程度越大
12.关于变量x,y的n个样本点及其线性回归方程.下列说法正确的有(

A.相关系数r的绝对值|r|越接近0,表示x,y的线性相关程度越强
B.相关指数的值越接近1,表示线性回归方程拟合效果越好
C.残差平方和越大,表示线性回归方程拟合效果越好
D.若,则点一定在线性回归方程上
三、填空题:本题共4小题,每小题5分,共20分.
13.已知变量y与x线性相关,若,,且y与x的线性回归直线的斜率为6.5,则由y与x的线性回归方程可得,当时,________.
14.为了判断某高中学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
理科
文科

13
10

7
20
已知P(x2≥3.841)≈0.05,P(x2≥6.635)≈0.01.根据表中数据,得到x2=≈4.844,则认为选修文科与性别有关系出错的概率约为________.
15.在新型冠状病毒疫情期间,某高中学校实施线上教学,为了解线上教学的效果,随机抽取了名学生对线上教学效果进行评分(满分100分),记低于的评分为“效果一般”,不低于分为“效果较好”.请补充完整列联表;通过计算判断,有没有_________的把握认为线上教学效果评分为“效果较好”与性别有关?
效果一般
效果较好
合计


合计
16.我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十四五”规划.某企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金.现该企业为了了解年研发资金投入额(单位:亿元)对年盈利额(单位:亿元)的影响,研究了“十二五”和“十三五”规划发展期间近10年年研发资金投入额和年盈利额的数据.通过对比分析,建立了两个函数模型:①,②,其中,,,均为常数,为自然对数的底数.令,,经计算得如下数据:
26
215
65
2
680
5.36
11250
130
2.6
12
请从相关系数的角度分析,模型拟合程度更好是________________;利用模型拟合程度更好的模型以及表中数据,建立关于的回归方程为__________;(系数精确到0.01)
附:①相关系数,回归直线中:,
四、解答题:本题共6小题,共70分.解答应写出文字说明、证明过程或演算步骤.
17.垃圾是人类日常生活和生产中产生的废弃物,由于排出量大,成分复杂多样,且具有污染性,所以需要无害化?减量化处理.某市为调查产生的垃圾数量,采用简单随机抽样的方法抽取20个县城进行了分析,得到样本数据,其中和分别表示第个县城的人口(单位:万人)和该县年垃圾产生总量(单位:吨),并计算得,,,,.
(1)请用相关系数说明该组数据中与之间的关系可用线性回归模型进行拟合;
(2)求关于的线性回归方程,用所求回归方程预测该市10万人口的县城年垃圾产生总量约为多少吨?
参考公式:相关系数,对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计分别为,.
18.年,全球爆发了新冠肺炎疫情,为了预防疫情蔓延,某校推迟年的春季线下开学,并采取了“停课不停学”的线上授课措施.为了解学生对线上课程的满意程度,随机抽取了该校的名学生(男生与女生的人数之比为)对线上课程进行评价打分,若评分不低于分视为满意.其得分情况的频率分布直方图如图所示,若根据频率分布直方图得到的评分不低于分的频率为.
(1)求的值,并估计名学生对线上课程评分的平均值;(每组数据用该组的区间中点值为代表)
(2)结合频率分布直方图,请完成以下列联表,并回答能否有的把握认为对“线上教学是否满意与性别有关”.
性别
态度
满意
不满意
合计
男生
女生
合计
附:随机变量
19.某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每批产品的非原料总成本(元)与生产该产品的数量(千件)有关,经统计得到如下数据:
1
2
3
4
5
6
7
6
11
21
34
66
101
196
根据以上数据,绘制如图所示的散点图.
观察散点图,两个变量不具有线性相关关系,现考虑用对数函数模型和指数函数模型分别对两个变量的关系进行拟合.
(1)根据散点图判断,与(,均为大于零的常数)哪一个适宜作为非原料总成本关于生产该产品的数量的回归方程类型;(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表1中的数据,建立关于的回归方程;
(3)已知每件产品的原料成本为10元,若该产品的总成本不得高于123470元,请估计最多能生产多少千件产品.
参考数据:
62.14
1.54
2535
50.12
3.47
其中,.
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计公式分别为,.
20.习近平总书记在党的十九大工作报告中提出,永远把人民美好生活的向往作为奋斗目标.在这一号召下,全国人民积极工作,健康生活.当前,“日行万步”正式成为健康生活的代名词.某地一研究团队统计了该地区位居民的日行步数,得到如下表格:
日行步数(单位:千步)
人数
(1)为研究日行步数与居民年龄的关系,以日行步数是否超过千步为标准进行分层抽样,从上述位居民中抽取人,得到如下列联表,请将列联表补充完整,并根据列联表判断是否有的把握认为日行步数与居民年龄超过岁有关;
日行步数千步
日行步数千步
总计
岁以上
岁以下(含岁)
总计
(2)以这位居民日行步数超过千步的频率,代替该地区位居民日行步数超过千的概率,每位居民日行步数是否超过千相互独立.为了深入研究,该研究团队随机调查了位居民,其中日行步数超过千的最有可能(即概率最大)是多少位居民?
附:
,其中.
21.我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十四五”规划.某企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金.现该企业为了了解年研发资金投入额(单位:亿元)对年盈利额(单位:亿元)的影响,研究了“十二五”和“十三五”规划发展期间近10年年研发资金投入额和年盈利额的数据.通过对比分析,建立了两个函数模型:①,②,其中,,,均为常数,为自然对数的底数.令,,经计算得如下数据:
26
215
65
2
680
5.36
11250
130
2.6
12
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)(ⅰ)根据(1)的选择及表中数据,建立关于的回归方程;(系数精确到0.01)
(ⅱ)若希望2021年盈利额为250亿元,请预测2021年的研发资金投入额为多少亿元?(结果精确到0.01)
附:①相关系数,回归直线中:,
②参考数据:,.
22.2020年初,新型冠状病毒(2019-nCoV)肆虐,全民开启防疫防控.新型冠状病毒的传染主要是人与人之间进行传播,感染人群年龄大多数是40岁以上人群.该病毒进入人体后有潜伏期,潜伏期是指病原体侵入人体至最早出现临床症状的这段时间.潜伏期越长,感染到他人的可能性越高,现对200个病例的潜伏期(单位:天)进行调查,统计发现潜伏期平均数为7.1,方差为.如果认为超过8天的潜伏期属于“长潜伏期”,按照年龄统计样本,得到下面的列联表:
年龄/人数
长期潜伏
非长期潜伏
40岁以上
30
110
40岁及40岁以下
20
40
(1)是否有95%的把握认为“长期潜伏”与年龄有关;
(2)假设潜伏期X服从正态分布,其中近似为样本平均数,近似为样本方差.
(ⅰ)现在很多省份对入境旅客一律要求隔离14天,请用概率的知识解释其合理性;
(ⅱ)以题目中的样本频率估计概率,设1000个病例中恰有个属于“长期潜伏”的概率是,当k为何值时,取得最大值.
附:
0.1
0.05
0.010
2.706
3.841
6.635
若则.,.2020-2021学年高二数学下学期统计案例章末检测卷(提升篇)
一、选择题:本题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的.
1.已知x,y之间一组数据
则与之间的线性回归方程必过点(

A.
B.
C.
D.
【答案】D
【解析】因为,,
所以与之间的线性回归方程必过点.
故选:D.
2.为了调查中学生近视情况,某校名男生中有名近视,名女生中有名近视,在检验这些中学生眼睛近视是否与性别有关时,用(
)方法最有说服力
A.平均数
B.方差
C.回归分析
D.独立性检验
【答案】D
【解析】分析已知条件,得如下表格.
男生
女生
合计
近视
80
70
150
不近视
70
70
140
合计
150
140
290
根据列联表利用公式可得的值,
再与临界值比较,检验这些中学生眼睛近视是否与性别有关,
故利用独立性检验的方法最有说服力.
故选:D.
3.为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,经计算得x2=7.01,则认为“喜欢乡村音乐与性别有关系”的把握约为(

α
0.1
0.05
0.01
0.005
0.001

2.706
3.841
6.635
7.879
10.828
A.0.1%
B.1%
C.99%
D.99.9%
【答案】C
【解析】易知x2=7.01>6.635,对照临界值表知,有99%的把握认为喜欢乡村音乐与性别有关系.
故选:C
4.对两个变量y和x进行回归分析,得到一组样本数据:,,…,,则下列说法中不正确的是(  )
A.由样本数据得到的回归方程必过样本中心
B.残差平方和越小的模型,拟合的效果越好
C.用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好
D.若变量y和x之间的相关系数为r=-0.9362,则变量y和x之间具有线性相关关系
【答案】C
【解析】A:样本中心点在回归直线上,正确;
B:残差平方和越小的模型,拟合效果越好,正确,
C:R2越大拟合效果越好,不正确,
D:当的值大于0.8时,表示两个变量具有高度线性相关关系,正确.
故选:C.
5.某省二线城市地铁正式开工建设,地铁时代的到来能否缓解该市的交通拥堵状况呢?某社团进行社会调查,得到的数据如下表:
男性市民
女性市民
认为能缓解交通拥堵
认为不能缓解交通拥堵
附:.
则下列结论正确的是(

A.有的把握认为“对能否缓解交通拥堵的认识与性别有关”
B.有的把握认为“对能否缓解交通拥堵的认识与性别无关”
C.有的把握认为“对能否缓解交通拥堵的认识与性别有关”
D.有的把握认为“对能否缓解交通拥堵的认识与性别无关”
【答案】A
【解析】由列联表,可求的观测值为,
由统计表,
所以,有的把握认为“能否缓解交通拥堵的认识与性别有关”.
故选:A.
6.如图是某地区2010年至2019年污染天数y(单位:天)与年份x的折线图.根据2010年至2014年数据,2015年至2019年的数据,2010年至2019年的数据分别建立线性回归模型,,,则(  )
A.b1<b2<b3,a1<a2<a3
B.b1<b3<b2,a1<a3<a2
C.b2<b3<b1,a1<a3<a2
D.b2<b3<b1,a3<a2<a1
【答案】C
【解析】2010年至2014年数据,2015年至2019年的数据,2010年至2019年的数据的回归模型分别为,
∴由图知:2010年至2014年数据为;2015年至2019年数据为;2010年至2019年数据为;均成递减趋势,
又,,,且极差分别为6、51、65,三条回归方程的直线大致图象,如下图示:
∴回归方程的斜率大小关系为,且截距.
故选:C.
7.有下列四个命题:(

①在回归分析中,残差的平方和越小,模型的拟合效果越好;
②在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适;
③若数据,,…,的平均数为1,则,,…的平均数为2;
④对分类变量与的随机变量的观测值来说,越小,判断“与有关系”的把握越大.
其中真命题的个数为(

A.1
B.2
C.3
D.4
【答案】C
【解析】根据残差的意义知,残差的平方和越小,模型的拟合效果越好,所以①为真命题;
由残差的意义知,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适,
所以②真命题;
若数据,,…,的平均数为1,则,,…的平均数为也扩大为原来的2倍,即平均数为2,所以③是真命题;
对分类变量与的随机变量的观测值来说,应该是越大,判断“与有关系”的把握越大,所以④是假命题.故选:C.
8.是指空气中直径小于或等于2.5微米的颗粒物(也称可入肺颗粒物).为了探究车流量与的浓度是否有关,现采集到某城市周一至周五某一时间段车流量与的浓度的数据如下表.由最小二乘法求得回归直线方程.表中一个数据模糊不清,请你推断出该数据为(

时间
周一
周二
周三
周四
周五
车流量(万辆)
100
102
108
114
116
的浓度(微克/立方米)
78
84
88
90
A.78
B.79
C.80
D.81
【答案】C
【解析】
设表中模糊不清的数据为,由表中数据得,,因为由最小二乘法求得回归方程为,将,代入回归直线方程,得.故选:C.
二、选择题:本题共4小题,每小题5分,共20分.在每小题给出的选项中,有多项符合题目要求.全部选对的得5分,部分选对的得2分,有选错的得0分.
9.
因防疫的需要,多数大学开学后启用封闭式管理.某大学开学后也启用封闭式管理,该校有在校学生9000人,其中男生4000人,女生5000人,为了解学生在封闭式管理期间对学校的管理和服务的满意度,随机调查了40名男生和50名女生,每位被调查的学生都对学校的管理和服务给出了满意或不满意的评价,经统计得到如下列联表:
满意
不满意

20
20

40
10
附表:
P(K2≥k)
0.100
0.05
0.025
0.010
0.001
k
2.706
3
.841
5.024
6.635
10.828
附:
以下说法正确的有(

A.满意度的调查过程采用了分层抽样的抽样方法
B.该学校学生对学校的管理和服务满意的概率的估计值为0.6
C.有99%的把握认为学生对学校的管理和服务满意与否与性别有关系
D.没有99%的把握认为学生对学校的管理和服务满意与否与性别有关系
【答案】AC
【解析】因为男女比例为4000︰5000,故A正确.满意的频率为,所以该学校学生对学校的管理和服务满意的概率的估计值约为0.667,所以B错误.
由列联表,故有99%的把握认为学生对学校的管理和服务满意与否与性别有关系,所以C正确,D错误.
故选:AC.
10.月亮公转与自转的周期大约为30天,阴历是以月相变化为依据.人们根据长时间的观测,统计了月亮出来的时间y(简称“月出时间”,单位:小时)与天数x(x为阴历日数,,且)的有关数据,如下表,并且根据表中数据,求得y关于x的线性回归方程为.
x
2
4
7
10
15
22
y
12
24
其中,阴历22日是分界线,从阴历22日开始月亮就要到第二天(即23日)才升起.则(

A.
样本点的中心为
B.
C.
预报月出时间为16时的那天是阴历13日
D.
预报阴历27日的月出时间为阴历28日早上
【答案】AD
【解析】,,
故样本点的中心为,选项A正确;
将样本点的中心为代入得,故选项B错误;
∵,当求得,月出时间为阴历12日,选项C错误;
∵阴历27日时,即,代入,日出时间应该为28日早上,选项D正确;
故选:AD.
11.以下四个命题中正确的是(

A.8道四选一的单选题,随机猜结果,猜对答案的题目数
B.两个随机变量的线性相关性越强,则相关系数的绝对值越接近于
C.在某项测量中,测量结果服从正态分布(),若在内取值的概率为,则在内取值的概率为
D.对分类变量与的随机变量的观测值来说,越小,判断“与有关系”的把握程度越大
【答案】ABC
【解析】A:由二项分布的特征,每道题猜对的概率为,猜任意一道题都属于独立试验,所以猜对答案的题目数服从,正确;
B:由,根据相关系数的意义,当接近于1时随机变量相关性越强,当接近于0时随机变量相关性越弱,正确;
C:由题设,结合正态分布的对称性知:在内取值的概率为,则在内取值的概率为,正确;
D:由卡方检验的k值越大,变量有关系把握程度越大;k值越小,变量有关系把握程度越小,错误;
故选:ABC.
12.关于变量x,y的n个样本点及其线性回归方程.下列说法正确的有(

A.相关系数r的绝对值|r|越接近0,表示x,y的线性相关程度越强
B.相关指数的值越接近1,表示线性回归方程拟合效果越好
C.残差平方和越大,表示线性回归方程拟合效果越好
D.若,则点一定在线性回归方程上
【答案】BD
【解析】根据线性相关系数的意义可知,当的绝对值越接近于0时,
两个随机变量线性相关性越弱,则A错误;
用相关指数来刻画回归效果,越大,说明模型的拟合效果越好,则B正确;
拟合效果的好坏是由残差平方和来体现的,残差平方和越大,拟合效果越差,则C错误;
样本中心点一定在回归直线上,则D正确.
故选:BD.
三、填空题:本题共4小题,每小题5分,共20分.
13.已知变量y与x线性相关,若,,且y与x的线性回归直线的斜率为6.5,则由y与x的线性回归方程可得,当时,________.
【答案】37
【解析】设线性回归方程为,
,,与的线性回归直线的斜率为6.5,

关于的线性回归方程为.
时,.
故答案为:37.
14.为了判断某高中学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
理科
文科

13
10

7
20
已知P(x2≥3.841)≈0.05,P(x2≥6.635)≈0.01.根据表中数据,得到x2=≈4.844,则认为选修文科与性别有关系出错的概率约为________.
【答案】0.05
【解析】因为x2≈4.844>3.841,而P(x2≥3.841)≈0.05,故认为选修文科与性别有关系出错的概率约为0.05.
故答案为:0.05.
15.在新型冠状病毒疫情期间,某高中学校实施线上教学,为了解线上教学的效果,随机抽取了名学生对线上教学效果进行评分(满分100分),记低于的评分为“效果一般”,不低于分为“效果较好”.请补充完整列联表;通过计算判断,有没有_________的把握认为线上教学效果评分为“效果较好”与性别有关?
效果一般
效果较好
合计


合计
【答案】列联表见解析;有的把握认为线上教学效果评分为“效果较好”与性别有关;
【解析】由题意,补充后的列联表为
效果一般
效果较好
合计


合计
则,
因此有的把握认为线上教学效果评分为“效果较好”与性别有关.故答案为:
16.我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十四五”规划.某企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金.现该企业为了了解年研发资金投入额(单位:亿元)对年盈利额(单位:亿元)的影响,研究了“十二五”和“十三五”规划发展期间近10年年研发资金投入额和年盈利额的数据.通过对比分析,建立了两个函数模型:①,②,其中,,,均为常数,为自然对数的底数.令,,经计算得如下数据:
26
215
65
2
680
5.36
11250
130
2.6
12
请从相关系数的角度分析,模型拟合程度更好是________________;利用模型拟合程度更好的模型以及表中数据,建立关于的回归方程为__________;(系数精确到0.01)
附:①相关系数,回归直线中:,
【答案】模型的拟合程度更好
【解析】设和的相关系数为,和的相关系数为,
由题意,,

则,因此从相关系数的角度,模型的拟合程度更好.
先建立关于的线性回归方程,由,得,即,


所以关于的线性回归方程为,
所以,则.
故答案为:模型的拟合程度更好
四、解答题:本题共6小题,共70分.解答应写出文字说明、证明过程或演算步骤.
17.垃圾是人类日常生活和生产中产生的废弃物,由于排出量大,成分复杂多样,且具有污染性,所以需要无害化?减量化处理.某市为调查产生的垃圾数量,采用简单随机抽样的方法抽取20个县城进行了分析,得到样本数据,其中和分别表示第个县城的人口(单位:万人)和该县年垃圾产生总量(单位:吨),并计算得,,,,.
(1)请用相关系数说明该组数据中与之间的关系可用线性回归模型进行拟合;
(2)求关于的线性回归方程,用所求回归方程预测该市10万人口的县城年垃圾产生总量约为多少吨?
参考公式:相关系数,对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计分别为,.
【答案】(1)答案见解析;(2)252.5吨.
【解析】(1)由题意知,相关系数.
因为与的相关系数接近1,
所以与之间具有较强的线性相关关系,可用线性回归模型进行拟合.
(2)由题意可得,,

所以.当时,,
所以该市10万人口的县城年垃圾产生总量约为252.5吨.
18.年,全球爆发了新冠肺炎疫情,为了预防疫情蔓延,某校推迟年的春季线下开学,并采取了“停课不停学”的线上授课措施.为了解学生对线上课程的满意程度,随机抽取了该校的名学生(男生与女生的人数之比为)对线上课程进行评价打分,若评分不低于分视为满意.其得分情况的频率分布直方图如图所示,若根据频率分布直方图得到的评分不低于分的频率为.
(1)求的值,并估计名学生对线上课程评分的平均值;(每组数据用该组的区间中点值为代表)
(2)结合频率分布直方图,请完成以下列联表,并回答能否有的把握认为对“线上教学是否满意与性别有关”.
性别
态度
满意
不满意
合计
男生
女生
合计
附:随机变量
【答案】(1),80;(2)表格见解析,能有的把握认为对“线上教学是否满意与性别有关”.
【解析】(1)由已知得,解得,
又,解得,
所以评分的平均值为
(2)由题意可得,列联表如下表:
性别
态度
满意
不满意
合计
男生
女生
合计
因此,
能有的把握认为对“线上教学是否满意与性别有关”.
19.某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每批产品的非原料总成本(元)与生产该产品的数量(千件)有关,经统计得到如下数据:
1
2
3
4
5
6
7
6
11
21
34
66
101
196
根据以上数据,绘制如图所示的散点图.
观察散点图,两个变量不具有线性相关关系,现考虑用对数函数模型和指数函数模型分别对两个变量的关系进行拟合.
(1)根据散点图判断,与(,均为大于零的常数)哪一个适宜作为非原料总成本关于生产该产品的数量的回归方程类型;(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表1中的数据,建立关于的回归方程;
(3)已知每件产品的原料成本为10元,若该产品的总成本不得高于123470元,请估计最多能生产多少千件产品.
参考数据:
62.14
1.54
2535
50.12
3.47
其中,.
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【答案】(1)适宜;(2);(3)12千件产品.
【解析】(1)根据散点图判断,适宜作为非原料总成本y关于生产该产品的数量x的回归方程类型.
(2)由,两边同时取常用对数得.
设,所以,
因为,
所以.
把代入,得,
所以,所以,
所以,
即y关于x的回归方程为.
(3)设生产了x千件该产品.则生产总成本为.
又在其定义域内单调递增,
且,
故最多能生产12千件产品.
20.习近平总书记在党的十九大工作报告中提出,永远把人民美好生活的向往作为奋斗目标.在这一号召下,全国人民积极工作,健康生活.当前,“日行万步”正式成为健康生活的代名词.某地一研究团队统计了该地区位居民的日行步数,得到如下表格:
日行步数(单位:千步)
人数
(1)为研究日行步数与居民年龄的关系,以日行步数是否超过千步为标准进行分层抽样,从上述位居民中抽取人,得到如下列联表,请将列联表补充完整,并根据列联表判断是否有的把握认为日行步数与居民年龄超过岁有关;
日行步数千步
日行步数千步
总计
岁以上
岁以下(含岁)
总计
(2)以这位居民日行步数超过千步的频率,代替该地区位居民日行步数超过千的概率,每位居民日行步数是否超过千相互独立.为了深入研究,该研究团队随机调查了位居民,其中日行步数超过千的最有可能(即概率最大)是多少位居民?
附:
,其中.
【答案】(1)列联表见解析,没有的把握认为日行步数与居民年龄超过岁有关;(2)最有可能是位居民.
【解析】(1)人中,步数不超过千步的有人,超过千步有人,
按分层抽样,抽取的人数中不超过千步的有人,超过千步的有人,列联表如下:
日行步数千步
日行步数千步
总计
岁以上
岁以下(含岁)
总计
故没有95%的把握认为日行步数与居民年龄超过40岁有关.
(2)每位居民步数超过千的概率为,
设步数超过千的最有可能是位居民,
,,,,即最有可能是位居民.
21.我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十四五”规划.某企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金.现该企业为了了解年研发资金投入额(单位:亿元)对年盈利额(单位:亿元)的影响,研究了“十二五”和“十三五”规划发展期间近10年年研发资金投入额和年盈利额的数据.通过对比分析,建立了两个函数模型:①,②,其中,,,均为常数,为自然对数的底数.令,,经计算得如下数据:
26
215
65
2
680
5.36
11250
130
2.6
12
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)(ⅰ)根据(1)的选择及表中数据,建立关于的回归方程;(系数精确到0.01)
(ⅱ)若希望2021年盈利额为250亿元,请预测2021年的研发资金投入额为多少亿元?(结果精确到0.01)
附:①相关系数,回归直线中:,
②参考数据:,.
【答案】(1)模型的拟合程度更好;(2)(ⅰ);(ⅱ)27.56.
【解析】(1)设和的相关系数为,和的相关系数为,
由题意,,

则,因此从相关系数的角度,模型的拟合程度更好.
(2)(ⅰ)先建立关于的线性回归方程,由,得,即,


所以关于的线性回归方程为,
所以,则.
(ⅱ)2021年盈利额(亿元),
所以,则,
因为,
所以.
所以2021年的研发资金投入量约为27.56亿元.
22.2020年初,新型冠状病毒(2019-nCoV)肆虐,全民开启防疫防控.新型冠状病毒的传染主要是人与人之间进行传播,感染人群年龄大多数是40岁以上人群.该病毒进入人体后有潜伏期,潜伏期是指病原体侵入人体至最早出现临床症状的这段时间.潜伏期越长,感染到他人的可能性越高,现对200个病例的潜伏期(单位:天)进行调查,统计发现潜伏期平均数为7.1,方差为.如果认为超过8天的潜伏期属于“长潜伏期”,按照年龄统计样本,得到下面的列联表:
年龄/人数
长期潜伏
非长期潜伏
40岁以上
30
110
40岁及40岁以下
20
40
(1)是否有95%的把握认为“长期潜伏”与年龄有关;
(2)假设潜伏期X服从正态分布,其中近似为样本平均数,近似为样本方差.
(ⅰ)现在很多省份对入境旅客一律要求隔离14天,请用概率的知识解释其合理性;
(ⅱ)以题目中的样本频率估计概率,设1000个病例中恰有个属于“长期潜伏”的概率是,当k为何值时,取得最大值.
附:
0.1
0.05
0.010
2.706
3.841
6.635
若则.,.
【答案】(1)
没有;(2)(i)
答案见解析;(ii)
【解析】(1),
由于,故没有95%的把握认为“长潜伏期”与年龄有关;
(2)(ⅰ)若潜伏期,由,
得知潜伏期超过14天概率很低,因此隔离14天是合理的;
(ⅱ)由于200个病例中有50个属于长潜伏期,
若以样本频率估计概率,一个患者属于“长潜伏期”的概率是,
于是.则
.当时,;
当时,;
∴,.
故当时,取得最大值.