高二成对数据的统计分析复习测试题A
一.选择题(共8小题)
1.对于一组具有线性相关关系的样本数据,,2,,,其样本中心为,回归方程为,则相应于样本点,的残差为
A. B. C. D.
2.在天文学上恒星的亮度一般用星等来表示.直接测量到的天体亮度被称为视星等,而把天体置于10秒差距的距离处所得到的视星等称为绝对星等,它能反映天体的发光本领.如果我们观测到了恒星的光谱,可以知道一些类型恒星的绝对星等,就可以利用光谱视差法来获得这些恒星的距离.如表是某校天文爱好者社团在网上收集到一些恒星的相关数据,那么最适合作为星等差关于距离(光年)的回归方程类型的是
星名 天狼星 南河三 织女星 大角星 五车二 水委一 老人星 参宿四
距离 8.6 11.46 25 36.71 42.8 139.44 309.15 497.95
0.26 0.59 3.15 4.88 5.92
A. B. C. D.
3.第24届冬季奥林匹克运动会将于2022年在北京举办.为了解某城市居民对冰雪运动的关注情况,随机抽取了该市100人进行调查统计,得到如下列联表.
男 女 合计
关注冰雪运动 35 25 60
不关注冰雪运动 15 25 40
合计 50 50 100
根据列联表可知
参考公式:,其中.
附表:
0.100 0.050 0.010 0.001
2.706 3.841 6.635 10.828
A.该市女性居民中大约有的人关注冰雪运动
B.该市男性居民中大约有的人关注冰雪运动
C.有的把握认为该市居民是否关注冰雪运动与性别有关
D.有的把握认为该市居民是否关注冰雪运动与性别有关
4.有一组数据统计了2013年至2020年中国高铁每年的运营里程表,它反映了中国高铁近几年的飞速发展:甲同学用曲线来拟合,并算得相关系数,乙同学用曲线来拟合,并算得转化为线性回归方程所对应的相关系数,试问哪一个更适合作为关于的回归方程类型
A.甲的方程拟合效果好
B.乙的方程拟合效果好
C.甲、乙的方程拟合效果都好
D.甲、乙的方程拟合效果都不好
5.为了考察某种病毒疫苗的效果,现随机抽取100只小白鼠进行试验,得到如下列联表:
感染 未感染 总计
服用 10 40 50
未服用 20 30 50
总计 30 70 100
附:,其中.
0.10 0.05 0.025 0.010 0.005 0.001
2.706 3.841 5.024 6.635 7.879 10.828
根据以上数据,得到的结论正确的是
A.在犯错误的概率不超过的前提下,认为“小白鼠是否被感染与有没有服用疫苗有关”
B.在犯错误的概率不超过的前提下,认为“小白鼠是否被感染与有没有服用疫苗无关”
C.有的把握认为“小白鼠是否被感染与有没有服用疫苗有关”
D.有的把握认为“小白鼠是否被感染与有没有服用疫苗无关”
6.为促进就业,提升经济活力,2020年我国多个城市开始松绑“地摊经济”, 市自大力发展“地摊经济”以来,夜市也火了起来,如表是市2020年月份代码与夜市的地摊摊位数(单位:万个)的统计数据:
月份 4月 5月 6月 7月 8月
月份代码 1 2 3 4 5
摊位数(万个) 290 330
440 480
若与线性相关,且求得其线性回归方程为,则表中的值为
A.340 B.360 C.380 D.无法确定
7.某服装品牌市场部门为了研究销售情况,统计了一段时间内该品牌不同服装的单价(元和销售额(元的数据,整理得到下面的散点图:
已知销售额单价销量,根据散点图,下面四个回归方程类型中最适宜作为服装销量与单价的回归方程类型的是
A. B. C. D.
8.党的十九大报告中指出:从2020年到2035年,在全面建成小康社会的基础上,再奋斗15年,基本实现社会主义现代化.若到2035年底我国人口数量增长至14.4亿,由2013年到2019年的统计数据可得国内生产总值(单位:万亿元)关于年份代号的回归方程为,2,3,4,5,6,,由回归方程预测我国在2035年底人均国内生产总值(单位:万元)约为
A.14.0 B.13.6 C.202.2 D.195.6
二.多选题(共4小题)
9.晚上睡眠充足是提高学习效率的必要条件,河北衡水某高中的高三年级学生晚上10点10分必须休息,另一所同类高中的高三年级学生晚上11点休息,并鼓励学生还可以继续进行夜自习,稍晚再休息.有关人员分别对这两所高中的高三年级学习总成绩前50名学生的学习效率进行问卷调查,其中衡水某高中有30名学生的学习效率高,且从这100名学生中随机抽取1人,抽到学习效率高的学生的概率是0.4,则
附:.
0.050 0.010 0.005 0.001
3.841 6.635 7.879 10.828
A.衡水某高中的前50名学生中有的学生学习效率高
B.另一所同类高中的前50名学生中有的学生学习效率高
C.有的把握认为“学生学习效率高低与晚上睡眠是否充足有关”
D.认为“学生学习效率高低与晚上睡眠是否充足有关”的犯错概率超过0.05
10.通过随机询问110名不同性别的大学生是否爱好某项运动,得到如下的列联表:
男 女
爱好 40 20
不爱好 20 30
由算得,
参照附表,以下不正确的有
附表:
0.050 0.010 0.001
3.841 6.635 10.828
A.在犯错误的概率不超过的前提下,认为“爱好该项运动与性别有关”
B.在犯错误的概率不超过的前提下,认为“爱好该项运动与性别无关”
C.有以上的把握认为“爱好该项运动与性别有关”
D.有以上的把握认为“爱好该项运动与性别无关”
11.下列有关线性回归分析的问题中,正确的是
A.线性回归方程至少经过点,,,,,,,,中的一个点
B.若两个具有线性相关关系的变量的相关性越强,则线性相关系数的值越接近于1
C.在研究母亲身高与女儿身高的相关关系时,若相关系数,则表明有的把握认为与之间具有显著线性相关关系
D.设回归直线方程为,变量增加1个单位时,平均增加5个单位
12.在统计中,由一组样本数据,,,,,利用最小二乘法得到两个变量的回归直线方程为,那么下面说法正确的是
A.直线至少经过点,,,,,中的一个点
B.直线必经过点
C.直线表示最接近与之间真实关系的一条直线
D.,且越接近于1,相关程度越大;越接近于0,相关程度越小
三.填空题(共4小题)
13.某学生为了研究高二年级同学的体质健康成绩与学习成绩的关系,从高二年级同学中随机抽取30人,统计其体质健康成绩和学习成绩,得到列联表如表:
体质健康成绩高 体质健康成绩低 总计
学习成绩高 17 2 19
学习成绩低 3 8 11
总计 20 10 30
有 的把握认为学生的体质健康成绩高低与学习成绩高低有关.
附:.
0.100 0.050 0.010 0.001
2.706 3.841 6.635 10.828
14.商家项目投资的利润产生是一个复杂的系统结果.它与项目落地国的商业环境,政府执政能力,法律生态等都有重大的关联.如表所示是某项目在中国和南亚某国投资额和相应利润的统计表.
项目落地国 中国 南亚某国
投资额(亿元) 10 11 12 13 14 10 11 12 13 14
利润(亿元) 11 12 14 16 19 12 13 13 14 15
请选择平均利润较高的落地国,用最小二乘法求出回归直线方程为 ;并根据回归直线方程预计在该国投资15亿元所获得的利润是 亿元.
参考数据和公式:,中国,南亚某国,,.
15.蟋蟀鸣叫可以说是大自然优美、和谐的音乐,蟋蟀鸣叫的频率(每分钟鸣叫的次数)与气温(单位:存在着较强的线性相关关系.某地研究人员根据当地的气温和蟋蟀鸣叫的频率得到了如下数据:
21 22 23 24 25 26 27
(次数分钟) 24 28 31 39 43 47 54
利用如表中的数据求得回归直线方程为,若利用该方程知,当该地的气温为时,蟋蟀每分钟鸣叫次数的预报值为68,则的值为 .
16.2019年10月22日,联合国教科文组织公布2019年度联合国教科文组织赤道几内亚国际生命科学研究奖获奖名单,共3人获奖,其中包括来自中国的屠呦呦.中国中医科学院教授、2015年诺贝尔生理学或医学奖获得者屠呦呦发现的全新抗疟疾药物青蒿素在20世纪80年代治愈了许多中国病人.某科研机构为了了解某种在研制的药品的指标数据与百分比浓度之间的关系,随机统计了某5次实验的相关数据,并制作了对照表如表:
百分比浓度 6 10 14 18 22
指标数据 62
44 28 14
由表中数据求得回归直线方程为,则 .
四.解答题(共6小题)
17.为研究英语学习者的性别与英语阅读理解水平间的关系,随机调查了某大学英语专业的100名大学生,得出如下的列联表:
男 女 总计
阅读理解水平好
65
阅读理解水平差
15 35
总计 50
100
(Ⅰ)将列联表补充完整;
(Ⅱ)判断是否有的把握认为英语阅读理解水平与性别有关.
附:,其中.
0.10 0.05 0.010
2.706 3.841 6.635
18.这一年来人类与新型冠状病毒的“战争”让人们逐渐明白一个道理,人类社会组织模式的差异只是小事情,病毒在地球上存在了三四十亿年,而人类的文明史不过只有几千年而已,人类无法消灭病毒,只能与之共存,或者病毒自然消亡,在病毒面前,个体自由要服从于集体或者群体生命的价值.在传染病学中,通常把从致病刺激物侵入机体内或者对机体发生作用起,到机体出现反应或开始呈现该疾病对应的相关症状时止的这一阶段称为潜伏期,因此我们应该注意做好良好的防护措施和隔离措施.某研究团队统计了某地区10000名患者的相关信息,得到如表表格:
潜伏期(天 , , , , , , ,
人数 600 1900 3000 2500 1600 250 150
(1)新冠肺炎的潜伏期受诸多因素的影响,为研究潜伏期与年龄的关系,通过分层抽样从10000名患者中抽取200人进行研究,完成下面的列联表,并判断能否在犯错误的概率不超过0.001的前提下认为潜伏期与患者年龄有关?
潜伏期天 潜伏期天 总计
60岁以上(含60岁)
150
60岁以下 30
总计
200
(2)依据上述数据,将频率作为概率,且每名患者的潜伏期是否超过8天相互独立.为了深入研究,该团队在这一地区抽取了20名患者,其中潜伏期不超过8天的人数最有可能是多少?
附:.
0.150 0.100 0.050 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.024 6.635 7.879 10.828
19.随着新冠疫情防控进入常态化,人们的生产生活逐步步入正轨.为拉动消费,某市发行2亿元消费券.为了解该消费券使用人群的年龄结构情况,该市随机抽取了50人,对是否使用过消费券的情况进行调查,结果如表所示,其中年龄低于45岁的人数占总人数的.
年龄(单位:岁) , , , , , ,
调查人数 5
15 10
5
使用消费券人数 5 10 12 7 2 1
(1)求,值;
(2)若以“年龄45岁为分界点”,由以上统计数据完成下面列联表,并判断是否有的把握认为是否使用消费券与人的年龄有关.
年龄低于45岁的人数 年龄不低于45岁的人数 合计
使用消费券人数
未使用消费券人数
合计
参考数据:
0.15 0.10 0.05 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.024 6.635 7.879 10.828
,其中.
20.某线上学习平台为保证老学员在此平台持续报名学习,以便吸引更多学员报名,从用户系统中随机选出200名学员,对该学习平台的教学成效评价和课后跟踪辅导评价进行了统计,并用以估计所有学员对该学习平台的满意度.其中对教学成效满意率为0.9,课后跟踪辅导的满意率为0.8,对教学成效和课后跟踪辅导都不满意的有10人.
(1)完成下面列联表,并分析是否有把握认为教学成效满意度与跟踪辅导满意度有关.
人数 对教学成效满意 对教学成效不满意 合计
对课后跟踪辅导满意
对课后跟踪辅导不满意
合计
(2)若用频率代替概率,假设在学习服务协议终止时对教学成效和课后跟踪辅导都满意学员的续签率为,只对其中一项不满意的学员续签率为,对两项都不满意的续签率为.从该学习平台中任选10名学员,估计在学习服务终止时续签学员人数.
附:列联表参考公式:,其中.
临界值:
0.100 0.050 0.025 0.010 0.001
2.706 3.841 5.024 6.635 10.828
21.某中学某社团为研究高三学生课下钻研数学时间与数学考试中的解答题得分的关系,随机调查了某中学高三某班6名学生每周课下钻研数学时间(单位:小时)与高三下学期期中考试数学解答题得分,数据如表:
2 4 6 8 10 12
30 38 44 48 50 54
(1)根据上述数据,求出数学考试中的解答题得分与该学生课下钻研数学时间的线性回归方程,并预测某学生每周课下钻研数学时间为7小时其数学考试中的解答题得分;
(2)从这6人中任选2人,求这2人中至少有1人课下钻研数学时间不低于8小时的概率.
参考公式:,其中,.
参考数据:,,.
22.今年1月至2月由新型冠状病毒引起的肺炎病例陡然增多,为了严控疫情传播,做好重点人群的预防工作,某地区共统计返乡人员100人,其中50岁及以上的共有40人.这100人中确诊的有10名,其中50岁以下的人占.
确诊患新冠肺炎 未确诊患新冠肺炎 合计
50岁及以上
40
50岁以下
合计 10
100
(1)请将下面的列联表补充完整,并判断是否有的把握认为是否确诊患新冠肺炎与年龄有关;
(2)现从已确诊的病人中分层抽样抽出5人观察恢复情况,若从这5人中随机抽取3人,求恰有2人为50岁以上的概率.
参考表:
0.10 0.05 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
参考公式:,其中.
参考答案与试题解析
一.选择题(共8小题)
1.【解答】解:因为残差是实际观察值与估计值(拟合值)之间的差,
所以样本点,的残差为.
故选:.
2.【解答】解:根据表格数据,在直角坐标系中从左到右依次标注表格数据代表的点,拟合曲线如下所示,
图象左侧无限接近轴,不与轴重合,故其拟合曲线比较接近的图象.
故选:.
3.【解答】解:根据列联表中数据,计算,
经查对临界值表知.
所以有的把握认为该市居民是否关注冰雪运动与性别有关,选项正确.
故选:.
4.【解答】解:相关系数越接近,方程的拟合效果越好,更接近1,故乙选的方程拟合效果好.
故选:.
5.【解答】解:由列联表中数据,计算,且,
所以有的把握认为“小白鼠是否被感染与有没有服用疫苗有关”.
故选:.
6.【解答】解:由表知,,,
因为回归直线方程恒过样本中心点,,
所以
解得.
故选:.
7.【解答】解:由散点图知,销售额与单价呈线性关系,不妨设,
所以,与选项中的回归方程类型一致.
故选:.
8.【解答】解:到2035年底对应的年份代号为23,
把代入得,(万亿元),
又,
所以到2035年底,我过人均国内生产总值约为14.0万元.
故选:.
二.多选题(共4小题)
9.【解答】解:衡水某高中的前50名学生中有30人学习效率高,即,所以正确;
另一所同类高中的前50名学生中有10人学习效率高,即,所以错误;
这100名学生中学习效率高的学生有(人,根据题意填写列联表如下:
学习效率高 学习效率不高 合计
衡水高中 30 20 50
非衡水高中 10 40 50
合计 40 60 100
计算观测值,
所以有的把握认为“学生学习效率高低与晚上睡眠是否充足有关”, 正确;
认为“学生学习效率高低与晚上睡眠是否充足有关”的犯错概率不超过0.05,所以错误.
故选:.
10.【解答】解:由列联表计算,
参照附表知,,
所以在犯错误的概率不超过的前提下,认为“爱好该项运动与性别有关”, 正确,错误;
即有以上的把握认为“爱好该项运动与性别有关”,
没有以上的把握认为“爱好该项运动与性别有关”,
也没有以上的把握认为“爱好该项运动与性别无关”,所以、错误.
故选:.
11.【解答】解:线性回归方程可能不经过,,,,,,,,中的任何一个点,故错误;
若两个具有线性相关关系的变量的相关性越强,则线性相关系数的值越接近于1,故正确;
在研究母亲身高与女儿身高的相关关系时,若相关系数越接近1,则线性相关关系越强,而不能根据来判断线性相关的把握,故错误;
设回归直线方程为,变量增加1个单位时,平均增加5个单位,故正确.
故选:.
12.【解答】解:线性回归直线是最能体现这组数据的变化趋势的直线,不一定经过样本数据中的点,故不正确,正确;
线性回归直线一定经过样本中心点,故正确;
线性相关系数满足,且越接近于1,相关程度越大;越接近于0,相关程度越小,故正确.
故选:.
三.填空题(共4小题)
13.【解答】解:由列联表中数据,计算,
所以有的把握认为学生的体质健康成绩高低与学习成绩高低有关.
故答案为:.
14.【解答】解:由表中数据知,,
,,
所以平均利润较高的落地国为中国,
所以,
,
所以所求的回归直线方程为.
当时,,
所以预计在该国投资15亿元所获得的利润是20.4亿元.
故答案为:;20.4
15.【解答】解:,,
样本中心点为,
①,
当该地的气温为时,蟋蟀每分钟鸣叫次数的预报值为68,
②,
由①②解得,.
故答案为:5.
16.【解答】解:由题意,
,所以样本中心为,
因为回归直线经过样本中心,所以,解得.
故答案为:53.
四.解答题(共6小题)
17.【解答】解:(Ⅰ)根据题意填写列联表,如下:
男 女 总计
阅读理解水平好 30 35 65
阅读理解水平差 20 15 35
总计 50 50 100
(Ⅱ)由表中数据,计算,
所以没有的把握认为英语阅读理解水平与性别有关.
18.【解答】解:(1)由表中数据可知,潜伏期大于8天的人数为人,
补充完整的列联表如下,
潜伏期天 潜伏期天 总计
60岁以上(含60岁) 130 20 150
60岁以下 30 20 50
总计 160 40 200
所以,
故能在犯错误的概率不超过0.001的前提下认为潜伏期与患者年龄有关.
(2)该地区10000名患者中潜伏期不超过8天的人数为名,
将频率视为概率,潜伏期不超过8天的概率为,
所以抽取的20名患者中潜伏期不超过8天的人数最有可能是名.
19.【解答】解:(1)由题意得,,
解得,.
(2)填写列联表,如下,
年龄低于45岁的人数 年龄不低于45岁的人数 合计
使用消费券人数 27 10 37
未使用消费券人数 3 10 13
合计 30 20 50
根据公式计算,
所以有的把握认为是否使用消费券与人的年龄有关.
20.【解答】解:(1)依题意有
人数 对教学成效满意 对教学成效不满意 合计
对课后跟踪辅导满意 150 10 160
对课后跟踪辅导不满意 30 10 40
合计 180 20 200
算得的观测值为
故有把握认为教学成效满意度与跟踪辅导满意度有关.
(2)在200人中对平台的双满意的续签人数为,
仅一项满意的续签人数为,都不满意的续签人数为,
所以该平台的续签率为,
从该学习平台中任选10名学员,该平台续签人数为8人.
21.【解答】解:(1),由,,.
可得,
,,
当时,.
(2)设“这2人中至少有一个人刻下钻研数学时间不低于8小时为事件”,
所有基本事件如下:
,,,,,,,,
,,,,,,
共15个基本事件.
事件包含,,,,,,,,,,,共12个基本事件,
所以.
22.【解答】解:(1)由题意可知
确诊患新冠肺炎 未确诊患新冠肺炎 合计
50岁及以上 6 34 40
50岁以下 4 56 60
合计 10 90 100
,
所以没有的把握认为是否确诊患新冠肺炎与年龄有关;
(2)现从已确诊的病人中分层抽样抽出5人观察恢复情况,
可知抽取的5人中,有3人是50岁以上的,2人是50岁以下的,
随机抽取3人恰有2人是50岁以上的概率.