9.2 独立性检验 同步练习
学校:___________姓名:___________班级:___________考号:___________
一、单选题
1.下列说法中正确的个数是( )
①设有一个回归方程,变量x增加1个单位时,y平均增加5个单位;
②将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;
③某校共有女生2021人,用简单随机抽样的方法先剔除21人,再按简单随机抽样的方法抽取为200人,则每个女生被抽到的概率为;
④具有线性相关关系的两个变量x,y的相关系数为r,则越接近于0,x,y之间的线性相关程度越高;
⑤在一个列联表中,由计算得出,而,则在犯错误的概率不超过0.001的前提下认为这两个变量之间有相关关系
A.1 B.2 C.3 D.4
2.校数学兴趣社团对“学生性别和选学生物学是否有关”作了尝试性调查.其中被调查的男女生人数相同.男生选学生物学的人数占男生人数的,女生选学生物学的人数占女生人数.若有的把握认为选学生物学和性别有关,则调查人数中男生不可能有( )人.
附表:
0.100 0.050 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
其中,.
A.20 B.30 C.35 D.40
3.古语云:“朝霞不出门,晚霞行千里”,其意是如果早晨起来看到天边有朝霞的话,今天的天气可能不佳,会下雨,要引起重视,若是傍晚看到天边的晚霞,第二天很有可能有一个好天气,天气晴朗.某学习小组针对“朝霞不出门”这一句的可信度进行了观测统计,得到如下列联表.
有朝霞 无朝霞 合计
当天有雨 8 8 16
当天无雨 2 12 14
合计 10 20 30
参考公式:.
临界值参照表:
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
则下列说法正确的是( )
A.如果有朝霞,当天下雨的概率超过
B.能在犯错概率不超过的前提下,认为有朝霞与当天下雨有关
C.能在犯错概率不超过的前提下,认为有朝霞与当天下雨有关
D.连续三天中必有一天出现朝霞
4.根据分类变量x与y的观察数据,计算得到,依据下表给出的独立性检验中的小概率值和相应的临界值,作出下列判断,正确的是( )
0.1 0.05 0.01 0.005 0.001
k 2.706 3.841 6.635 7.879 10.828
A.有95%的把握认为变量x与y独立
B.有95%的把握认为变量x与y不独立
C.变量x与y独立,这个结论犯错误的概率不超过10%
D.变量x与y不独立,这个结论犯错误的概率不超过10%
5.下列说法正确的是( )
A.一组数据的第80百分位数为17;
B.根据分类变量与的成对样本数据,计算得到,根据小概率值的独立性检验,可判断与有关联,此推断犯错误的概率不大于0.05;
C.两个随机变量的线性相关性越强,相关系数的绝对值越接近于0;
D.若随机变量满足,则.
6.为促进学生积极参加体育锻炼,养成良好的锻炼习惯,提高体质健康水平,某学校从全校学生中随机抽取200名学生进行“是否喜欢体育锻炼”的问卷调查,统计结果如下:
性别 体育锻炼 合计
喜欢 不喜欢
男
女 50 80
合计 110
下列结论不正确的是( )
A.样本中男生所占比例为
B.估计该校不喜欢体育锻炼的学生所占比例为.
C.样本中喜欢体育锻炼的男生比喜欢体育锻炼的女生多50人
D.没有的把握认为是否喜欢体育锻炼与性别有关联
7.下列命题中
①散点图可以直观地判断两个变量是否具有线性相关关系;
②回归直线就是散点图中经过样本数据点最多的那条直线;
③回归分析和独立性检验没有什么区别;
④回归直线一定经过样本中心点.
其中正确的命题个数为( )
A. B. C. D.
8.某校随机调查了100名高中生是否喜欢篮球,按照男女区分得到列联表,经计算得.根据独立性检验的相关知识,对照下表,可以认为有( )把握喜欢篮球与性别有关.
0.05 0.01 0.005 0.001
3.841 6.635 7.879 10.828
A. B. C. D.
二、多选题
9.下列结论正确的是( )
A.一组样本数据的散点图中,若所有样本点都在直线上,则这组样本数据的样本相关系数为
B.已知随机变量,若,则
C.在列联表中,若每个数据均变成原来的2倍,则也变成原来的2倍(,其中)
D.分别抛掷2枚质地均匀的骰子,若事件“第一枚骰子正面向上的点数是奇数”,“2枚骰子正面向上的点数相同”,则互为独立事件
10.根据下面的列联表得到如下四个判断,正确的是( )
嗜酒 不嗜酒 合计
患肝病 700 60 760
未患肝病 200 32 232
合计 900 92 992
A.至少有的把握认为“患肝病与嗜酒有关”
B.至少有的把握认为“患肝病与嗜酒有关”
C.在犯错误的概率不超过0.01的前提下认为“患肝病与嗜酒有关”
D.在犯错误的概率不超过0.01的前提下认为“患肝病与嗜酒无关”
11.下列四个命题中,正确的为( )
A.甲乙两组数据分别为:甲:28,31,39,42,45,55,57,58,66;乙:29,34,35,48,42,46,55,53,55,67.则甲乙的中位数分别为45和44.
B.相关系数,表明两个变量的相关程度较弱.
C.若由一个列联表中的数据计算得的值约为7.103,那么有的把握认为两个变量有关.
D.用最小二乘法求出一组数据,(,…,)的回归直线方程后要进行残差分析,相应于数据,(,…)的残差是指.
0.10 0.05 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
12.(多选)某学校为了调查学生对“只要学习够努力,成绩一定有奇迹”这句话的认可程度,随机调查了90名本校高一、高二的学生,得到如下列联表.用样本估计总体,则下列说法正确的是(参考数据:χ2=,n=a+b+c+d,P(χ2≥6.635)=0.010,P(χ2≥10.828)=0.001)( )
认可 不认可 总计
高一 20 20 40
高二 40 10 50
总计 60 30 90
A.高一高二大约有66.7%的学生认可这句话
B.高一高二大约有99%的学生认可这句话
C.依据α=0.01的独立性检验,认为学生对这句话认可与否与年级有关
D.在犯错误的概率不超过0.01的前提下,认为学生对这句话认可与否与年级无关
三、填空题
13.以“智联世界,生成未来”为主题的2023世界人工智能大会在中国上海举行,人工智能的发展为许多领域带来了巨大的便利,但同时也伴随着一些潜在的安全隐患.为了调查人们对人工智能所持的态度,某机构从所在地区随机调查100人,所得结果统计如下:
年龄在50岁以上(含50岁) 年龄在50岁以下
性别 男 女 男 女
持支持态度 15 10 30 15
不持支持态度 10 10 5 5
(填“有”或“没有”)的把握认为所持态度与年龄有关.
14.下列说法中正确的有 (填正确说法的序号).
①回归直线恒过点,且至少过一个样本点;
②若样本数据的方差为4,则数据的标准差为4;
③已知随机变量,且,则;
④若线性相关系数越接近1,则两个变量的线性相关性越弱;
⑤是用来判断两个分类变量是否相关的随机变量,当的值很小时可以推断两个变量不相关.
15.针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关”作了一次调查,调查样本中女生人数是男生人数的,男生追星人数占男生人数的,女生追星的人数占女生人数的,若有95%的把握认为是否追星和性别有关,则调查样本中男生至少有 人.
参考数据及公式如下:
0.050 0.010 0.001
3.841 6.635 10.828
16.已知P(χ2≥6.635)=0.01,P(χ2≥10.828)=0.001.在检验喜欢某项体育运动与性别是否有关的过程中,某研究员搜集数据并计算得到χ2=7.235,则根据小概率值α= 的χ2独立性检验,分析喜欢该项体育运动与性别有关.
四、解答题
17.已知甲社区有120人计划去四川旅游,他们每人将从峨眉山与青城山中选择一个去旅游,将这120人分为东、西两小组,两组的人数相等,已知东小组中去峨眉山的人数是去青城山人数的两倍,西小组中去峨眉山的人数比去青城山的人数少10.
(1)完成下面的列联表,并判断是否有的把握认为游客的选择与所在的小组有关;
去峨眉山旅游 去青城山旅游 合计
东小组
西小组
合计
(2)在东小组的游客中,以他们去青城山旅游的频率为乙社区游客去青城山旅游的概率,从乙社区任选3名游客,记这3名游客中去青城山旅游的人数为,求及的数学期望.
附:,.
当时,没有充分的证据判断变量A,B有关联,可以认为变量A,B是没有关联的;
当时,有的把握判断变量A,B有关联;
当时,有的把握判断变量A,B有关联;
当时,有的把握判断变量A,B有关联.
18.乒乓球,被称为中国的“国球”.某中学对学生参加乒乓球运动的情况进行调查,将每周参加乒乓球运动超过2小时的学生称为“乒乓球爱好者”,否则称为“非乒乓球爱好者”,从调查结果中随机抽取100份进行分析,得到数据如表所示:
乒乓球爱好者 非乒乓球爱好者 总计
男 40 56
女 24
总计 100
(1)补全列联表,并判断我们能否有的把握认为是否为“乒乓球爱好者”与性别有关?
(2)为了解学生的乒乓球运动水平,现从抽取的“乒乓球爱好者”学生中按性别采用分层抽样的方法抽取3人,与体育老师进行乒乓球比赛,其中男乒乓球爱好者获胜的概率为,女乒乓球爱好者获胜的概率为,每次比赛结果相互独立,记这3人获胜的人数为,求的分布列和数学期望.
0.05 0.010 0.005 0.001
3.841 6.635 7.879 10.828
参考公式:.
19.人工智能(英语:Artificialintelligence,缩写为)亦称智械、机器智能,指由人制造出来的可以表现出智能的机器.通常人工智能是指通过普通计算机程序来呈现人类智能的技术.人工智能的核心问题包括建构能够跟人类似甚至超卓的推理、知识、规划、学习、交流、感知、移物、使用工具和操控机械的能力等.当前有大量的工具应用了人工智能,其中包括搜索和数学优化、逻辑推演.而基于仿生学、认知心理学,以及基于概率论和经济学的算法等等也在逐步探索当中.思维来源于大脑,而思维控制行为,行为需要意志去实现,而思维又是对所有数据采集的整理,相当于数据库.某中学计划在高一年级开设人工智能课程.为了解学生对人工智能是否感兴趣,随机从该校高一年级学生中抽取了400人进行调查,整理得到如下列联表:
感兴趣 不感兴趣 合计
男生 180 40 220
女生 120 60 180
合计 300 100 400
(1)依据小概率值的独立性检验,能否认为对人工智能是否感兴趣与性别有关联?
(2)从对人工智能感兴趣的学生中按性别采用分层抽样的方法随机抽取10人,再从这10人中随机抽取3人进行采访,记随机变量表示抽到的3人中女生的人数,求的分布列和数学期望.
附:,其中.
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
20.“十四冬”群众运动会于2024年1月13日至14日在呼和浩特市举办,有速度滑冰、越野滑雪等项目,参加的运动员是来自全国各地的滑冰与滑雪爱好者.运动会期间,运动员与观众让现场热“雪”沸腾,激发了人们对滑冰等项目的热爱,同时也推动了当地社会经济的发展.呼和浩特市某媒体为调查本市市民对“运动会”的了解情况,在15~65岁的市民中进行了一次知识问卷调查(参加者只能参加一次).从中随机抽取100人进行调查,并按年龄群体分成以下五组:,绘制得到了如图所示的频率分布直方图,把年龄在区间和内的人分别称为“青少年群体”和“中老年群体”.
(1)若“青少年群体”中有40人关注“运动会”,根据样本频率分布直方图完成下面的列联表,并根据小概率值的独立性检验,判断关注“运动会”是否与年龄样体有关;
年龄群体 运动会 合计
关注 不关注
青少年群体 40
中老年群体
合计 60 40 100
(2)利用按比例分层抽样的方法,在样本中从关注“运动会”的“青少年群体”与“中老年群体”中随机抽取6人,再从这6人中随机选取3人进行专访.设这3人中“青少年群体”的人数为,求的分布列与数学期望.
附:,其中.
0.05 0.01 0.001
3.841 6.635 10.828
21.据新华社北京2月26日报道,中国航天全年预计实施100次左右发射任务,有望创造新的纪录,我国首个商业航天发射场将迎来首次发射任务,多个卫星星座将加速组网建设;中国航天科技集团有限公司计划安排近70次宇航发射任务,发射290余个航天器,实施一系列重大工程任务.由于航天行业拥有广阔的发展前景,有越来越多的公司开始从事航天研究,某航天公司研发了一种火箭推进器,为测试其性能,对推进器飞行距离与损坏零件数进行了统计,数据如下:
飞行距离x(kkm) 56 63 71 79 90 102 110 117
损坏零件数y(个) 61 73 90 105 119 136 149 163
参考数据:,,,
(1)建立y关于x的回归模型,根据所给数据及回归模型,求y关于x的回归方程(精确到0.1,精确到1);
(2)该公司进行了第二项测试,从所有同型号推进器中随机抽取100台进行等距离飞行测试,对其中60台进行飞行前保养,测试结束后,有20台报废,其中保养过的推进器占比30%,请根据统计数据完成2×2列联表,并根据小概率值的独立性检验,能否认为推进器是否报废与保养有关?
保养 未保养 合计
报废 20
未报废
合计 60 100
附:回归方程中斜率和截距的最小二乘估计公式分别为,,,;
0.25 0.1 0.05 0.025 0.01 0.001
1.323 2.706 3.841 5.024 6.635 10.828
第1页 共4页 ◎ 第2页 共4页
第1页 共4页 ◎ 第2页 共4页
参考答案:
1.B
【分析】对于①:根据回归方程直接判断;对于②:根据方差的公式特点判断;对于③:利用古典概型的性质判断;对于④:直接根据相关系数r对相关程度的影响来判断;对于⑤:根据相关关系直接判断.
【详解】对于①:回归方程,变量增加个单位时,平均减少5个单位,故①错误;
对于②:一组数据中的每一个数据都加上或减去同一个常数后,它的平均数也会都加上或减去同一个常数,故方差不变,故②正确;
对于③:古典概型中,每个个体被抽到的概率都是一样的,都等于,故③错误;
对于④:具有线性相关关系的两个变量x,y的相关系数为r,则越接近于0,x,y之间的线性相关程度越低,故④错误;
对于⑤:在一个列联表中,由计算得出,而则在犯错误的概率不超过0.001的前提下认为这两个变量之间有相关关系,故⑤正确 ;
故选:B.
2.A
【分析】借助卡方计算即可得.
【详解】设总人数为,则男生选学生物学的人数为,女生选生物学的人数为,
则,
即,又为的倍数,故男生最少有人.
故选:A.
3.B
【分析】对A,由题中列联表判断即可;对BC,计算卡方判断即可;对D,根据概率的性质判断即可.
【详解】对A,由题中列联表知,如果有朝霞,则当天下雨的概率约为,故A选项错误;
对BC,由题得,但小于7.879,故B选项正确,C选项错误;
对D,有朝霞的天数占总天数的,但并不意味着连续三天中必有一天出现朝霞,故D选项错误.
故选:B.
4.D
【分析】根据已知条件,结合独立性检验的定义即可求解.
【详解】因为,
所以变量x与y不独立,这个结论犯错误的概率不超过10%.
故选:D.
5.B
【分析】A选项,由百分位数的定义得到答案;B选项,,得到结论;C选项,由相关系数的性质得到C错误;D选项,由方差的性质得到D错误.
【详解】A选项,,故从小到大排列,第8个数和第9个数的平均数作为第80百分位数,
即,A错误;
B选项,由于,得到与有关联,此推断犯错误的概率不大于0.05,B正确;
C选项,两个随机变量的线性相关性越强,相关系数的绝对值越接近于1,C错误;
D选项,若随机变量满足,则,D错误.
故选:B
6.D
【分析】
依题意完善2×2列联表,依次可判定A、B、C,再求得,从而利用独立性检验可判定D.
【详解】
完善列联表如下:
性别 体育锻炼 合计
喜欢 不喜欢
男 80 40 120
女 30 50 80
合计 110 90 200
对于A,样本中男生所占比例为,所以A正确;
对于B,估计不喜欢体育锻炼的学生所占比例为,所以B正确;
对于C,喜欢体育锻炼的男生有80人,喜欢体育锻炼的女生有30人,所以C正确;
对于D,根据表中数据,计算得到,
所以有的把握认为是否喜欢体育锻炼与性别有关联,所以D错误.
故选:D
7.B
【分析】利用散点图、回归直线、独立性检验的知识分析判断各个命题即得.
【详解】散点图可以直观地判断两个变量是否具有线性相关关系,故①正确;
回归直线可以不经过散点图中的任何一个点,故②错误;
回归分析是对具有相关关系的两个变量进行统计分析的一种方法,
独立性检验是对两个变量是否具有某种关系的分析,故③错误;
回归直线一定经过样本中心点,故④正确.
所以正确的命题个数为个.
故选:B.
8.B
【分析】
根据的值以及表格可得答案.
【详解】
,
有把握认为喜欢篮球与性别有关,
故选:B.
9.BCD
【分析】根据相关系数的概念判断A,根据正态分布的方差公式及方差的性质判断B,根据卡方公式判断C,根据相互独立事件的定义判断D.
【详解】对于A:若所有样本点都在直线上,则这组样本数据的样本相关系数为,故A错误;
对于B:如,则,又,即
则,故B正确;
对于C:在列联表中,若每个数据均变成原来的2倍,
则,
即也变成原来的倍,故C正确;
对于D:分别抛掷2枚质地均匀的骰子,基本事件总数为个,
事件“第一枚骰子正面向上的点数是奇数”,则事件包含的基本事件数为个,
事件“2枚骰子正面向上的点数相同”,则事件包含的基本事件数为个,
所以,,
又包含的基本事件有个,所以,
所以,则、互为独立事件,故D正确;
故选:BCD
10.BC
【分析】由列联表中数据可求,即可求解.
【详解】由列联表中数据可求得,
所以在犯错误的概率不超过0.01的前提下,认为“患肝病与嗜酒有关系”,
即至少有的把握认为“患肝病与嗜酒有关系”,因此BC正确.
故选:BC
11.CD
【分析】根据题意,利用中位数,相关系数,以及独立性检验,以及最小二乘法的概念,逐项判定,即可求解.
【详解】对于A中,由甲的数据可知它的中位数为45,乙的中位数为,所以A错误;
对于B中,相关系数时,两个变量的相关程度较强,所以B错误;
对于C中,由于的值约为7.103,在6.635与7.879之间,故有的把握认为两个变量有关,所以C正确;
对于D中,用最小二乘法求出一组数据,(,…,)的回归直线方程后要进行残差分析,
相应于数据,(,…,)的残差是指,所以D正确.
故选:CD.
12.AC
【详解】
随机调查了90名学生,其中一共有60名学生认可,所以认可率大约为66.7%,χ2===9.因为6.635<9<10.828,故C正确,D错误.故选AC.
13.有
【分析】
借助数据得到对应列联表后计算卡方与比较即可得.
【详解】由题可得如下列联表:
年龄在50岁以上(含50岁) 年龄在50岁以下 总计
持支持态度 25 45 70
不持支持态度 20 10 30
总计 45 55 100
根据列联表中的数据,经计算得到,
所以有的把握认为所持态度与年龄有关.
故答案为:有.
14.②③
【分析】根据线性回归方程的概念可以判断①,根据方差的性质可以判断②,根据正态分布的性质可以判断③,根据相关系数的概念可以判断④,根据独立性检验的基本概念可以判断⑤.
【详解】因为回归直线可以不过样本点,所以①错误;
由于,所以数据的方差为16,故标准差为4,因此②正确;
根据正态分布的概念,,故,即,故,因此③正确;
根据相关系数的概念,若线性相关系数越接近1,则两个变量的线性相关性越强,故④错误;
的值很小时只能说明两个变量的相关性不强,故⑤错误.
故答案为:②③
15.12
【分析】设男生人数为,得到列联表,根据题意得到,列出不等式,求得的取值范围,结合,为整数,即可求解.
【详解】设男生人数为,依题 意可得列联表如下:
喜欢追星 不喜欢追星 总计
男生
女生
总计
若在犯错误的概率不超过95%的前提下认为是否喜欢追星和性别有关,则,
由,解得,因为,为整数,
所以若在犯错误的概率不超过95%的前提下认为是否喜欢追星和性别有关,
则男生至少有12人.
故答案为:.
16.0.01
【分析】根据已知与临界值比较结合独立性检验的概念判断即可.
【详解】
因为6.635<7.235<10.828,所以根据小概率值α=0.01的χ2独立性检验,分析喜欢该项体育运动与性别有关.
故答案为:0.01.
17.(1)列联表见解析,有的把握认为游客的选择与所在的小组有关
(2)1
【分析】(1)根据题意补全列联表,代入公式,得到答案;
(2)分析得到乙社区游客去青城山旅游的概率为,,根据二项分布,得到答案.
【详解】(1)的列联表如下:
去峨眉山旅游 去青城山旅游 合计
东小组 40 20 60
西小组 25 35 60
合计 65 55 120
,
所以有的把握认为游客的选择与所在的小组有关.
(2)在东小组的游客中,他们去青城山旅游的频率为,
所以乙社区游客去青城山旅游的概率为,所以,
所以,.
18.(1)列联表见解析;有
(2)分布列见解析;期望为
【分析】(1)列出列联表,求出并与比较即可;
(2)分别求抽取的3人中男生和女生的人数,写出的可能取值,求出概率,求出期望.
【详解】(1)依题意可得列联表如下:
乒乓球爱好者 非乒乓球爱好者 总计
男 40 16 56
女 20 24 44
总计 60 40 100
,
我们有的把握认为是否为“乒乓球爱好者”与性别有关;
(2)由(1)得抽取的3人中人为男生,人为女生,
则的可能取值为、、、,
所以,,
,,
所以的分布列为:
0 1 2 3
所以.
19.(1)答案见解析
(2)分布列见解析;.
【分析】(1)根据两个条件概率值求出列联表中的数据,利用卡方公式计算的值,再与对应的小概率值比较即得结论;
(2)先利用分层抽样确定所抽取男生、女生人数,再利超几何概率公式计算即得分布列与期望;
【详解】(1)零假设为:学生对人工筸能是否感兴趣与性别无关.
根据列联表计算可得:,
根据小概率值的独立性检验,我们推断不成立,即认为学生对人工筸能是否感兴趣与性别有关联,此推断犯错误的概率不大于.
(2)从对人工智能感兴趣的学生中按性别采用分层抽样的方法随机抽取10人,
其中抽取男生人,抽取女生人;
根据已知条件的可能取值为:;
,,
,;
.
20.(1)列联表见解析,有关
(2)分布列见解析,
【分析】(1)根据频率分布直方图完善二联表,即可计算卡方,与临界值比较作答,
(2)根据超几何分布求解概率,即可求解分布列以及期望.
【详解】(1)由题意可知“青少年群体”共有(人),
“中老年群体”共有(人),
所以列联表如下:
年龄群体 运动会 合计
关注 不关注
青少年群体 40 15 55
中老年群体 20 25 45
合计 60 40 100
零假设为:关注“运动会”与年龄群体无关联.
根据列联表中的数据,经计算得到,
所以根据小概率值的独立性检验,我们推断不成立,即认为关注“运动会”与“年龄群体”有关,此推断犯错误的概率不大于0.01.
(2)样本中“青少年群体”关注“运动会”的有40人,“中老年群体”关注“运动会”的有20人,
按比例分层抽样的方法抽取6人,则“青少年群体”应抽取4人,“中老年群体”应抽取2人,则的所有可能取值为1,2,3,
所以,,
故随机变量的分布列为
1 2 3
所以.
21.(1)
(2)列联表见解析;是否报废与保养有关,理由见解析.
【分析】(1)根据题意可求出,,从而可求解.
(2)根据题意可将列联表补充完整,并求得,从而求解判断是否报废与是否保养有关.
【详解】(1)由题意得,
则,
所以.
(2)设零假设为:是否报废与是否保养无关,
由题意,报废推进器中保养过的共台,未保养的推进器共台,
补充列联表如下:
保养 未保养 合计
报废 6 14 20
未报废 54 26 80
合计 60 40 100
则,
根据小概率值的独立性检验,我们推断不成立,即认为是否报废与保养有关,
此推断的错误概率不大于0.01.
答案第1页,共2页
答案第1页,共2页