8.3 列联表与独立性检验
教材课后习题
1.为什么必须基于成对样本数据推断两个分类变量之间是否有关联?
2.为什么独立性检验方法不适用于普查数据?
3.等高堆积条形图在两个分类变量之间关联性的研究中能够起到什么作用?
4.对于已经获取的成对样本观测数据,检验结论“两个变量之间有关联”的实际含义是什么?检验结论“两个变量之间没有关联”的实际含义又是什么?
5.为了研究高三年级学生的性别和身高是否大于的关联性,调查了某中学所有高三年级的学生,整理得到如下列联表:
单位:人
性别 身高 合计
低于 不低于
女 81 16 97
男 28 75 103
合计 109 91 200
请画出列联表的等高堆积条形图,判断该中学高三年级学生的性别和身高是否有关联.如果结论是性别与身高有关联,请解释它们之间如何相互影响.
6.第5题中的身高变量是数值型变量还是分类变量?为什么?
7.从第5题的高三学生中获取容量为40的有放回简单随机样本,由样本数据整理得到如下列联表:
单位:人
性别 身高 合计
低于 不低于
女 14 7 21
男 8 11 19
合计 22 18 40
(1)依据的独立性检验,能否认为该中学高三年级学生的性别与身高有关联?解释所得结论的实际含义.
(2)得到的结论与第5题的一致吗?如果不一致,你认为原因是什么.
8.调查某医院一段时间内婴儿出生的时间和性别的关联性,得到如下的列联表:
单位:人
性别 出生时间 合计
晚上 白天
女 24 31 55
男 8 26 34
合计 32 57 89
依据的独立性检验,能否认为性别与出生时间有关联?解释所得结论的实际含义.
9.对例1列联表8.3-2中的数据,依据的独立性检验,我们已经知道独立性检验的结论是学校和成绩无关.如果表8.3-2中所有数据都扩大为原来的10倍,在相同的检验标准下,再用独立性检验推断学校和数学成绩之间的关联性,结论还一样吗?请你试着解释其中的原因.
定点变式训练
10.某学校食堂对高三学生偏爱蔬菜还是肉类与性别的关系进行了一次调查,根据独立性检验原理,处理所得数据之后发现,有的把握但没有的把握认为偏爱蔬菜还是肉类与性别有关,则的值可能为( )
A.3.206 B.6.561 C.7.869 D.11.208
11.为了庆祝党的“二十大”的胜利召开,某高校党委从所有的学生党员中随机抽取100名,举行“二十大”相关知识的竞赛活动.根据竞赛成绩,得到如下列联表,则下列说法正确的是( )
优秀 非优秀 总计
男 20 30 50
女 35 15 50
总计 55 45 100
参考公式及数据:,其中.
0.10 0.05 0.025 0.010 0.005 0.001
k 2.706 3.841 5.024 6.635 7.879 10.828
A.有的把握认为“竞赛成绩是否优秀与性别有关”
B.有的把握认为“竞赛成绩是否优秀与性别无关”
C.在犯错误的概率不超过0.001的前提下,认为“竞赛成绩是否优秀与性别无关”
D.在犯错误的概率不超过0.001的前提下,认为“竞赛成绩是否优秀与性别有关”
12.某学校对高二学生是否喜欢阅读随机抽取100名学生进行调查,调查的数据如表所示:
喜欢阅读 不喜欢阅读 总计
男学生 30 20 50
女学生 40 10 50
总计 70 30 100
根据表中的数据,下列对该校高二学生的说法正确的是( )
附:.
0.10 0.05 0.025 0.010 0.001
k 2.706 3.841 5.024 6.635 10.828
A.没有以上的把握认为“性别与是否喜欢阅读有关”
B.有以上的把握认为“性别与是否喜欢阅读有关”
C.在犯错误的概率不超过0.025的前提下认为“性别与是否喜欢阅读有关”
D.在犯错误的概率不超过0.05的前提下认为“性别与是否喜欢阅读有关”
13.某词汇研究机构为了对某城市人们使用流行用语的情况进行调查,随机抽取了200人进行调查统计,得到下方的列联表:
年轻人 非年轻人 总计
经常用流行用语 125 25 150
不常用流行用语 35 15 50
总计 160 40 200
根据列联表可知,有__________的把握认为经常用流行用语与年轻人有关.
附:,.
0.15 0.10 0.05 0.025 0.010 0.005 0.001
k 2.072 2.706 3.841 5.024 6.635 7.879 10.828
14.某中学统计了一个班40名学生中每一名学生的英语成绩与语文成绩,并制成了一个不完整的列联表如下:
英语成绩及格 英语成绩不及格 总计
语文成绩及格 20
语文成绩不及格 11
总计 25 40
则__________(填“有”或“没有”)的把握认为学生的英语成绩与语文成绩有关.
参考公式:,其中.
参考数据:
0.10 0.05 0.01
k 2.706 3.841 6.635
15.下表是某地区的一种传染病与饮用水的调查表:
得病 不得病 总计
干净水 52 466 518
不干净水 94 218 312
总计 146 684 830
(1)这种传染病是否与饮用水的卫生程度有关?请说明理由.
(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种传染病是否与饮用水的卫生程度有关,并比较两种样本在反映总体时的差异.
答案以及解析
1.答案:见解析
解析:因为我们讨论的是取值于的分类变量的关联性问题.
2.答案:见解析
解析:根据普查数据,我们可以通过相关的比率给出准确回答,不需要再进行独立性检验,依据小概率值推断两个分类变量的关联性.
3.答案:见解析
解析:能够通过等高堆积条形图给出两个分类变量关联性的直观表示,数形结合更易帮助理解变量的关联性问题.
4.答案:见解析
解析:“两个变量有关联”的实际含义是“两个变量之间有关系”;
“两个变量之间没有关联”的实际含义是“两个变量之间无关系”.
5.答案:有关联
解析:女学生身高低于,不低于的频率分别为
,.
男学生身高低于,不低于的频率分别为
,.
列联表的等高堆积条形图如下图.
通过比较发现,如果从女生、男生中各随机选取一名学生,女生中身高低于的概率大于男生中身高低于的概率,
故高三年级学生的性别和身高有关联.又,
故女生中身高低于的频率是男生中身高低于的频率的3倍以上,
女生身高更容易低于.
6.答案:是分类变量,理由见解析
解析:是分类变量.
因为题目中身高分为两类:低于和不低于,如果涉及甲学生身高为,乙学生身高为,则身高变量就是数值型变量.
7.答案:(1)无关联
(2)不一致
解析:(1)零假设:性别与身高无关联.
根据表中数据得到,
根据小概率值的独立性检验,推断成立,即性别与身高无关联.
该中学高三年级学生的性别与身高无关联,其实际意义是该中学学生的性别不会影响身高.
(2)不一致.不一致的原因是随机抽样抽取的样本及样本容量.
8.答案:性别与出生时间有关系且白天更容易出生男婴儿
解析:零假设:性别与出生时间无关联.
根据表中数据得到,
根据小概率值的独立性检验,我们推断不成立,而认为性别与出生时间有关联,该推断犯错误的概率不超过0.1.
又女婴儿晚上、白天出生的概率分别为,.
男婴儿晚上、白天出生的概率分别为,.
,从男、女婴儿中各取一名婴儿,白天出生男婴儿的概率大于白天出生女婴儿的概率.故性别与出生时间有关系且白天更容易出生男婴儿.
9.答案:结论不一样
解析:数据扩大10倍的列联表为:
单位:人
学校 数学成绩 合计
不优秀 优秀
甲校 330 100 430
乙校 380 70 450
合计 710 170 880
零假设:学校与数学成绩之间无关.
由列联表数据得,
根据小概率值的独立性检验,
我们推断不成立.
即认为学校与数学成绩有关.
又甲校成绩优秀和不优秀的频率分别为,.
乙校中成绩优秀和不优秀的频率分别为,.
又,
从甲校、乙校中各抽取一个学生,甲校学生数学成绩优秀的概率比乙校学生优秀的概率大.
故学校与数学成绩有关且甲校学生数学成绩好.
结论不一样.不一样的原因在于样本容量.
当样本容量越大时,用样本估计总体的准确性会越高.
10.答案:C
解析:因为有的把握但没有的把握认为偏爱蔬菜还是肉类与性别有关,所以的取值范围为,结合选项可知,的值可能为7.869.故选C.
11.答案:A
解析:因为,所以由临界值表知,有的把握认为“竞赛成绩是否优秀与性别有关”.故选A.
12.答案:D
解析:.
选项A,因为,所以有以上的把握认为“性别与是否喜欢阅读有关”,故A错误;
选项B,因为,所以没有以上的把握认为“性别与是否喜欢阅读有关”,故B错误;
选项C,因为,所以在犯错误的概率不超过0.025的前提下,不能认为“性别与是否喜欢阅读有关”,故C错误;
选项D,因为,所以在犯错误的概率不超过0.05的前提下认为“性别与是否喜欢阅读有关”,故D正确.故选D.
13.答案:
解析:由题意,得,则根据临界值表知有的把握认为经常用流行用语与年轻人有关.
14.答案:有
解析:由题意,补充完整的列联表如下:
英语成绩及格 英语成绩不及格 总计
语文成绩及格 20 4 24
语文成绩不及格 5 11 16
总计 25 15 40
则,
因此有的把握认为学生的英语成绩与语文成绩有关.
15.答案:(1)有的把握认为该地区这种传染病与饮用水的卫生程度有关,理由见解析
(2)有的把握认为该种传染病与饮用水的卫生程度有关;(1)中我们有的把握,(2)中我们只有的把握
解析:(1)假设:这种传染病与饮用水的卫生程度无关.
把表中的数据代入公式,得.
因为,所以拒绝.
因此,我们有的把握认为该地区这种传染病与饮用水的卫生程度有关.
(2)依题意,得列联表如下:
得病 不得病 总计
干净水 5 50 55
不干净水 9 22 31
总计 14 72 86
此时,.
因为,
所以我们有的把握认为该种传染病与饮用水的卫生程度有关.
由两个样本都能得到这种传染病与饮用水的卫生程度有关这一相同结论,但(1)中我们有的把握,(2)中我们只有的把握.