§1.2 独立性检验的基本思想及其初步应用
学习目标 1.了解分类变量的意义.2.了解2×2列联表的意义.3.了解随机变量K2的意义.4.通过对典型案例的分析,了解独立性检验的基本思想与方法.
知识点一 分类变量及2×2列联表
思考 某城市随机抽取一年(365天)内100天的空气质量指数API(AirPollutionIndex)的监测数据,结果统计如下:
API
[0,50)
[50,100)
[100,150)
[150,200)
[200,250)
[250,300]
大于300
空气质量
优
良
轻微污染
轻度污染
中度污染
中度重污染
重度污染
天数
10
15
20
30
7
6
12
若本次抽取的样本数据有30天是在供暖季,其中有7天为重度污染,完成下面表格.
非重度污染
重度污染
总计
供暖季
非供暖季
总计
100
答案
非重度污染
重度污染
总计
供暖季
23
7
30
非供暖季
65
5
70
总计
88
12
100
梳理 (1)分类变量
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表
①定义:列出的两个分类变量的频数表,称为列联表.
②2×2列联表
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(也称为2×2列联表)为下表.
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
知识点二 等高条形图
1.与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.
2.如果通过计算或等高条形图发现和相差很大,就判断两个分类变量之间有关系.
知识点三 独立性检验
1.定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
2.K2=.
其中n=a+b+c+d为样本容量.
3.独立性检验的具体做法
(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.
(2)利用公式计算随机变量K2的观测值k.
(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.
1.利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.( √ )
2.在一项打鼾与患心脏病的调查中,共调查了1671人,经过计算K2的观测值k=27.63,根据这一数据进行分析,我们有理由认为打鼾与患心脏病是无关的.( × )
3.在独立性检验中,当K2≥6.635时,我们有99%的把握认为两分类变量有关,是指“两分类变量有关”这一结论的可信度为99%,而不是两分类变量有关系的概率为99%.( √ )
4.独立性检验的基本思想类似于反证法.( √ )
5.利用K2进行独立性检验,可对推断犯错误的概率作出估计,其估计可靠性与样本容量n无关.( × )
6.列联表仅对两个分类变量汇总统计.( √ )
类型一 直观分析两个分类变量的关联性
例1 为调查某生产线上某质量监督员甲在不在场对产品质量的好坏有无影响,现统计数据如下:质量监督员甲在场时,990件产品中合格品有982件,次品有8件;甲不在场时,510件产品中合格品有493件,次品有17件.试分别用列联表和等高条形图对数据进行分析.
考点 定性分析的两类方法
题点 利用图形定性分析
解 根据题目所给数据得如下2×2列联表:
合格品数
次品数
总计
甲在场
982
8
990
甲不在场
493
17
510
总计
1475
25
1500
由列联表看出|ad-bc|=|982×17-493×8|=12750,数较大,所以可在某种程度上认为“质量监督员甲在不在场与产品质量有关”.
等高条形图如图所示.
所以由等高条形图可知,在某种程度上,可认为“质量监督员甲在不在场与产品质量有关”.
反思与感悟 (1)利用列联表直接计算ad-bc,如果差的绝对值很大,就判断两个分类变量之间有关系.
(2)在等高条形图中展示列联表数据的频率特征,比较图中两个深色条的高可以发现两者频率不一样而得出结论.这种直观判断的不足之处在于不能给出推断“两个分类变量有关系”犯错误的概率.
跟踪训练1 某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,试作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.
考点 定性分析的两类方法
题点 用图形定性分析
解 考前心情紧张与性格类型列联表如下:
性格内向
性格外向
总计
考前心情紧张
332
213
545
考前心情不紧张
94
381
475
总计
426
594
1020
ad-bc=332×381-213×94=106470,
∴|ad-bc|比较大,说明考前心情是否紧张与性格类型有关.
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向占的比例,从图中可以看出考前心情紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前心情是否紧张与性格类型有关.
类型二 由K2进行独立性检验
例2 对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示.
又发作过心脏病
未发作过心脏病
总计
心脏搭桥手术
39
157
196
血管清障手术
29
167
196
总计
68
324
392
试根据上述数据比较这两种手术对病人又发作过心脏病的影响有没有差别.
考点 独立性检验及其基本思想
题点 独立性检验的方法
解 假设病人又发作过心脏病与做过心脏搭桥手术还是血管清障手术没有关系,由表中数据得a=39,b=157,c=29,d=167,a+b=196,c+d=196,a+c=68,b+d=324,n=392,
由公式得K2的观测值
k=≈1.779.
因为k≈1.779<2.706,所以不能得出病人又发作过心脏病与做过心脏搭桥手术还是血管清障手术有关系的结论,即这两种手术对病人又发作过心脏病的影响没有差别.
反思与感悟 (1)独立性检验的关注点
在2×2列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0,因此|ad-bc|越小,关系越弱;|ad-bc|越大,关系越强.
(2)独立性检验的具体做法
①根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误的概率的上界α,然后查表确定临界值k0.
②利用公式K2=计算随机变量K2的观测值k.
③如果k≥k0,推断“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.
跟踪训练2 某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.
(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;
(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?
K2=(其中n=a+b+c+d)
考点 独立性检验及其基本思想
题点 独立性检验的方法
解 (1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名.
所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),记为A1,A2,A3;
25周岁以下组工人有40×0.05=2(人),记为B1,B2.
从中随机抽取2名工人,所有的可能结果共有10种,它们是(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).
其中,至少有1名“25周岁以下组”工人的可能结果共有7种,它们是(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).
故所求的概率P=.
(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有60×0.25=15(人),“25周岁以下组”中的生产能手有40×0.375=15(人),据此可得2×2列联表如下:
生产能手
非生产能手
总计
25周岁以上组
15
45
60
25周岁以下组
15
25
40
总计
30
70
100
由公式得K2的观测值
k==≈1.786.
又因为1.786<2.706,
所以没有90%的把握认为“生产能手与工人所在的年龄组有关”.
1.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下列联表:
喜欢程度
男
女
总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
由K2=算得,
k=≈7.8,
附表:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
参照附表,得到的正确结论是( )
A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
C.有99%以上的把握认为“爱好该项运动与性别有关”
D.有99%以上的把握认为“爱好该项运动与性别无关”
考点 独立性检验及其基本思想
题点 独立性检验的思想
答案 C
解析 结合给定数据和附表,得选项C正确.
2.(2018·山东临沂期末)下列关于等高条形图的叙述正确的是( )
A.从等高条形图中可以精确地判断两个分类变量是否有关系
B.从等高条形图中可以看出两个变量频数的相对大小
C.从等高条形图中可以粗略地看出两个分类变量是否有关系
D.以上说法都不对
考点 定性分析的两类方法
题点 利用图形定性分析
答案 C
解析 在等高条形图中仅能粗略判断两个分类变量的关系,故A错;在等高条形图中仅能够找出频率,无法找出频数,故B错;显然C正确,故选C.
3.为了调查患慢性气管炎是否与吸烟有关,调查了339名50岁以下的人,调查结果如下表:
患慢性气管炎
未患慢性气管炎
总计
吸烟
43
162
205
不吸烟
13
121
134
总计
56
283
339
根据列表数据,求得K2的观测值k≈________.
考点 独立性检验及其基本思想
题点 独立性检验的思想
答案 7.469
解析 k=≈7.469.
4.两个分类变量X,Y,它们的取值分别为x1,x2和y1,y2,其列联表为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
若两个分类变量X,Y独立,则下列结论:
①ad≈bc;
②≈;
③≈;
④≈;
⑤≈0.
其中正确的序号是________.
考点 定性分析的两类方法
题点 利用列联表定性分析
答案 ①②⑤
解析 因为分类变量X,Y独立,
所以≈×,
化简得ad≈bc,故①⑤正确;②式化简得ad≈bc,故②正确.故填①②⑤.
5.“全国文明城市”称号是最有价值的城市品牌,某市为创建第五届“全国文明城市”,开展了“创建文明城市人人有责”活动.为了了解哪些人更关注“创城”活动,随机抽取了年龄在10~70岁之间的100人进行调查,并按年龄绘制如下频数分布表.
年龄(岁)
[10,20)
[20,30)
[30,40)
[40,50)
[50,60)
[60,70]
频数
15
a
35
b
5
5
(1)求表中a,b的值,并补全频率分布直方图;
(2)把年龄落在区间[10,30)和[30,70]内的人分别称为“青少年人”和“中老年人”,若“中老年人”中有35人关注“创城”活动,根据已知条件完成下面的2×2列联表,据此统计结果能否有99%的把握认为“中老年人”比“青少年人”更关注“创新”活动?
关注
不关注
总计
青少年人
中老年人
35
总计
50
50
100
附:参考公式和临界值表:
P(K2≥k0)
0.05
0.01
0.001
k0
3.841
6.635
10.828
K2=,其中n=a+b+c+d.
考点 独立性检验及其基本思想
题点 独立性检验的思想
解 (1)由频率分布直方图知[20,30)的频率为0.3,
∴=0.3,a=30,b=100-(15+30+35+5+5)=10.
(2)依题意可知,“青少年人”共有15+30=45人,
“中老年人”共有100-45=55人,
完成2×2列联表如下:
关注
不关注
总计
青少年人
15
30
45
中老年人
35
20
55
总计
50
50
100
结合列联表的数据得
K2=
=≈9.091,
∵P(K2≥6.635)=0.01,9.091>6.635,
∴有99%的把握认为“中老年人”比“青少年人”更关注“创城”活动.
1.列联表与等高条形图
列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有相关关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有相关关系.
2.对独立性检验思想的理解
独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量K2的值,如果K2的值很大,说明假设不合理.K2越大,两个分类变量有关系的可能性越大.
一、选择题
1.如图所示的是调查某地区男、女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图中可以看出( )
A.性别与喜欢理科无关
B.女生中喜欢理科的比例约为80%
C.男生比女生喜欢理科的可能性大些
D.男生中不喜欢理科的比例约为60%
考点 定性分析的两类方法
题点 利用图形定性分析
答案 C
解析 由题图可知女生中喜欢理科的比例约为20%,男生中喜欢理科的比例约为60%,因此男生比女生喜欢理科的可能性大些.故选C.
2.下列关于K2的说法正确的是( )
A.K2在任何相互独立的问题中都可以用来检验有关系还是无关系
B.K2的值越大,两个事件的相关性就越大
C.K2是用来判断两个分类变量是否有关系的随机变量,只对两个分类变量适用
D.K2的观测值的计算公式为k=
答案 C
解析 本题主要考查对K2的理解,K2是用来判断两个分类变量是否有关系的随机变量,所以A错;K2的值越大,说明我们能以更大的把握认为两个分类变量有关系,不能判断相关性的大小,所以B错;D中(ad-bc)应为(ad-bc)2.
3.下面是一个2×2列联表:
y1
y2
总计
x1
a
21
73
x2
8
25
33
总计
b
46
则表中a,b处的值分别为( )
A.94,96 B.52,50
C.54,52 D.52,60
考点 分类变量与列联表
题点 求列联表中的数据
答案 D
解析 ∵a+21=73,∴a=52.
又b=a+8=52+8=60.故选D.
4.利用独立性检验来考虑两个分类变量X与Y是否有关系时,通过查阅下表来确定“X与Y有关系”的可信度.如果k>3.841,那么就有把握认为“X与Y有关系”的百分比为( )
P(K2≥k0)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
A.95% B.5%
C.2.5% D.97.5%
答案 A
解析 因为k>3.841,所以有把握认为“X与Y有关系”的百分比为95%.故选A.
5.某班主任对全班50名学生进行了作业量多少的调查,数据如下表:
认为作业多
认为作业不多
总计
喜欢玩电脑游戏
18
9
27
不喜欢玩电脑游戏
8
15
23
总计
26
24
50
则认为喜欢玩电脑游戏与认为作业量的多少有关系的把握大约为( )
A.99% B.97.5%
C.95% D.无充分依据
考点 分类变量与列联表
题点 求观测值
答案 B
解析 由表中数据得K2的观测值k=≈5.059>5.024.
所以约有97.5%的把握认为两变量之间有关系.故选B.
6.通过随机询问250名不同性别的大学生在购买食物时是否看营养说明书,得到如下2×2联表:
女
男
总计
读营养说明书
90
60
150
不读营养说明书
30
70
100
总计
120
130
250
从调查的结果分析,认为性别和读营养说明书的关系为( )
A.95%以上认为无关
B.90%~95%认为有关
C.95%~99.9%认为有关
D.99.9%以上认为有关
答案 D
解析 根据题意,得K2=≈21.63>10.828,
∴有99.9%的把握认为性别和看营养说明书有关.故选D.
7.若在研究吸烟与患肺癌的关系中,通过收集、整理分析数据得“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,则下列说法中正确的是( )
A.100个吸烟者中至少有99人患有肺癌
B.1个人吸烟,那么这个人有99%的概率患有肺癌
C.在100个吸烟者中一定有患肺癌的人
D.在100个吸烟者中可能一个患肺癌的人也没有
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 D
解析 独立性检验的结论是一个统计量,统计的结果只是说明事件发生的可能性的大小,具体到一个个体,则不一定发生.
8.在2×2列联表中,两个比值相差越大,两个分类变量有关系的可能性就越大,那么这两个比值为( )
A.与 B.与
C.与 D.与
考点 定性分析的两类方法
题点 利用图形定性分析
答案 A
解析 由题意,==,因为|ad-bc|的值越大,两个分类变量有关系的可能性就越大,故选A.
9.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:
优秀
非优秀
总计
甲班
10
b
乙班
c
30
总计
105
已知在全部105人中随机抽取1人,成绩优秀的概率为,参考下面所给附表,则下列说法正确的是( )
P(K2≥k0)
0.10
0.05
0.025
k0
2.706
3.841
5.024
A.列联表中c的值为30,b的值为35
B.列联表中c的值为15,b的值为50
C.根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”
D.根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩与班级有关系”
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 C
解析 ∵成绩优秀的概率为,
∴成绩优秀的学生数是105×=30.
成绩非优秀的学生数是75,
∴c=20,b=45,选项A,B错误.
又根据列联表中的数据,得到K2的观测值k=≈6.109>5.024,
因此有97.5%的把握认为“成绩与班级有关系”.故选C.
二、填空题
10.有两个分类变量X,Y,其列联表如图所示,
Y1
Y2
X1
a
20-a
X2
15-a
30+a
其中a,15-a均为大于5的整数,若在犯错误的概率不超过0.05的前提下认为X,Y有关,则a的值为________.
考点 分类变量与列联表
题点 求列联表中的数据
答案 8或9
解析 根据公式,得K2的观测值
k=
=>3.841,根据a>5且15-a>5,
a∈Z,求得当a=8,9时满足题意.
11.为研究某新药的疗效,给100名患者服用此药,跟踪调查后得下表中的数据:
无效
有效
总计
男性患者
15
35
50
女性患者
6
44
50
总计
21
79
100
设H:服用此药的效果与患者的性别无关,则K2的观测值k≈________(小数点后保留3位有效数字),从而得出结论;服用此药的效果与患者的性别有关,这种判断出错的可能性为________.
考点 分类变量与列联表
题点 求观测值
答案 4.882 5%
解析 由公式计算得K2的观测值k≈4.882,
∵k>3.841,∴我们有95%的把握认为服用此药的效果与患者的性别有关,从而有5%的可能性出错.
三、解答题
12.某学校高三年级共有1000名学生,其中男生650人,女生350人,为了调查学生周末的休闲方式,用分层抽样的方法抽查了200名学生.
(1)完成下面的2×2列联表:
不喜欢运动
喜欢运动
总计
女生
50
男生
总计
100
200
(2)在抽取的样本中,调查喜欢运动女生的运动时间,发现她们的运动时间介于30分钟到90分钟之间,下图是测量结果的频率分布直方图,若从区间段[40,50)和[60,70)的所有女生中随机抽取两名女生,求她们的运动时间在同一区间段的概率.
考点 分类变量与列联表
题点 求列联表中的数据
解 (1)根据分层抽样的定义,可知抽取男生130人,女生70人,
不喜欢运动
喜欢运动
总计
女生
50
20
70
男生
50
80
130
总计
100
100
200
(2)由频率分布直方图可知在[40,50)内的人数为2,设为m,n,
在[60,70)内的人数为4,设为a,b,c,d.
设“两人的运动时间在同一区间段”的事件为A.
从中抽取两名女生的可能情况有:
(m,n),(m,a),(m,b),(m,c),(m,d),(n,a),(n,b),(n,c),(n,d),(a,b),(a,c),(a,d),(b,c),(b,d),(c,d),
两人的运动时间恰好在同一区间段的可能情况有7种.
结合古典概型,得P(A)=.
13.随着“全面二孩”政策推行,我市将迎来生育高峰.今年元旦伊始,我市各医院产科就已经是一片忙碌,至今热度不减.卫生部门进行调查统计,期间发现各医院的新生儿中,不少都是“二孩”;在市中医院,共有40个狗宝宝降生,其中20个是“二孩”宝宝;市湘东医院共有30个狗宝宝降生,其中10个是“二孩”宝宝.
(1)从两个医院当前出生的所有宝宝中按分层抽样方法抽取7个宝宝做健康咨询.
①在市中医院出生的一孩宝宝中抽取多少个?
②若从7个宝宝中抽取两个宝宝进行体检,求这两个宝宝恰出生不同医院且均属“二孩”的概率;
(2)根据以上数据,能否有85%的把握认为一孩或二孩宝宝的出生与医院有关?
P(K2≥k0)
0.40
0.25
0.15
0.10
k0
0.708
1.323
2.072
2.706
K2=
考点 独立性检验及其基本思想
题点 独立性检验的思想
解 (1)①由分层抽样知在市中医院出生的宝宝有7×=4个,
其中一孩宝宝有2个.
②在抽取7个宝宝中,市中医院出生的一孩宝宝2人,分别记为A1,B1,二孩宝宝2人,分别记为a1,b1,湘东医院出生的一孩宝宝2人,分别记为A2,B2,二孩宝宝1人,记为a2,从7人中抽取2人的一切可能结果所组成的基本事件为:
Ω={(A1,B1),(A1,a1),(A1,b1),(A1,A2),(A1,B2),(A1,a2),(B1,a1),(B1,b1),
(B1,A2),(B1,B2),(B1,a2),(a1,b1),(a1,A2),(a1,B2),(a1,a2),(b1,A2),(b1,B2),
(b1,a2),(A2,B2),(A2,a2),(B2,a2)}.
用A表示:“两个宝宝恰出生不同医院且均属二孩”,
则A={(a1,a2),(b1,a2)},
∴P(A)=,
(2)2×2列联表
一孩
二孩
总计
中医院
20
20
40
湘东医院
20
10
30
总计
40
30
70
K2==≈1.944<2.072,
故没有85%的把握认为一孩、二孩宝宝的出生与医院有关.
四、探究与拓展
14.2014年世界杯期间,某一电视台对年龄高于40岁和不高于40岁的人是否喜欢西班牙队进行调查,对高于40岁的调查了50人,不高于40岁的调查了50人,所得数据制成如下列联表:
不喜欢西班牙队
喜欢西班牙队
总计
高于40岁
p
q
50
不高于40岁
15
35
50
总计
a
b
100
若工作人员从所有统计结果中任取一个,取到喜欢西班牙队的人的概率为,则有超过________的把握认为年龄与西班牙队的被喜欢程度有关.
附:K2=.
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
考点 分类变量与列联表
题点 求列联表
答案 95%
解析 设“从所有人中任意抽取一个,取到喜欢西班牙队的人”为事件A,
由已知得P(A)==,
所以p=25,q=25,a=40,b=60.
K2==≈4.167>3.841.
故有超过95%的把握认为年龄与西班牙队的被喜欢程度有关.
15.2017年12月1日,“国际教育信息化大会”在山东青岛开幕,为了解哪些人更关注“国际教育信息化大会”,某机构随机抽取了年龄在15~75岁之间的100人进行调查,并按年龄绘制成频率分布直方图,如图所示,其分组区间为:[15,25),[25,35),[35,45),[45,55),[55,65),[65,75],把年龄落在区间[15,35)和[35,75]内的人分别称为“青少年”和“中老年”.
(1)根据频率分布直方图求样本的中位数(保留两位小数)和众数;
(2)根据已知条件完成下面的2×2列联表,并判断能否有99%的把握认为“中老年”比“青少年”更加关注“国际教育信息化大会”:
关注
不关注
总计
青少年
15
中老年
总计
50
50
100
附:参考公式K2=,其中n=a+b+c+d.
临界值表:
P(K2≥k0)
0.05
0.010
0.001
k0
3.841
6.635
10.828
考点 独立性检验及其基本思想
题点 独立性检验的方法
解 (1)根据频率分布直方图可知样本的众数为40,
因为(0.015+0.030)×10=0.45,
设样本的中位数为x,则(x-35)×0.035=0.5-0.45,
所以x=35≈36.43,
即样本的中位数约为36.43.
(2)依题意可知,抽取的“青少年”共有100×(0.015+0.030)×10=45人,
“中老年”共有100-45=55人.
完成的2×2列联表如下:
关注
不关注
总计
青少年
15
30
45
中老年
35
20
55
总计
50
50
100
结合列联表的数据得K2=
=≈9.091>6.635,
所以有99%的把握认为“中老年”比“青少年”更加关注“国际教育信息化大会”.