(共54张PPT)
4.3.2 独立性检验
1.2×2列联表及随机事件的概率
(1)2×2列联表:如果随机事件A与B的样本数据如下表格形式
在这个表格中,核心的数据是中间的4个格子,所以这样的表格通常称为2×2列联表.
必备知识·素养奠基
A
总计
B
a
b
a+b
c
d
c+d
总计
a+c
b+d
a+b+c+d
(2)2×2列联表中随机事件的概率:
如上表,记n=a+b+c+d,则
事件A发生的概率可估计为____________;
事件B发生的概率可估计为____________;
事件AB发生的概率可估计为___________.
【思考】
事件
,A
发生的概率估计值分别是多少?
提示:
2.独立性检验
(1)定义:在2×2列联表中,定义随机变量
任意给定α(称为显著性水平),可以找到满足条件
P(χ2≥k)=α的数k(称为显著性水平α对应的分位数),
①若χ2≥k成立,就称在犯错误的概率_________的前提下,可以认为A与B不独立
(也称A与B有关),或说有_____的把握认为A与B有关;
②若χ2这一过程通常称为独立性检验.
不超过α
1-α
(2)统计学中,常用的显著性水平α以及对应的分位数k如表所示
α=P(χ2≥k)
0.1
0.05
0.01
0.005
0.001
k
2.706
3.841
6.635
7.879
10.828
【思考】
若χ2提示:不对,若χ2【基础小测】
1.思维辨析(对的打“√”,错的打“×”)
(1)2×2列联表只有4个格子.
( )
(2)χ2的大小是判断事件A与B是否相关的统计量.
( )
(3)当χ2≥3.841时,有95%的把握认为事件A与B有关.
( )
提示:(1)×.2×2列联表核心的数据是中间的4个格子.
(2)√.根据独立性检验意义可知.
(3)√.由显著性水平α与它的分位数k的对应表可得.
2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
经计算得
则正确的结论是
( )
男
女
总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
C.有99%以上的把握认为“爱好该项运动与性别有关”
D.有99%以上的把握认为“爱好该项运动与性别无关”
【解析】选C.根据独立性检验的思想方法,正确选项为C.
3.下面2×2列联表的χ2的值为________.
【解析】
答案:10?
B
总计
A
8
4
12
2
16
18
总计
10
20
30
关键能力·素养形成
类型一 2×2列联表
【典例】在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人的饮食以蔬菜为主,另外33人则以肉类为主.
(1)请根据以上数据作出饮食习惯与年龄的列联表.
(2)求年龄在六十岁以上且饮食以肉类为主的人群的概率.
【思维·引】弄清题意,列出2×2列联表,根据列联表,用频率估计概率.
【解析】(1)饮食习惯与年龄2×2列联表如下:
(2)由列联表得,年龄在六十岁以上且饮食以肉类为主的人群的概率为
.
年龄在六
十岁以上
年龄在六
十岁以下
总计
饮食以蔬
菜为主
43
21
64
饮食以肉
类为主
27
33
60
总计
70
54
124
【类题·通】
列2×2列联表的关注点
1.作2×2列联表时,注意应该是4行4列,计算时要准确无误.
2.作2×2列联表时,关键是对涉及的变量分清类别.
【习练·破】
“一本书,一碗面,一条河,一座桥”曾是兰州的城市名片,而现在“兰州马拉松”又成为了兰州的另一张名片,随着全民运动健康意识的提高,马拉松运动不仅在兰州,而且在全国各大城市逐渐兴起,参与马拉松训练与比赛的人数逐年增加.为此,某市对人们参与马拉松运动的情况进行了统计调查.其中一项调查是调查人员从参与马拉松运动的人中随机抽取200人,对其每周参与马拉松长跑训练的天数进行统计,得到以下统计表:
若某人平均每周进行长跑训练天数不少于5天,则称其为“热烈参与者”,否则称为“非热烈参与者”.
(1)经调查,该市约有2万人参与马拉松运动,试估计其中“热烈参与者”的人数;
平均每周进行
长跑训练的天数
不大
于2天
3天或
4天
不少于
5天
人数
30
130
40
(2)根据上表的数据,填写下列2×2列联表.
热烈参与者
非热烈参与者
总计
男
140
女
55
总计
【解析】(1)以200人中“热烈参与者”的频率作为概率,可得该市“热烈参与
者”的人数约为20
000×
=4
000.
(2)由题可得2×2列联表如下:
热烈参与者
非热烈参与者
总计
男
35
105
140
女
5
55
60
总计
40
160
200
类型二 独立性检验
角度1 两个变量的独立性检验
【典例】某人研究中学生的性别与成绩、视力这2个变量的关系,随机抽查52名中学生,得到统计数据如表1与表2,则与性别有关联的可能性较大的变量是________.?
表1
成绩不及格
成绩及格
总计
男
6
14
20
女
10
22
32
总计
16
36
52
表2
视力好
视力差
总计
男
4
16
20
女
12
20
32
总计
16
36
52
【思维·引】先分别计算χ2的数值,然后比较χ2,进而得结论.
【解析】因为
所以
,故视力与性别有关联的可能性较大.
答案:视力
角度2 独立性检验的实际应用问题
【典例】(2019·全国卷Ⅰ)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
满意
不满意
男顾客
40
10
女顾客
30
20
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?
附:
P(χ2≥k)
0.05
0.01
0.001
k
3.841
6.635
10.828
【思维·引】(1)用频率估计概率;
(2)计算χ2的数值并说明.
【解析】(1)由调查数据得,男顾客中对该商场服务满意的比率为
=0.8,
因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务
满意的比率为
=0.6,
因此女顾客对该商场服务满意的概率的估计值为0.6.
(2)由题可得
由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.
【类题·通】
独立性检验的关注点
(1)步骤:列表,计算,判断;
(2)注意:①χ2计算公式较复杂,一是公式要清楚;二是代入数值时不能张冠李戴;三是计算时要细心.
②判断时把计算结果与临界值比较,其值越大,有关的可信度越高.
【习练·破】
为了研究子女吸烟与父母吸烟的关系,调查了一千多名青少年及其家长,数据如表:
父母吸烟
父母不吸烟
总计
子女吸烟
237
83
320
子女不吸烟
678
522
1
200
总计
915
605
1520
试问:父母吸烟对子女是否吸烟有影响吗?
【解析】由2×2列联表中的数据得
所以,我们有99%的把握认为父母吸烟对子女是否吸烟有影响.
类型三 独立性检验的综合应用
【典例】手机厂商推出一款6寸大屏手机,现对500名该手机使用者(200名女性、300名男性)进行调查,对手机进行评分,评分的频数分布表如下:
女
性
用
户
分值
区间
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
频数
20
40
80
50
10
男
性
用
户
分值
区间
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
频数
45
75
90
60
30
(1)完成下列频率分布直方图,并比较女性用户和男性用户评分的波动大小(不计算具体值,给出结论即可);
(2)把评分不低于70分的用户称为“评分良好用户”,能否有90%的把握认为“是否是评分良好用户”与性别有关?
参考公式及数据:
其中n=a+b+c+d.
P(χ2≥k)
0.1
0.05
0.01
k
2.706
3.841
6.635
【思维·引】(1)利用频数分布表中所给数据求出各组的频率,利用频率除以组距得到纵坐标,从而可得频率分布直方图,由频率分布直方图观察女性用户和男性用户评分的集中与分散情况即可比较波动的大小;(2)利用公式求出χ2的值,与临界值比较,即可得出结论.
【解析】(1)女性用户和男性用户的频率分布直方图分别如图所示:
由图可得女性用户的波动小,男性用户的波动大.
(2)由题可得2×2列联表如下:
则
所以有90%的把握认为“是否是评分良好用户”与性别有关.
女性用户
男性用户
总计
评分不低于70分
140
180
320
评分低于70分
60
120
180
总计
200
300
500
【内化·悟】
独立性检验的一般步骤是什么?
提示:(1)根据样本数据制成2×2列联表.
(2)根据公式
计算χ2的值.
(3)比较χ2与临界值的大小关系作统计推断.
【类题·通】
独立性检验综合问题的命题方向
独立性检验的考查,往往与概率和统计图表等一并考查,这类问题的求解往往按各小题及提问的顺序,一步步进行下去,是比较容易解答的,考查单纯的独立性检验往往用小题的形式,而且χ2的公式一般会在原题中给出.
【习练·破】
(2020·全国Ⅲ卷)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次
空气质量等级
[0,200]
(200,400]
(400,600]
1(优)
2
16
25
2(良)
5
10
12
3(轻度污染)
6
7
8
4(中度污染)
7
2
0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
附:
人次≤400
人次>400
空气质量好
空气质量不好
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
【解析】(1)由频数分布表可知,该市一天的空气质量等级为1的概率为
等级为2的概率为
等级为3的概率为
等级为4的概率为
(2)由频数分布表可知,一天中到该公园锻炼的人次的平均数为
(3)2×2列联表如下:
K2的观测值
因此,有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
人次≤400
人次>400
空气质量好
33
37
空气质量不好
22
8
【加练·固】
近年电子商务蓬勃发展,2019年某网购平台“双11”一天的销售业绩高达1
682亿元人民币,平台对每次成功交易都有针对商品和快递是否满意的评价系统.从该评价系统中选出200次成功交易,并对其评价进行统计,网购者对商品的满意率为0.70,对快递的满意率为0.60,其中对商品和快递都满意的交易为80次.
(1)根据已知条件完成下面的2×2列联表,并回答能否在犯错误的概率不超过0.01的前提下认为“网购者对商品满意与对快递满意之间有关系”.
对快递满意
对快递不满意
总计
对商品满意
80
对商品不满意
总计
200
(2)为进一步提高购物者的满意度,平台按分层抽样方法从中抽取10次交易进行问卷调查,详细了解满意与否的具体原因,并在这10次交易中再随机抽取2次进行电话回访,听取购物者意见.求电话回访的2次交易至少有一次对商品和快递都满意的概率.
附:
(其中n=a+b+c+d为样本容量)
P(χ2≥k)
0.1
0.05
0.01
k
2.706
3.841
6.635
【解析】(1)2×2列联表:
由于1.59<6.635,所以不能在犯错误的概率不超过0.01的前提下认为“网购者对商品满意与对快递满意之间有关系”.
对快递满意
对快递不满意
总计
对商品满意
80
60
140
对商品不满意
40
20
60
总计
120
80
200
(2)根据题意,抽取的10次交易中,对商品和快递都满意的交易有4次,记为ABCD,
其余6次不是都满意的交易记为123456.那么抽取2次交易一共有45种可能:AB,AC,AD,A1,A2,A3,A4,A5,A6,BC,BD,B1,B2,……,56.
其中2次交易均对商品和快递不是都满意的有15种:12,13,……,56.所以在抽
取的2次交易中,至少一次对商品和快递都满意的概率是
课堂检测·素养达标
1.下列选项中,哪一个χ2的值可以有99%以上的把握认为A与B有关系( )
A.χ2=2.715
B.χ2=3.910
C.χ2=6.165
D.χ2=7.014
【解析】选D.因为7.014>6.635,查阅χ2表知有99%的把握认为A与B有关系.
2.某大学在研究性别与职称(分正教授、副教授)之间是否有关系,你认为应该收集的数据是________.?
【解析】由研究的问题可知,需收集的数据应为男正教授人数,女正教授人数,男副教授人数,女副教授人数.
答案:男正教授人数,女正教授人数,男副教授人数,女副教授人数
3.下面2×2列联表中
a,b的值分别为________.?
B
总计
A
a
21
73
2
25
27
总计
b
46
【解析】因为a+21=73,所以a=52.
又因为a+2=b,所以b=54.
答案:52,54
4.若由一个2×2列联表中的数据计算得χ2=4.013,那么有________的把握认为两个随机事件之间有关系.?
【解析】因为χ2=4.013>3.841,查阅χ2表知有95%的把握认为两个随机事件之间有关系.
答案:95%
【新情境·新思维】
给出下列实际问题:①一种药物对某种病的治愈率;②两种药物治疗同一种病是否有区别;③吸烟者得肺病的概率;④吸烟是否与性别有关系;⑤网吧与青少年的犯罪是否有关系.其中用独立性检验可以解决的问题有
( )
A.①②③
B.②④⑤
C.②③④⑤
D.①②③④⑤
【解析】选B.独立性检验是判断两个随机事件是否有关系的方法,而①③都是求概率问题,不能用独立性检验.温馨提示:
此套题为Word版,请按住Ctrl,滑动鼠标滚轴,调节合适的观看比例,答案解析附后。关闭Word文档返回原板块。
课时素养评价
十八 独立性检验
(25分钟·50分)
一、选择题(每小题5分,共20分.多选题全部选对的得5分,选对但不全的得3分,有选错的得0分)
1.在吸烟与患肺病这两个事件关系的计算中,下列说法正确的是
( )
A.若χ2>6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病
B.从独立性检验可知,有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病
C.若从χ2统计量中得出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误
D.以上三种说法都不正确
【解析】选C.A,B是对χ2的误解,99%的把握认为吸烟和患肺病有关,是指通过大量的观察试验得出的一个数值,并不是100个人中必有99个人患肺病,也可能这100个人全健康.
2.某防疫站对屠宰场及肉食零售点的猪肉检查沙门氏菌带菌情况,结果如表:
带菌数
不带菌数
总计
屠宰场
8
32
40
零售点
14
18
32
总计
22
50
72
利用独立性检验估计屠宰场带菌与零售点猪肉带菌
( )
A.有95%的把握有关
B.无关
C.有99%的把握有关
D.无法判断
【解析】选A.χ2=≈4.726>3.841.
【加练·固】
考察棉花种子经过处理与生病之间的关系,得到下表中的数据:
种子处理
种子未处理
总计
得病
32
101
133
不得病
61
213
274
总计
93
314
407
根据以上数据可得出
( )
A.种子是否经过处理与是否生病有关
B.种子是否经过处理与是否生病无关
C.种子是否经过处理决定是否生病
D.有90%的把握认为种子经过处理与生病有关
【解析】选B.χ2=≈
0.164<2.706,即没有充足的理由认为种子是否经过处理跟生病有关.
3.(多选题)下列说法正确的是
( )
A.事件A与B独立,即两个事件互不影响
B.事件A与B关系越密切,则χ2就越大
C.χ2的大小是判定事件A与B是否相关的唯一根据
D.若判定两事件A与B相关,则A发生B一定发生.
【解析】选AB.由事件的独立性知,A选项正确;由独立性检验的意义知,B选项正确;χ2的大小是判定事件A与B是否相关的一种方法,不是唯一依据,C选项不正确;若事件A与B相关,则A发生B可能发生,也可能不发生,D选项不正确.
4.事件A,B是相互独立的,下列四个式子:
①P(AB)=P(A)P(B);②P(B)=P()P(B);
③P(A)=P(A)P();④P()=P()P().
其中正确的有
( )
A.1个
B.2个
C.3个
D.4个
【解析】选D.事件A与B相互独立,则与B,A与,与也相互独立.
二、填空题(每小题5分,共10分)
5.在一项打鼾与患心脏病的调查中,共调查了1
671人,经过计算χ2=7.63,根据这一数据分析,有________的把握说打鼾与患心脏病是______________的.(有关、无关)?
【解析】因为χ2=7.63,所以χ2>6.635,
因此,有99%的把握说打鼾与患心脏病是有关的.
答案:99% 有关
6.某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如表:
非统计专业
统计专业
男
13
10
女
7
20
为了判断主修统计专业是否与性别有关系,根据表中的数据,得χ2=≈4.844>3.841.因此,判定主修统计专业与性别有关系,那么这种判断出错的概率为________.?
【解析】根据χ2>3.841,可判断有95%的把握认为主修统计专业与性别有关系.故出错的概率为0.05.
答案:0.05
【加练·固】
某班主任对全班50名学生进行了作业量的评价调查,所得数据如表所示:
认为作业量大
认为作业量不大
总计
男生
18
9
27
女生
8
15
23
总计
26
24
50
则有________的把握认为作业量的大小与学生的性别有关.?
【解析】因为χ2=≈5.059>3.841,所以有95%的把握认为作业量的大小与学生的性别有关.
答案:95%
三、解答题(每小题10分,共20分)
7.为了调查胃病是否与生活规律有关,在某地对540名40岁以上的人的调查结果如表:
患胃病
未患胃病
总计
生活不规律
60
260
320
生活有规律
20
200
220
总计
80
460
540
根据以上数据判断40岁以上的人患胃病与生活规律有关吗?
【解析】由公式得χ2=≈9.638.
因为9.638>7.879,
所以有99.5%的把握说40岁以上的人患胃病与生活是否有规律有关,即生活不规律的人易患胃病.
8.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如表:
男
女
需要
40
30
不需要
160
270
(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;
(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?
(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中需要志愿者提供帮助的老年人的比例?说明理由.
【解析】(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估计值为×100%=14%.
(2)χ2=≈9.967.
由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.
(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法进行抽样,这比采用简单随机抽样方法更好.
(15分钟·30分)
1.(5分)设两个独立事件A和B都不发生的概率为,A发生B不发生的概率与B发生A不发生的概率相同,则事件A发生的概率P(A)是
( )
A. B. C. D.
【解析】选D.设事件A发生的概率为a,事件B发生的概率为b,根据题目信息可得
(1-a)×(1-b)=,①
a(1-b)=b(1-a),②
将两式联立解之可得a=b=,所以P(A)=.
2.(5分)某校在两个班进行教学方式对比试验,两个月后进行了一次检测,实验班与对照班成绩统计如表所示(单位:人):
80及80分以上
80分以下
总计
实验班
35
15
50
对照班
20
m
50
总计
55
45
n
(1)m=________,n=________;?
(2)根据表中数据得到的结论是________.?
【解析】(1)m=45-15=30,n=50+50=100.
(2)由表中的数据得χ2=≈9.091.
因为9.091>6.635,所以有99%的把握说“教学方式与成绩有关系”.
答案:(1)30 100
(2)有99%的把握说“教学方式与成绩有关系”.
3.(5分)某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如表:
甲厂:
分组
[29.86,29.90)
[29.90,29.94)
[29.94,29.98)
[29.98,30.02)
[30.02,30.06)
[30.06,30.10)
[30.10,30.14)
频数
12
63
86
182
92
61
4
乙厂:
分组
[29.86,29.90)
[29.90,29.94)
[29.94,29.98)
[29.98,30.02)
[30.02,30.06)
[30.06,30.10)
[30.10,30.14)
频数
29
71
85
159
76
62
18
(1)两个分厂生产的零件的优质品率分别为________;?
(2)有________的把握认为“两个分厂生产的零件的质量有差异”?
【解析】(1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为×100%=72%;
乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为×100%=64%.
(2)
甲厂
乙厂
总计
优质品
360
320
680
非优质品
140
180
320
总计
500
500
1
000
χ2=≈7.35>6.635,
所以有99%的把握认为“两个分厂生产的零件的质量有差异”.
答案:(1)72%,64% (2)99%
4.(5分)2019年10月乒乓球世界杯在成都举行,为了搞好接待工作,组委会招募了16名男志愿者和14名女志愿者.调查发现,男、女志愿者分别有10人和6人喜爱乒乓球,其余不喜爱.得到2×2列联表如下.
喜爱乒乓球
不喜爱乒乓球
总计
男
10
6
16
女
6
8
14
总计
16
14
30
则喜爱乒乓球与性别________(填“有关”或“无关”).?
若从女志愿者中抽取2人参加接待工作,其中喜爱乒乓球的人数为ξ,则ξ的均值为________.?
【解析】χ2=
≈1.157
5<2.706.因此认为喜爱乒乓球与性别无关.
喜爱乒乓球的人数ξ的可能取值为0,1,2,则
P(ξ=0)===,P(ξ=1)==,
P(ξ=2)==.
所以喜爱乒乓球的人数ξ的分布列为
ξ
0
1
2
P
所以喜爱乒乓球的人数ξ的均值为E(ξ)=0×+1×+2×=.
答案:无关
5.(10分)在一次诗词知识竞赛调查中,发现参赛选手分为两个年龄(单位:岁)段:[20,30),[30,40],其中答对诗词名句与否的人数如图所示.
(1)完成下面2×2列联表;
正确
错误
总计
[20,30)
[30,40]
总计
(2)能否在犯错误的概率不超过0.1的前提下认为答对诗词名句与年龄有关,请说明你的理由;
(3)现按年龄段分层抽样选取6名选手,若从这6名选手中选取3名选手,求3名选手中年龄在[20,30)岁范围人数的分布列和数学期望.
【解析】(1)2×2列联表:
正确
错误
总计
[20,30)
10
30
40
[30,40]
10
70
80
总计
20
100
120
(2)χ2===3>2.706,在犯错误的概率不超过0.1的前提下认为答对诗词名句与年龄有关.
(3)按年龄段分层抽取6人中,在范围[20,30)岁的人数是2人,在[30,40]岁范围的人数是4人.
现从6名选手中选取3名选手,设3名选手中在范围[20,30)岁的人数为ξ,则ξ的可能取值为0,1,2.
P(ξ=0)==,P(ξ=1)==,
P(ξ=2)==,
所以ξ的分布列为
ξ
0
1
2
P
故ξ的数学期望为E(ξ)=0×+1×+2×=1.
【加练·固】
为推动实施健康中国战略,树立国家大卫生、大健康概念.手机APP也推出了多款健康运动软件,如“微信运动”.杨老师的微信朋友圈内有600位好友参与了“微信运动”,他随机选取了40位微信好友(女20人,男20人),统计其在某一天的走路步数.其中,女性好友的走路步数数据记录如下:
5
860 8
520 7
326 6
798 7
325 8
430
3
216 7
453 11
754 9
860 8
753 6
450
7
290 4
850 10
223 9
763 7
988 9
176
6
421 5
980
男性好友走路的步数情况可分为五个类别:A(0~2
000步)(说明:“0~2
000”表示大于等于0,小于等于2
000.下同),B(2
001~5
000步),C(5
001~8
000步),D(8
001~10
000步),E(10
001步及以上),且B,D,E三种类别人数比例为1∶3∶4,将统计结果绘制如图所示的条形图.
男性好友各类别人数的条形统计图
若某人一天的走路步数超过8
000步被系统认定为“卫健型”,否则被系统认定为“进步型”.
(1)若以杨老师选取的好友当天行走步数的频率分布来估计所有微信好友每日走路步数的概率分布,请估计杨老师的微信好友圈里参与“微信运动”的600名好友中,每天走路步数在5
001~10
000步的人数;
(2)请根据选取的样本数据完成下面的2×2列联表,并据此判断能否在犯错误的概率不超过0.05的前提下认为“认定类型”与“性别”有关.
卫健型
进步型
总计
男
20
女
20
总计
40
(3)若按系统认定类型从选取的样本数据中在男性好友中按比例选取10人,从中任意选取3人,记选到“卫健型”的人数为x;女性好友中按比例选取5人,从中任意选取2人,记选到“卫健型”的人数为y,求事件“|x-y|>1”的概率.附:χ2=,
P(χ2≥k)
0.1
0.05
0.01
k
2.706
3.841
6.635
【解析】(1)在样本数据中,男性好友B类别设为x人,则由题意可知1+x+3+3x+4x=20,可知x=2,故B类别有2人,D类别有6人,E类别有8人,走路步数在5
001~10
000步的包括C,D两类别共计9人;女性好友走路步数在5
001~10
000步共有16人.
用样本数据估计所有微信好友每天走路步数在5
001~10
000步的有600×=375(人).
(2)根据题意,选取的40个样本数据的2×2列联表为:
卫健型
进步型
总计
男
14
6
20
女
8
12
20
总计
22
18
40
得χ2=≈3.636<3.841,故不能在犯错误的概率不超过0.05的前提下认为“认定类型”与“性别”有关.
(3)在男性好友中“卫健型”与“进步型”的比例为7∶3,则选取10人,恰好选取“卫健型”7人,“进步型”3人;在女性好友中“卫健型”与“进步型”的比例为2∶3,选取5人,恰好选取“卫健型”2人,“进步型”3人;
“|x-y|>1”包含“x=3,y=1”,“x=3,y=0”,“x=2,y=0”,“x=0,y=2”,
则P(x=3,y=1)=×=,
P(x=3,y=0)=×=,
P(x=2,y=0)=×=,
P(x=0,y=2)=×=,
故P(|x-y|>1)=+++=.
关闭Word文档返回原板块
PAGE