(共53张PPT)
第八章 成对数据的统计分析
8.3 列联表与独立性检验
必备知识 探新知
关键能力 攻重难
课堂检测 固双基
素养目标 定方向
素养作业 提技能
素养目标 定方向
课程标准 学法解读
1.通过实例,理解2×2列联表的统计意义. 2.通过实例,了解2×2列联表独立性检验及其应用. 1.了解2×2列联表、随机变量χ2的意义.
2.理解独立性检验中P(χ2≥xα)的具体含义.
3.掌握独立性检验的方法和步骤.
4.通过典型案例,学习统计方法,并能用这些方法解决一些实际问题.
必备知识 探新知
分类变量
用来区别不同的现象或性质的随机变量,其取值可以用实数表示.
知识点1
2×2列联表及随机事件的概率
(1)2×2列联表:如果随机事件X与Y的样本数据如下表格形式
知识点2
Y=0 Y=1 合计
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d a+b+c+d
在这个表格中,核心的数据是中间的4个格子,所以这样的表格通常称为2×2列联表.
(2)2×2列联表中随机事件的概率:
如上表,记n=a+b+c+d,则
事件{Y=0}发生的概率可估计为_________________;
事件{X=1}发生的概率可估计为_________________;
事件{X=1,Y=0}发生的概率可估计为______________________.
事件{X=1|Y=0}发生的概率可估计为________________________.
独立性检验
(1)零假设:设X和Y为定义在Ω上,取值于{0,1}的成对分类变量.由于{X=0}和{X=1},{Y=0}和{Y=1}都是互为对立事件,故要判断事件{X=1}和{Y=1}之间是否有关联,需要判断假定关系_______________ _____________________是否成立.通常称H0为零假设.
(2)独立性检验:利用随机变量χ2来判断“两个分类量有关系”的方法称为独立性检验.
H0:P(Y=1|X
知识点3
=0)=P(Y=1|X=1)
关键能力 攻重难
题型探究
题型一 分类变量关联性的直观判断
(2021·山东邹城高三模拟)为了解铅中毒病人是否有尿棕色素增加现象,分别对病人组和对照组的尿液做尿棕色素定性检查,结果如下表.问:铅中毒病人组和对照组的尿棕色素阳性数有无差别?
典例 1
尿棕色素 合计
阳性数 阴性数
铅中毒病人组 29 7 36
铅中毒对照组 9 28 37
合计 38 35 73
[分析] 由列联表画出等高堆积条形图,由条形图可判断两个分类变量是否有差别.
[解析] 由上述列联表可知,在铅中毒病人组中尿棕色素为阳性的占80.56%,而铅中毒对照组仅占24.32%.说明它们之间有较大差别.
画出等高堆积条形图如图所示.
由列联表及等高堆积条形图可知,铅中毒病人组与对照组相比较,尿棕色素为阳性数差别明显,因此铅中毒病人组和对照组的尿棕色素阳性数有明显差别.
(2021·山东青岛一中高二期中)为了了解某高校学生喜欢使用手机支付是否与性别有关,抽取了部分学生作为样本,统计后作出如图所示的等高堆积条形图,则下列说法正确的是 ( )
A.喜欢使用手机支付与性别无关
B.样本中男生喜欢使用手机支付的约60%
典例 2
C.样本中女生喜欢使用手机支付的人数比男生多
D.女生比男生喜欢使用手机支付的可能性大些
D
[解析] A错误,根据等高堆积条形图,喜欢和不喜欢使用手机支付的比例因性别差距很明显,所以喜欢使用手机支付与性别有关;B错误,样本中男生喜欢使用手机支付的约为40%;女生比男生喜欢使用手机支付的可能性大些,由于不知道男女生人数,所以不能认定女生喜欢使用手机支付的人数是否比男生多,所以C错误,D正确.
【对点训练】 某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张.
(1)根据以上数据,作出考前心情与性格的列联表,并求性格外向的学生中考前心情紧张的概率;
(2)作出等高条形图,利用图形判断考前心情紧张与性格类型是否有关系.
[解析] (1)作列联表如下:
性格内向 性格外向 合计
考前心情紧张 332 213 545
考前心情不紧张 94 381 475
合计 426 594 1 020
(2)相应的等高条形图如图所示:
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的人数所占的比例,从图中可以看出考前心情紧张的样本中性格内向的人数占的比例比考前心情不紧张样本中性格内向的人数占的比例高,可以认为考前紧张与性格类型有关.
题型三 独立性检验
(2019·全国Ⅰ卷)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
典例 3
满意 不满意
男顾客 40 10
女顾客 30 20
[分析] (1)根据列联表,用频率代替概率,可分别估计男、女顾客对该商场服务满意的概率;(2)求出χ2的值,与临界值表对比可得结论.
【对点训练】 (2021·湖南省长沙市模拟)2020年春季,某出租汽车公司决定更换一批小汽车以代替原来报废的出租车,现有A,B两款车型的使用寿命(单位:年)频数表如下:
使用寿命/年 5 6 7 8 总计
A型出租车/辆 10 20 45 25 100
B型出租车/辆 15 35 40 10 100
(1)填写下表,并判断是否有99%的把握认为出租车的使用寿命与汽车车型有关;
使用寿命不高于6年 使用寿命不低于7年 总计
A型
B型
总计
(2)司机师傅小李准备在一辆开了4年的A型车和一辆开了4年的B型车中选择,为了尽最大可能实现3年内(含3年)不换车,试通过计算说明,他应如何选择.
[解析] (1)根据题目所给数据得到如下2×2的列联表:
使用寿命不高于6年 使用寿命不低于7年 总计
A型 30 70 100
B型 50 50 100
总计 80 120 200
题型三 独立性检验的综合应用
(2021·西南名校联盟高三月考)某校鼓励即将毕业的大学生到西部偏远地区去支教,校学生就业部针对即将毕业的男、女生是否愿意到西部支教进行问卷调查,得到的情况如下表所示:
典例 4
性别 支教 合计
愿意去支教 不愿意去支教
女生 20
男生 40
合计 70 100
(1)完成上述2×2列联表;
(2)根据表中的数据,试根据小概率值α=0.05的独立性检验,分析愿意去西部支教是否与性别有关?
(3)若在接受调查的所有男生中按照“是否愿意去支教”进行分层抽样,随机抽取10人,再在10人中抽取3人进行面谈,记面谈的男生中,不愿意去支教的人数为ξ,求ξ的分布列以及数学期望.
[分析] (2)根据列联表求出χ2和相应的频率,从而分析是否与性别有关;(3)由超几何分布公式求出相应的分布列,计算出数学期望.
[解析] (1)2×2列联表如下:
性别 支教 合计
愿意去支教 不愿意去支教
女生 30 20 50
男生 40 10 50
合计 70 30 100
【对点训练】 手机厂商推出一款6寸大屏手机,现对500名该手机使用者(200名女性、300名男性)进行调查,对手机进行评分,评分的频数分布表如下:
女性 用户 分值区间 [50,60) [60,70) [70,80) [80,90) [90,100]
频数 20 40 80 50 10
男性 用户 分值区间 [50,60) [60,70) [70,80) [80,90) [90,100]
频数 45 75 90 60 30
(1)完成下列频率分布直方图,并比较女性用户和男性用户评分的波动大小(不计算具体值,给出结论即可);
[解析] (1)女性用户和男性用户的频率分布直方图分别如图所示:
由图可得女性用户的波动小,男性用户的波动大.
(2)由题可得2×2列联表如下:
女性用户 男性用户 合计
认可用户 140 180 320
不认可用户 60 120 180
合计 200 300 500
易错警示
没有准确掌握公式中参数的含义致误
有甲、乙两个班级进行一门考试,按照学生考试成绩优秀和不优秀统计后,得到如下的列联表
班级与成绩列联表
典例 5
优秀 不优秀 总计
甲班 10 35 45
乙班 7 38 45
总计 17 73 90
试问能有多大把握认为“成绩与班级有关系”?
[辨析] 由于对2×2列联表中a、b、c、d的位置不清楚,在代入公式时代错了数值导致计算结果的错误.
[点评] 独立性检验中,参数χ2公式复杂计算量大,要弄清公式特点熟记公式,小心计算避免粗心致误.
课堂检测 固双基
1.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
男 女 总计
爱好 40 20 60
不爱好 20 30 50
总计 60 50 110
则正确的结论是 ( )
A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
C.有99%以上的把握认为“爱好该项运动与性别有关”
D.有99%以上的把握认为“爱好该项运动与性别无关”
[解析] 根据独立性检验的思想方法,正确选项为C.
C
2.(2021·河北省石家庄市期末)一个2×2列联表如下:
则表中m,n的值分别是 ( )
A.10,38 B.17,45
C.10,45 D.17,38
[解析] 由a+35=45,得a=10.由a+7=m,得m=17.由m+73=s,得s=90.由45+n=s,得n=45.
B
y1 y2 总计
x1 a 35 45
x2 7 b n
总计 m 73 s
3.下列关于χ2的说法中正确的是 ( )
A.χ2越大,“事件A,B有关”的可信度越小
B.χ2越大,“事件A,B无关”的可信度越大
C.χ2越小,“事件A,B有关”的可信度越小
D.χ2越小,“事件A,B无关”的可信度越小
[解析] χ2越大,“事件A,B有关”的可信度越大,“事件A,B无关”的可信度越小;χ2越小,“事件A,B有关”的可信度越小,“事件A,B无关”的可信度越大.
C
4.利用独立性检验对事件A和B是否有关进行研究时,若有99%的把握认为事件A和B有关,则计算出的χ2的取值范围是 ( )
A.χ2≥6.635 B.χ2<6.635
C.χ2≥3.841 D.χ2<3.841
[解析] 易知当χ2≥6.635时,有99%的把握认为事件A和B有关.故选A.
A
P(χ2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
5.(2021·西安市联考)某企业有2个分厂生产某种零件,为了研究两个分厂生产零件的质量是否有差异,随机从2个分厂生产的零件中各抽取了500件,具体数据如表所示:
甲厂 乙厂 总计
优质品 360 320 680
非优质品 140 180 320
总计 500 500 1 000
[解析] 因为7.353>6.635,所以这种判断出错的最大可能性为0.01.
0.01
P(X2≥k) 0.1 0.05 0.01 0.001
k 2.706 3.841 6.635 10.828
素养作业 提技能第八章 8.3
A 组·素养自测
一、选择题
1.(多选题)下列说法正确的是( AB )
A.事件A与B独立,即两个事件互不影响
B.事件A与B关系越密切,则χ2就越大
C.χ2的大小是判定事件A与B是否相关的唯一根据
D.若判定两事件A与B相关,则A发生B一定发生
[解析] 由事件的独立性知,A选项正确;由独立性检验的意义知,B选项正确;χ2的大小是判定事件A与B是否相关的一种方法,不是唯一依据,C选项不正确;若事件A与B相关,则A发生B可能发生,也可能不发生,D选项不正确.
2.分类变量X和Y的列表如下,则下列说法判断正确的是( C )
y1 y2 合计
x1 a b a+b
x2 c d c+d
合计 a+c b+d a+b+c+d
A.ad-bc越小,说明X和Y关系越弱
B.ad-bc越大,说明X和Y关系越强
C.(ad-bc)2越大,说明X与Y关系越强
D.(ad-bc)2越接近于0,说明X与Y关系越强
[解析] 列联表可以较为准确地判断两个变量之间的相关关系程度,
由χ2=,
当(ad-bc)2越大,χ2越大,表明X与Y的关系越强.
(ad-bc)2越接近 0,说明两个分类变量X和Y无关的可能性越大.
3.为考察A,B两种药物预防某疾病的效果,进行动物试验,分别得到如下等高条形图:
根据图中信息,在下列各项中,说法最佳的一项是( B )
A.药物B的预防效果优于药物A的预防效果
B.药物A的预防效果优于药物B的预防效果
C.药物A,B对该疾病均有显著的预防效果
D.药物A,B对该疾病均没有预防效果
[解析] 从等高条形图可以看出,服用药物A后未患病的比例比服用药物B后未患病的比例大得多,预防效果更好.
4.(2021·河北张家口高三月考)如图是调查某学校高一、高二年级学生参加社团活动的等高堆积条形图,阴影部分的高表示参加社团的频率.已知该校高一、高二年级的学生人数均为600人(所有学生都参加了调查),现从参加社团的同学中按分层抽样的方式抽取45人,则抽取的高二学生人数为( C )
A.9 B.18
C.27 D.36
[解析] 根据等高堆积条形图可知,参加社团的高一和高二年级学生的人数比为2∶3,由分层抽样的性质可得,抽取的高二学生人数为45×=27,故选C.
5.(2021·广东深圳中学高二月考)2019年10月18日至27日,第七届世界军人运动会在湖北武汉举办,中国代表团共获得133金64银42铜,共239枚奖牌.为了调查各国参赛人员对主办方的满意程度,研究人员随机抽取了500名参赛运动员进行调查,所得数据如下表所示,现有如下说法:①在参与调查的500名运动员中任取1人,抽到对主办方表示满意的男性运动员的概率为;②在犯错误的概率不超过1%的前提下可以认为“是否对主办方表示满意与运动员的性别有关”;③没有99.9%的把握认为“是否对主办方表示满意与运动员的性别有关”.
男性运动员 女性运动员
对主办方表示满意 200 220
对主办方表示不满意 50 30
则正确说法的个数为( B )
A.0 B.1
C.2 D.3
[解析] 任取1名参赛人员,抽到对主办方表示满意的男性运动员的概率为=,故①错误;
χ2=≈5.952<6.635,故②错误,③正确.故选B.
二、填空题
6.(一题两空)在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算χ2=7.63.根据这一数据分析,有__99%__的把握说,打鼾与患心脏病是__有关__的. (“有关”或“无关”)
[解析] ∵χ2=7.63,∴χ2>6.635,因此,有99%的把握说,打鼾与患心脏病是有关的.
7.若两个分类变量x和y的列联表为:
yx y1 y2
x1 5 15
x2 40 10
则x与y之间有关系的概率约为__0.999__.
[解析] χ2=≈18.822.
∵18.822>10.828,
∴x与y之间有关系的概率约为1-0.001=0.999.
8.如果根据性别与是否爱好运动的列联表得到χ2≈3.852>3.841,则判断性别与是否爱好运动有关,那么这种判断犯错误的可能性不超过__5%__.
[解析] 因为P(χ2≥3.841)≈0.05.
所以判断性别与是否爱好运动有关,出错的可能性不超过5%.
三、解答题
9.为了解学生的课外阅读时间情况,某学校随机抽取了50人进行统计分析,把这50人每天阅读的时间(单位:分钟)绘制成频数分布表,如下表所示:
阅读时间 [0,20) [20,40) [40,60) [60,80) [80,100) [100,120]
人数 8 10 12 11 7 2
若把每天阅读时间在60分钟以上(含60分钟)的同学称为“阅读达人”,根据统计结果中男女生阅读达人的数据,制作出如图所示的等高堆积条形图.
(1)根据已知条件完成2×2列联表;
(2)判断是否有99%的把握认为是否为“阅读达人”跟性别有关.
[解析] (1)由频数分布表得“阅读达人”的人数是11+7+2=20,根据等高堆积条形图得2×2列联表如下:
男生 女生 合计
阅读达人 6 14 20
非阅读达人 18 12 30
合计 24 26 50
(2)由列联表可得
χ2=≈4.327<6.635,
故没有99%的把握认为是否为“阅读达人”跟性别有关.
10.(2021·全国甲卷)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级品 二级品 合计
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
附:K2=,
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
[解析] (1)根据题表中数据知,甲机床生产的产品中一级品的频率是=0.75,乙机床生产的产品中一级品的频率是=0.6.
(2)根据题表中的数据可得
K2==≈10.256.
因为10.256>6.635,所以有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异.
B 组·素养提升
一、选择题
1.(2021·北京五中模拟)有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下列联表:
优秀 非优秀 总计
甲班 10 b
乙班 c 30
总计105
已知在这105人中随机抽取1人,成绩优秀的概率为,χ2≈6.109.则下列说法正确的是( C )
附:
P(χ2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
A.列联表中c的值为30,b的值为35
B.列联表中c的值为15,b的值为50
C.根据列联表中的数据,若按95%的可靠性要求,能认为成绩与班级有关系
D.根据列联表中的数据,若按95%的可靠性要求,不能认为成绩与班级有关系
[解析] ∵在这105人中随机抽取1人,成绩优秀的概率为,
∴成绩优秀的人数为105×=30,非优秀的人数为105-30=75,
∴c=30-10=20,b=75-30=45,
∴χ2=≈6.109>3.841.
∴若按95%的可靠性要求,能认为成绩与班级有关系.故选C.
2.(2021·湖南省常德市模拟)针对时下的“抖音热” ,某校团委对“学生是否喜欢抖音和性别有关”作了一次调查,其中被调查的男、女生人数相同,男生中喜欢抖音的人数占男生人数的,女生中喜欢抖音的人数占女生人数,若有95%的把握认为是否喜欢抖音和性别有关,则调查人数中男生的人数可能为( C )
附:
P(χ2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
A.20 B.40
C.60 D.30
[解析] 设男生可能有x人,依题意可得列联表如下:
喜欢抖音 不喜欢抖音 总计
男生 x x x
女生 x x x
总计 x x 2x
若有95%的把握认为是否喜欢抖音和性别有关,则χ2≥3.841,由χ2==≥3.841,解得x≥40.330 5,又由题意知,x是5的整数倍,
∴60满足题意.故选C.
3.(多选题)有两个分类变量X,Y,其列联表如下所示,
Y1 Y2
X1 a 20-a
X2 15-a 30+a
其中a,15-a均为大于5的整数,若在犯错误的概率不超过0.05的前提下认为X,Y有关,则a的值为( CD )
A.6 B.7
C.8 D.9
[解析] 根据公式,得
χ2=
=>3.841,根据a>5且15-a>5,
a∈Z,求得当a=8或9时满足题意.
4.(多选题)(2021·江西省模拟)千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,观察了A地区的100天日落和夜晚天气的情况,得到如下2×2列联表:
夜晚天气日落云里走 下雨 未下雨
出现 25 5
未出现 25 45
并计算得到χ2=19.05,下列小波对A地区天气判断正确的是( ABC )
附:
P(χ2≥k) 0.1 0.05 0.01 0.001
k 2.706 3.841 6.635 10.828
A.夜晚下雨的概率约为
B.在未出现“日落云里走”的条件下,夜晚下雨的概率约为
C.有99.99%的把握认为“日落云里走”是否出现与当晚是否下雨有关
D.出现“日落云里走”,有99.9%的把握认为夜晚会下雨
[解析] 对于选项A,因为夜晚下雨的天数一共有25+25=50(天),所以夜晚下雨的概率约为=,故A正确.对于选项B,未出现“日落云里走”夜晚下雨的有25天,未出现“日落云里走”的一共有25+45=70(天),所以在未出现“日落云里走”的条件下,夜晚下雨的概率约为=,故B正确.对于选项C,因为χ2≈19.05>10.828,所以有99.9%的把握认为“日落云里走”是否出现与当晚是否下雨有关,故C正确,D错误,故选ABC.
二、填空题
5.某校在两个班进行教学方式对比试验,两个月后进行了一次检测,实验班与对照班成绩统计如表所示(单位:人):
80及80分以上 80分以下 总计
实验班 35 15 50
对照班 20 m 50
总计 55 45 n
(1)m=__30__,n=__100__;
(2)根据表中数据得到的结论是__有99%的把握说“教学方式与成绩有关系”__.
[解析] (1)m=45-15=30,n=50+50=100.
(2)由表中的数据得χ2=≈9.091.
因为9.091>6.635,所以有99%的把握说“教学方式与成绩有关系”.
6.某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如表:
甲厂:
分组 [29.86,29.90) [29.90,29.94) [29.94,29.98) [29.98,30.02) [30.02,30.06) [30.06,30.10) [30.10,30.14)
频数 12 63 86 182 92 61 4
乙厂:
分组 [29.86,29.90) [29.90,29.94) [29.94,29.98) [29.98,30.02) [30.02,30.06) [30.06,30.10) [30.10,30.14)
频数 29 71 85 159 76 62 18
(1)两个分厂生产的零件的优质品率分别为__72%,64%__;
(2)有__99%__的把握认为“两个分厂生产的零件的质量有差异”.
[解析] (1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为×100%=72%;
乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为×100%=64%.
(2)
甲厂 乙厂 总计
优质品 360 320 680
非优质品 140 180 320
总计 500 500 1 000
χ2=≈7.35>6.635.
所以有99%的把握认为“两个分厂生产的零件的质量有差异”.
7.2019年10月乒乓球世界杯在成都举行,为了搞好接待工作,组委会招募了16名男志愿者和14名女志愿者.调查发现,男、女志愿者分别有10人和6人喜爱乒乓球,其余不喜爱.得到2×2列联表如下.
喜爱乒乓球 不喜爱乒乓球 总计
男 10 6 16
女 6 8 14
总计 16 14 30
则喜爱乒乓球与性别__无关__(填“有关”或“无关”).
若从女志愿者中抽取2人参加接待工作,其中喜爱乒乓球的人数为ξ,则ξ的均值为____.
[解析] χ2=≈1.157 5<2.706.因此认为喜爱乒乓球与性别无关.
喜爱乒乓球的人数ξ的可能取值为0,1,2,则
P(ξ=0)===,P(ξ=1)==,
P(ξ=2)==.
所以喜爱乒乓球的人数ξ的分布列为
ξ 0 1 2
P
所以喜爱乒乓球的人数ξ的均值为E(ξ)=0×+1×+2×=.
三、解答题
8.海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如图.
(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关.
箱产量<50 kg 箱产量≥50 kg
旧养殖法
新养殖法
附:
P(χ2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
χ2=.
[解析] (1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”,
由P(A)=P(BC)=P(B)P(C),
旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,
故P(B)的估计值为0.62,
新养殖法的箱产量不低于50 kg的频率为(0.068+0.046+0.010+0.008)×5=0.66,
故P(C)的估计值为0.66,
则事件A的概率估计值为P(A)=P(B)·P(C)=
0.62×0.66=0.409 2,
∴A发生的概率为0.409 2.
(2)根据箱产量的频率分布直方图得到列联表:
箱产量<50 kg 箱产量≥50 kg 总计
旧养殖法 62 38 100
新养殖法 34 66 100
总计 96 104 200
则χ2=≈15.705,
由15.705>6.635.
故有99%的把握认为箱产量与养殖方法有关.
9.某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,已知土地的使用面积以及相应的管理时间的关系如下表所示:
土地使用面积x(单位:公顷) 1 2 3 4 5
管理时间y(单位:月) 8 10 13 25 24
并调查了某村300名村民参与管理的意愿,得到的部分数据如下表所示:
愿意参与管理 不愿意参与管理
男性村民 150 50
女性村民 50
(1)求出相关系数r的大小,并判断管理时间y与土地使用面积x是否线性相关?
(2)依据小概率值α=0.001的独立性检验,能否认为村民参与管理的意愿与性别有关系?
(3)若以该村的村民的性别与参与管理意愿的情况估计贫困县的情况,从该贫困县中任取3人,记取到不愿意参与管理的男性村民的人数为X,求X的分布列及数学期望.
[解析] (1)依题意:==3,==16,故(xi-)(yi-)=(-2)×(-8)+(-1)×(-6)+1×9+2×8=47,(xi-)2=4+1+1+4=10,(yi-)2=64+36+9+81+64=254,则r=
==≈0.933,故管理时间y与土地使用面积x线性相关.
(2)依题意,完善表格如下:
愿意参与管理 不愿意参与管理 合计
男性村民 150 50 200
女性村民 50 50 100
合计 200 100 300
零假设H0:村民参与管理的意愿与性别无关.
根据表中数据计算得
χ2==18.75>10.828=x0.001,
根据小概率值α=0.001的独立性检验,我们推断H0不成立,此推断犯错误的概率不大于0.001,故有99.9%的把握认为村民参与管理的意愿与性别有关系.
(3)依题意,X的可能取值为0,1,2,3,从该贫困县中随机抽取一名,则取到不愿意参与管理的男性村民的概率为,
故P(X=0)=2=,
P(X=1)=C×2×=,
P(X=2)=C××2=,
P(X=3)=C3=,
故X的分布列为
X 0 1 2 3
P
则数学期望为E(X)=0×+1×+2×+3×=.