(共35张PPT)
9.2 独立性检验
必备知识 清单破
假设两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为
知识点 1 2×2列联表
Y
y1 y2 合计
X x1 a b a+b
x2 c d c+d
合计 a+c b+d a+b+c+d
2×2列联表给出了成对分类变量数据的交叉分类频数.
1.χ2公式
一般地,对于两个分类变量Ⅰ和Ⅱ,Ⅰ有两类取值,即类A和类B(如吸烟与不吸烟);Ⅱ也有 两类取值,即类1和类2(如患呼吸道疾病和未患呼吸道疾病).我们得到字母表示的2×2列联表:
知识点 2 与独立性检验相关的概念
Ⅱ
类1 类2 合计
Ⅰ 类A a b a+b
类B c d c+d
合计 a+c b+d a+b+c+d
记n=a+b+c+d,则χ2= .
2.独立性检验
用χ2统计量研究两类变量是否有关的方法称为独立性检验.
1.要推断“Ⅰ与Ⅱ有关系”,可按下面的步骤进行:
(1)提出假设H0:Ⅰ与Ⅱ没有关系;
(2)根据2×2列联表与χ2= 计算χ2的值;
(3)根据临界值(如下表所示),做出判断.
知识点3 独立性检验的思想
P(χ2≥x0) 0.50 0.40 0.25 0.15 0.10
x0 0.455 0.708 1.323 2.072 2.706
P(χ2≥x0) 0.05 0.025 0.010 0.005 0.001
x0 3.841 5.024 6.635 7.879 10.828
2.常用检验结论
(1)若χ2>10.828,则有99.9%的把握认为“Ⅰ与Ⅱ有关系”;
(2)若χ2>6.635,则有99%的把握认为“Ⅰ与Ⅱ有关系”;
(3)若χ2>2.706,则有90%的把握认为“Ⅰ与Ⅱ有关系”;
(4)若χ2≤2.706,则认为没有充分的证据显示“Ⅰ与Ⅱ有关系”,但也不能得出结论“H0成 立”,即Ⅰ与Ⅱ没有关系.
知识辨析
1.分类变量中的变量与函数中的变量是同一概念吗
2.独立性检验得出的结论是确定的吗
3.若事件A与B经独立性检验后得到结论“A与B无关”,则这两个事件是不是互不影响
一语破的
1.不是.变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量,有时可以 把分类变量的不同取值用数字表示,但这时的数字除了分类以外没有其他含义,而函数中的 变量分为自变量与因变量,都是数的集合,有它们各自的意义.
2.不是.因为列联表中的数据是样本数据,它只是总体的代表,具有随机性,所以独立性检验得 出的结论不是确定的.
3.不是.只能说明“A与B无关”这一结论犯错误的可能性很小.
关键能力 定点破
独立性检验的关注点
在2×2列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0,事实上,|ad-bc|越小,两个 分类变量的关系越弱;|ad-bc|越大,两个分类变量的关系越强.
定点 1 由χ2进行独立性检验
典例1 为了研究经常使用手机是否对数学学习成绩有影响,某校高二数学学习小组进行了调 查,随机抽取高二年级50名学生的一次数学单元测试成绩,并制成下面的2×2列联表:
及格 不及格 合计
很少使用手机 20 5 25
经常使用手机 10 15 25
合计 30 20 50
参考公式:χ2= ,其中n=a+b+c+d.
附表:
P(χ2≥x0) 0.05 0.025 0.010 0.005 0.001
x0 3.841 5.024 6.635 7.879 10.828
参照附表,得到的正确结论是 ( )
A.有99.9%以上的把握认为“经常使用手机与数学学习成绩无关”
B.有99.9%以上的把握认为“经常使用手机与数学学习成绩有关”
C.在犯错误的概率不超过0.5%的前提下,认为“经常使用手机与数学学习成绩无关”
D.在犯错误的概率不超过0.5%的前提下,认为“经常使用手机与数学学习成绩有关”
D
解析 提出假设H0:经常使用手机与数学学习成绩无关.由题中数据可得,χ2= = ≈8.333,
因为当H0成立时,χ2>7.879的概率约为0.005,所以有99.5%的把握认为“经常使用手机与数学 学习成绩有关”,即在犯错误的概率不超过0.5%的前提下,认为“经常使用手机与数学学习 成绩有关”.故选D.
典例2 有甲、乙两个班级共计105人进行数学考试,按照大于或等于85分为优秀,85分以下为 非优秀统计成绩,得到下表:
优秀 非优秀
甲班 10 b
乙班 c 30
附: χ2= ,n=a+b+c+d.
P(χ2≥x0) 0.05 0.010 0.001
x0 3.841 6.635 10.828
已知在全部的105人中随机抽取1人,成绩优秀的概率为 ,则下列说法正确的是 ( )
A.列联表中c的值为30,b的值为35
B.列联表中c的值为20,b的值为40
C.根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”
D.根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系”
C
解析 由题意,在全部的105人中随机抽取1人,成绩优秀的概率为 ,所以成绩优秀的人数为1
05× =30,非优秀的人数为105-30=75,所以c=30-10=20,b=75-30=45.
提出假设H0:成绩与班级无关.
根据列联表中的数据,可以求得χ2= ≈6.109,
因为当H0成立时, χ2>3.841的概率约为0.05,所以有95%的把握认为“成绩与班级有关系”.
解决与独立性检验有关的统计、概率综合问题,一般有以下几个步骤:
(1)厘清题意,理解问题中的条件和所要得出的结论,尤其是直方图中给定的信息,找关键量.
(2)分析数据,列出2×2列联表.
(3)利用独立性检验的步骤进行判断.
(4)利用概率公式求事件的概率.
(5)反思回顾、检查关键点、易错点及答题规范.
定点 2 独立性检验与统计、概率的综合应用
典例1 北京冬奥组委对报名参加北京冬奥会志愿者的人员开展冬奥会志愿者的培训活动,并 在培训结束后进行了一次考核.为了解这次培训活动的效果,从中随机抽取160名志愿者的考 核成绩,根据这160名志愿者的考核成绩,得到的统计图表如下所示.
男志愿者考核成绩频率分布直方图
女志愿者考核成绩频率分布表
分组 频数 频率
[75,80) 4 0.050
[80,85) 26 0.325
[85,90) a 0.3
[90,95) 20 m
[95,100] b 0.075
若参加这次考核的志愿者考核成绩在[90,100]内,则考核等级为优秀.
(1)求a,b,m的值;
(2)分别求出这次培训考核等级为优秀的男、女志愿者人数;
(3)补全下面的2×2列联表,在犯错误的概率不超过0.01的条件下,能否认为考核等级是否优秀 与性别有关.
单位:人
优秀 非优秀 合计
男志愿者
女志愿者
合计
P(χ2≥x0) 0.10 0.05 0.010 0.001
x0 2.706 3.841 6.635 10.828
附: χ2= ,其中n=a+b+c+d.
解析 (1)因为0.050+0.325+0.3+m+0.075=1,所以m=0.25,
又女志愿者总人数为 =80,
所以a=80×0.3=24,b=80×0.075=6.
(2)这次培训考核等级为优秀的男志愿者人数为(160-80)×(0.015+0.010)×5=10;
这次培训考核等级为优秀的女志愿者人数为20+6=26.
(3)由题意得,2×2列联表如下:
单位:人
优秀 非优秀 合计
男志愿者 10 70 80
女志愿者 26 54 80
合计 36 124 160
提出假设H0:考核等级是否优秀与性别无关,根据列联表数据,得
χ2= = ≈9.176,
因为当H0成立时,χ2>6.635的概率约为0.01,
所以在犯错误的概率不超过0.01的条件下,能认为考核等级是否优秀与性别有关.
典例2 随着智能手机的普及,手机计步软件迅速流行开来,这类软件能自动记载每个人每日 健步走的步数,从而为科学健身提供一定的帮助.某市总工会为了解该市市民每日健步走的 情况,从本市市民中随机抽取了2 000名(其中不超过40岁的市民恰好有1 000名),利用手机计 步软件统计了他们某天健步走的步数(单位:千),并将样本数据按[3,5),[5,7),[7,9),[9,11),[11,1 3),[13,15),[15,17),[17,19),[19,21]分为九组,将抽取的不超过40岁的市民的样本数据绘制成频 率分布直方图,将40岁以上的市民的样本数据绘制成频数分布表,并利用该样本的频率估计 总体的概率.
步数
分组/千 [3,5) [5,7) [7,9) [9,11) [11,13)
频数 10 20 20 30 400
步数
分组/千 [13,15) [15,17) [17,19) [19,21]
频数 200 200 100 20
(1)现规定,每日健步走的步数不低于13 000的为“健步达人”,填写下面的2×2列联表,在犯错 误的概率不超过0.001的条件下,分析是不是“健步达人”是否与年龄有关;
单位:人
“健步达人” 非“健步达人” 合计
40岁以上
的市民
不超过40
岁的市民
合计
(2)①利用样本平均数和中位数估计该市不超过40岁的市民每日健步走的步数(单位:千)的平 均数和中位数(同一组的数据用该组区间的中点值作代表);
②由频率分布直方图可以认为,不超过40岁的市民每日健步走的步数Z(单位:千)近似地服从 正态分布N(μ,σ2),其中μ近似为样本平均数,σ的值约为3.64.现从该市不超过40岁的市民中随 机抽取5人,记其中每日健步走的步数Z(单位:千)在[4.88,15.8]内的人数为X,求X的数学期望.
参考公式:χ2= ,其中n=a+b+c+d.
参考数据:
P(χ2≥x0) 0.10 0.05 0.010 0.005 0.001
x0 2.706 3.841 6.635 7.879 10.828
若Z~N(μ,σ2),则P(μ-σ≤Z≤μ+σ)≈0.682 7,P(μ-2σ≤Z≤μ+2σ)≈0.954 5.
解析 (1)2×2列联表为
单位:人
“健步达人” 非“健步达人” 合计
40岁以上
的市民 520 480 1 000
不超过40
岁的市民 400 600 1 000
合计 920 1 080 2 000
提出假设H0:是不是“健步达人”与年龄无关.
计算可得χ2= ≈28.986,
因为当H0成立时,χ2>10.828的概率约为0.001,
所以在犯错误的概率不超过0.001的条件下,认为是不是“健步达人”与年龄有关.
(2)①样本平均数为4×0.04+6×0.06+8×0.10+10×0.10+12×0.30+14×0.20+16×0.10+18×0.08+20 ×0.02=12.16.
由前4组的频率之和为0.04+0.06+0.10+0.10=0.30,前5组的频率之和为0.30+0.30=0.60,知样本 中位数落在第5组,
设样本中位数为t,则(t-11)×0.15=0.50-0.30,
所以t= .
故可以估计该市不超过40岁的市民每日健步走的步数(单位:千)的平均数为12.16,中位数为 .
②由题意及①可知μ=12.16,σ=3.64,
故[μ-2σ,μ+σ]=[4.88,15.8],
而P(μ-2σ≤Z≤μ+σ)
= P(μ-2σ≤Z≤μ+2σ)+ P(μ-σ≤Z≤μ+σ)
≈ ×0.954 5+ ×0.682 7
=0.818 6,
所以X~B(5,0.818 6),
所以E(X)=5×0.818 6=4.093.
规律总结 独立性检验与统计、概率的综合应用主要表现为以统计图表为载体,考查统计分 析、概率的计算,以及构建两个分类变量并列2×2列联表等.解题的关键是认真审题,确定分 类变量的取值,得到2×2列联表,计算χ2,从而解决问题.
学科素养 情境破
素养 综合应用统计与概率知识解决实际问题,发展直观想象、数学建模、数学运算的
核心素养
素养解读
在统计与概率的综合应用问题中,一般要利用散点图、统计图表得到相应的统计信息, 通过建立相应的统计与概率模型将实际问题数学化,再利用回归分析或独立性检验及概率知 识求解,最后还原成实际问题的解,其中涉及的运算有(1)求概率、分布列、数学期望或方差; (2)求样本相关系数或线性回归方程;(3)求平均数、中位数、众数等统计量;(4)求统计量χ2.
典例呈现
例题 为推进北方地区冬季清洁取暖,国家发改委制定了煤改气、煤改电价格扶植新政策, 从而使得煤改气、煤改电用户大幅度增加.下面条形图反映了某省2023年1~7月份煤改气、 煤改电的用户总数量(单位:万户).
(1)在下面给定的坐标系中作出煤改气、煤改电用户总数量y随月份t变化的散点图,并判断y与t是否具有线性相关关系.如果具有线性相关关系,那么是正相关还是负相关
(2)求样本相关系数r,并用样本相关系数说明y与t之间线性相关的程度;
(3)建立y关于t的经验回归方程(系数精确到0.01),并估计2024年11月份该省煤改气、煤改电 的用户总数量;
(4)从这7个月的煤改气、煤改电的用户总数量数据中随机抽取2个数据,记其中煤改气、煤 改电的用户总数量低于1.3的数据个数为X,求X的概率分布与数学期望.
参考数据:
解题思路 (1)通过作出散点图来分析线性相关性.
作出散点图如图所示:
由图可知,各散点基本分布在一条直线附近,所以可以认为y与t具有线性相关关系,且是正相 关.
(2)由题中条形图中的数据得,
=4, =28,
又 ≈0.53,
(ti- )(yi- )=2.79,
所以 r=
≈ ≈0.99,
因为y与t的样本相关系数r接近1,
所以y与t的线性相关性很强.
(3)由(2)可设y关于t的经验回归方程为 = + t.
利用公式求出其中的相关参数即可得到经验回归方程,再把t=23代入方程中进行估计.
由 = =1.32及参考数据得 =
= ≈0.10, = - ≈1.32-0.10×4=0.92,
所以y关于t的经验回归方程为 =0.92+0.10t,将t=23代入经验回归方程得 =0.92+0.10×23=3.2
2,
所以估计2024年11月份该省煤改气、煤改电的用户总数量为3.22万户.
(4)易知这7个月中,只有前3个月的煤改气、煤改电的用户总数量低于1.3,
故X的可能取值为0,1,2.
P(X=0)= = ,
P(X=1)= = ,
P(X=2)= = ,
所以X的概率分布为
X 0 1 2
P
所以X的数学期望E(X)=0× +1× +2× = .
思维升华
统计与概率作为考查学生应用意识的重要载体,已成为近几年高考的一大亮点和热点. 它与其他知识融合、渗透,情境新颖,充分体现了概率与统计的工具性和交汇性,在解题时要 注意理解实际问题的意义,使之和相应的概率计算对应起来,从而快速有效地解决问题.9.2 独立性检验
基础过关练
题组一 2×2列联表
1.某村庄抽取了该村内50名老年人、年轻人每年是否体检的情况进行了调查,统计数据如表所示:
每年体检 未每年体检 合计
老年人 a 7 c
年轻人 6 b d
合计 e f 50
已知抽取的老年人、年轻人各有25名,则下列结论错误的是( )
A.a=18 B.b=19
C.c+d=50 D.f-e=-2
2.某次国际会议为了搞好对外宣传工作,会务组选聘了50名记者担任对外翻译工作,在如下“性别与是否会外语”的2×2列联表中,d= .
会外语 不会外语 合计
男 a b 20
女 6 d
合计 18 50
题组二 独立性检验的基本思想及其应用
3.对于独立性检验,下列说法正确的是( )
A.χ2的值可以为负值
B. χ2独立性检验的统计假设是各事件之间相互独立
C.利用χ2独立性检验得到“患慢性气管炎和吸烟习惯有关”即指“有吸烟习惯的人必会患慢性气管炎”
D.2×2列联表中的4个数据可为任何实数
4.假设有两个变量X和Y,它们的取值集合分别为{x1,x2}和{y1,y2},其2×2列联表如下.
y1 y2
x1 a b
x2 c d
根据以下选项中的数据计算χ2的值,其中χ2的值最大的一组为( )
A.a=60,b=50,c=40,d=30
B.a=60,b=40,c=50,d=30
C.a=40,b=30,c=50,d=60
D.a=30,b=40,c=50,d=60
5.(多选题)某高校有在校学生9 000名,其中男生4 000名,女生5 000名,为了解学生每天自主学习中国古典文学的时长,随机调查了40名男生和50名女生,其中每天自主学习中国古典文学的时长超过3小时的学生称为“古文迷”,否则为“非古文迷”,调查结果如下表,则( )
古文迷 非古文迷
男生 20 20
女生 40 10
参考公式及数据: χ2=,其中n=a+b+c+d.
P(χ2≥x0) 0.50 0.40 0.25 0.05 0.025 0.010
x0 0.455 0.708 1.323 3.841 5.024 6.635
A.该校某名学生为“古文迷”的概率为0.6
B.随机调查的男、女生人数符合分层抽样的抽样方法
C.有99%的把握认为学生是不是“古文迷”与性别有关系
D.没有99%的把握认为学生是不是“古文迷”与性别有关系
6.针对2025年第九届哈尔滨亚冬会,某校团委对“是否喜欢冰雪运动与学生性别的关系”进行了一次调查,其中被调查的男、女生人数相同,男生中喜欢冰雪运动的人数占男生人数的,女生中喜欢冰雪运动的人数占女生人数的,若有95%的把握认为是否喜欢冰雪运动与学生性别有关,则被调查的学生中男生的人数不可能为( )
附: χ2=,n=a+b+c+d.
P(χ2≥x0) 0.1 0.05 0.01 0.005 0.001
x0 2.706 3.841 6.635 7.879 10.828
A.48 B.54 C.60 D.66
7.直播带货是一种直播和电商相结合的销售手段,目前已被广大消费者所接受.针对这种现状,某公司决定逐月加大对直播带货的投入,使直播带货金额稳步提升.以下是该公司2023年前5个月的直播带货金额:
月份x 1 2 3 4 5
直播带货 金额y/万元 350 440 580 700 880
(1)求变量x,y满足的经验回归方程,并据此估计2023年7月份该公司的直播带货金额;
(2)该公司随机抽取55人进行问卷调查,得到如下不完整的列联表:
参加过直 播带货 未参加过 直播带货 总计
女性 25 30
男性 10
总计
请补全上表,并判断是否有90%的把握认为参加过直播带货与性别有关.
参考数据:(xi-)2=10,(yi-)2=176 400,(xi-)(yi-)=1 320,≈664.
P(χ2≥x0) 0.15 0.10 0.05 0.025
x0 2.072 2.706 3.841 5.024
参考公式:经验回归方程中,;
χ2=,其中n=a+b+c+d.
8.盲盒里面通常装的是动漫、影视作品的周边,或者设计师单独设计出来的玩偶等.盒子上没有标注,购买者只有打开后才会知道自己买到了什么,因此这种惊喜吸引了众多年轻人,形成了“盲盒经济”.某款盲盒内可能装有某一套玩偶的A,B,C三种样式,且每个盲盒内只装一个.
(1)某销售网点为调查该款盲盒的受欢迎程度,随机发放了200份问卷,并全部收回.经统计,有30%的人购买了该款盲盒,在这些购买者中,女生占;而在未购买者中,男生、女生各占50%.请根据以上信息填写2×2列联表,并分析是否有95%的把握认为购买该款盲盒与性别有关;
女生 男生 合计
购买
未购买
合计
(2)该销售网点已经售卖该款盲盒6周,并记录了销售情况,如表:
第x周 1 2 3 4 5 6
售出盒数y 16 23 25 26 30
由于电脑故障,第2周数据现已丢失,该销售网点负责人决定用第4,5,6周的数据求经验回归方程,再用第1,3周的数据进行检验.
①若由经验回归方程得到的估计数据与所选出的检验数据的误差的绝对值均不超过2,则认为得到的经验回归方程是可靠的.请用第4,5,6周的数据求出y关于x的经验回归方程,并说明所得经验回归方程是否可靠;
②如果通过①的检验得到的经验回归方程可靠,那么我们可以认为第2周卖出的盒数误差的绝对值也不超过2,请你求出第2周卖出的盒数的可能取值;如果不可靠,请你设计一个估计第2周卖出的盒数的方案.
参考公式:χ2=,其中n=a+b+c+d;
在中,
.
参考数据:
P(χ2≥x0) 0.10 0.05 0.025 0.010 0.005 0.001
x0 2.706 3.841 5.024 6.635 7.879 10.828
能力提升练
题组一 独立性检验的基本思想及其应用
1.“3+1+2”的新高考模式,其中“3”为全国统考科目:语文、数学和外语;“1”为考生在物理和历史中选择一门;“2”为考生在思想政治、地理、化学和生物四门中选择两门.某中学调查了高一年级学生的选科倾向,随机抽取200人,其中选考物理的有120人,选考历史的有80人,统计各选科人数如下表,则下列说法正确的是( )
选考类别 选择科目
思想政治 地理 化学 生物
物理类 35 50 90 65
历史类 50 45 30 35
附: χ2=,其中n=a+b+c+d.
P(χ2≥x0) 0.100 0.050 0.025 0.010 0.005 0.001
x0 2.706 3.841 5.024 6.635 7.879 10.828
A.物理类的学生中选择地理的比例比历史类的学生中选择地理的比例高
B.物理类的学生中选择生物的比例比历史类的学生中选择生物的比例低
C.有90%以上的把握认为选择生物与选考类别有关
D.没有95%以上的把握认为选择生物与选考类别有关
2.(多选题)某校为了解高一新生对数学是否感兴趣,从400名女生和600名男生中通过分层抽样的方式随机抽取了100名学生进行问卷调查,将调查的结果进行统计,得到如下等高堆积条形图和列联表,则( )
对数学的兴趣 合计
感兴趣 不感兴趣
女生 a b a+b
男生 c d c+d
合计 a+c b+d 100
参考数据:
P(χ2≥x0) 0.1 0.05 0.01 0.005 0.001
x0 2.706 3.841 6.635 7.879 10.828
A.表中a=12,c=30
B.可以估计该校高一新生中对数学不感兴趣的女生比男生多
C.有95%的把握认为性别与对数学的兴趣有关
D.有99%的把握认为性别与对数学的兴趣有关
3.为了调查学生对网络课程是否喜欢,研究人员随机调查了相同人数的男、女学生,发现男生中有80%喜欢网络课程,女生中有40%不喜欢网络课程,且有95%的把握认为喜欢网络课程与性别有关,但没有99%的把握认为喜欢网络课程与性别有关.已知被调查的男、女学生的总人数为20k(k∈N*),则k= .
4.某市举行了首届阅读大会,为调查市民对阅读大会的满意度,相关部门随机抽取男、女市民各50名,每名市民对大会给出满意或不满意的评价,得到下面列联表:
满意 不满意
男市民 60-m m-10
女市民 m+10 40-m
当m≤25,m∈N*时,若没有95%的把握认为男、女市民对大会的评价有差异,则m的最小值为 .
附: χ2=,其中n=a+b+c+d.
P(χ2≥x0) 0.10 0.05 0.005
x0 2.706 3.841 7.879
题组二 独立性检验的综合应用
5.为分析消费能力与性别的关系,某电商运营部门使用相关软件了解到,2023年第4季度在本店网购的消费者共12 000名,现随机抽取100名消费者,其中男女各半.若消费者的总消费金额不低于3 000元,则称其为网购达人.男性消费者中,网购达人占.网购达人中,男性消费者占.
(1)请完成下面的2×2列联表;
性别 网购达人 非网购达人 合计
男
女
合计
(2)若“认为是不是网购达人与性别有关”犯错误的概率不超过P,那么根据临界值表得到的最精确的P值应为多少 请说明理由.
参考公式: χ2=,其中n=a+b+c+d.
临界值表:
P(χ2≥x0) 0.10 0.05 0.010 0.001
x0 2.706 3.841 6.635 10.828
6.某地区对某次考试成绩进行分析,随机抽取100名学生的A,B两门学科成绩作为样本.将他们的A学科成绩进行整理,得到如下频率直方图,且规定成绩达到70分为良好.已知他们中B学科良好的有50人,两门学科均良好的有40人.
根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为这次考试学生的A学科良好与B学科良好有关;
B学科良好 B学科不够良好 合计
A学科良好
A学科不够良好
合计
(2)用样本频率估计总体概率,从该地区参加考试的全体学生中随机抽取3人,记这3人中A,B学科均良好的人数为X,求X的概率分布与数学期望.
附: χ2=,其中n=a+b+c+d.
P(χ2≥x0) 0.15 0.10 0.05 0.025 0.010 0.005 0.001
x0 2.072 2.706 3.841 5.024 6.635 7.879 10.828
7.为培养学生的阅读习惯,某学校规定所有学生每天在校阅读时长不得少于1小时.若认为每天在校阅读时长不少于1小时为达标,达到2小时的学生为“阅读之星”.假设该校学生每天在校阅读时长X~N(1.5,σ2)(X的单位:小时),达标学生是“阅读之星”的概率为.
(1)从该校学生中随机选出1人,求达标的概率;
(2)为进一步了解该校学生不达标是否与性别有关,随机调查了90名学生,其中男生占,已知不达标的人数恰是其期望值,且不达标的学生中男生占,是否有99%的把握认为不达标与性别有关
参考公式: χ2=,其中n=a+b+c+d.
参考数据:
P(χ2≥x0) 0.050 0.025 0.010 0.001
x0 3.841 5.024 6.635 10.828
8.恰逢盛世,风调雨顺,某稻米产地获得大丰收.为促进当地某品牌大米销售,甲、乙两位驻村干部通过直播宣传并销售所驻村生产的该品牌大米.通过分析某时段内100名顾客在观看直播后选择在甲、乙两位驻村干部的直播间内(以下简称为甲直播间、乙直播间)购买的情况(假定每人只在一个直播间内购买大米),得到以下数据:
网民类型 在直播间内购买大米的情况 合计
在甲直播间内购买 在乙直播间内购买
本地区网民 50 5 55
外地区网民 30 15 45
合计 80 20 100
(1)是否有99.5%的把握认为网民选择在甲、乙直播间内购买大米与网民所处地区有关
(2)用样本的频率分布估计总体的概率分布,若共有100 000名网民在甲、乙直播间内购买大米,且网民选择在甲、乙两个直播间内购买大米互不影响,记其中在甲直播间内购买大米的网民人数为X,求事件“X=k”的概率取最大值时k的值.
附: χ2=,其中n=a+b+c+d.
P(χ2≥x0) 0.1 0.05 0.01 0.005
x0 2.706 3.841 6.635 7.879
答案与分层梯度式解析
9.2 独立性检验
基础过关练
1.D 3.B 4.C 5.BC 6.A
1.D 由题意得a+7=c=25,6+b=d=25,a+6=e,7+b=f,c+d=50,
所以a=18,b=19,e=24,f=26,
所以f-e=2,
故选D.
2.答案 24
解析 由题意得
解得
3.B ∵2×2列联表中的数据均为正整数,
∴根据χ2的计算公式可知χ2的值不可能为负值,排除A;
由独立性检验的检验步骤可知B正确;
利用χ2独立性检验得到“患慢性气管炎和吸烟习惯有关”,是指有吸烟习惯的人患慢性气管炎的概率较大,即有一定的把握说它们相关,允许有一定的出错率,因此C错误;
2×2列联表中的4个数据是对于某组特定变量的统计数据,这4个数据间有一定的关系,不能为任意实数,因此D错误.故选B.
4.C 对于A, ;
对于B, ;
对于C, ;
对于D, .
显然最大,故C正确.
5.BC 由题表中数据知,该校某名学生为“古文迷”的概率为≠0.6,A错误.
男生共4 000名,女生共5 000名,随机调查了40名男生和50名女生,4 000∶5 000=40∶50,符合分层抽样的抽样方法,B正确.
提出假设H0:学生是不是“古文迷”与性别无关,由题表中数据得χ2==9,因为当H0成立时, χ2≥6.635的概率约为0.01,所以我们有99%的把握认为学生是不是“古文迷”与性别有关系,故C正确,D错误.
故选BC.
6.A 设男生人数为6n(n∈N*),因为被调查的男、女生人数相同,所以女生人数也为6n(n∈N*),
根据题意列出列联表如下:
男生 女生 合计
喜欢冰雪运动 5n 4n 9n
不喜欢冰雪运动 n 2n 3n
合计 6n 6n 12n
则χ2=,
因为有95%的把握认为是否喜欢冰雪运动与学生性别有关,
所以χ2≥3.841,即≥3.841,所以6n≥51.853 5,又n∈N*,故通过分析选项,可知被调查的学生中男生的人数不可能为48,故选A.
7.解析 (1)由题得)=1 320,
所以=590-132×3=194,
所以变量x,y满足的经验回归方程为=132x+194,
当x=7时,=132×7+194=1 118,
所以估计2023年7月份该公司的直播带货金额为1 118万元.
(2)补全的列联表如下:
参加过直播带货 未参加过直播带货 总计
女性 25 5 30
男性 15 10 25
总计 40 15 55
提出假设H0:参加过直播带货与性别无关,
根据表中数据,计算可得χ2=≈3.743,
因为当H0成立时, χ2≥2.706的概率约为0.1,所以我们有90%的把握认为参加过直播带货与性别有关.
8.解析 (1)2×2列联表如下:
女生 男生 合计
购买 40 20 60
未购买 70 70 140
合计 110 90 200
提出假设H0:购买该款盲盒与性别无关.
根据列联表中的数据,可得
χ2=≈4.714,
因为当H0成立时, χ2≥3.841的概率约为0.05,所以我们有95%的把握认为购买该款盲盒与性别有关.
(2)①根据第4,5,6周的数据,得×(4+5+6)=5,
×(25+26+30)=27,
故
=2.5,=27-2.5×5=14.5,
则所求经验回归方程为=2.5x+14.5,
当x=1时,=2.5×1+14.5=17,|17-16|<2,
当x=3时,=2.5×3+14.5=22,|22-23|<2,
故所得经验回归方程是可靠的.
②由①可知得到的经验回归方程可靠,所以当x=2时,=2.5×2+14.5=19.5.
设第2周卖出的盒数为n(n∈N*),则|n-19.5|≤2,即17.5≤n≤21.5,所以n能取18,19,20,21,
即第2周卖出的盒数的可能取值为18,19,20,21.
能力提升练
1.D 依据题表中数据可知,物理类的学生中选择地理的比例为,所以物理类的学生中选择地理的比例比历史类的学生中选择地理的比例低,故A错误;
物理类的学生中选择生物的比例为,所以物理类的学生中选择生物的比例比历史类的学生中选择生物的比例高,故B错误;
由题中表格可列2×2列联表如下:
选考生物 不选考生物 合计
物理类 65 55 120
历史类 35 45 80
合计 100 100 200
提出假设H0:选择生物与选考类别无关,
故χ2=≈2.083,
由2.083<2.706,知没有90%以上的把握认为选择生物与选考类别有关,故C错误;
由2.083<3.841,知没有95%以上的把握认为选择生物与选考类别有关,故D正确.
故选D.
2.AC 由题可知,抽取的男生人数为600×=40,
由题中等高堆积条形图知,抽取的男生中感兴趣的人数为60×0.5=30,不感兴趣的人数为60×0.5=30,抽取的女生中感兴趣的人数为40×0.3=12,不感兴趣的人数为40×0.7=28,
故2×2列联表如下:
对数学的兴趣 合计
感兴趣 不感兴趣
女生 12 28 40
男生 30 30 60
合计 42 58 100
由此表可知,a=12,c=30,故A正确;
用样本估计总体,可知该校高一新生中,对数学不感兴趣的女生人数约为400×=300,
所以估计该校高一新生中对数学不感兴趣的女生比男生少,故B错误;
提出假设H0:性别与对数学的兴趣无关,
易得χ2=≈3.941>3.841,
因为当H0成立时,χ2≥3.841的概率约为0.05,所以我们有95%的把握认为性别与对数学的兴趣有关,故C正确;
由C中分析知χ2≈3.941<6.635,
所以没有99%的把握认为性别与对数学的兴趣有关,故D错误.
故选AC.
3.答案 5或6
解析 根据题意,2×2列联表如下:
是否喜欢网络课程 合计
喜欢 不喜欢
男生 8k 2k 10k
女生 6k 4k 10k
合计 14k 6k 20k
提出假设H0:喜欢网络课程与性别无关,
所以χ2=.
因为有95%的把握认为喜欢网络课程与性别有关,但没有99%的把握认为喜欢网络课程与性别有关,
所以3.841≤<6.635,所以4.033 05≤k<6.966 75,又k∈N*,
所以k=5或k=6.
4.答案 21
解析 χ2=
=,由题意得χ2=<3.841,即(2 500-100m)2<201 652.5,所以-449<2 500-100m<449,即20.51
5.解析 (1)由题意可得,抽取的男性消费者有50人,女性消费者有50人,男性消费者中网购达人有50×=20(人),
则男性消费者中非网购达人有50-20=30(人),抽取的消费者中网购达人共有20×=50(人),
则女性消费者中网购达人有50-20=30(人),女性消费者中非网购达人有50-30=20(人),
故得2×2列联表如下:
性别 网购达人 非网购达人 合计
男 20 30 50
女 30 20 50
合计 50 50 100
(2)提出假设H0:是不是网购达人与性别无关,
由(1)中列联表可得, χ2==4,
因为3.841<4<6.635,
所以由临界值表可知,“认为是不是网购达人与性别有关”犯错误的概率不超过5%,即P的值为5%.
6.解析 (1)由题中频率直方图可得A学科良好的人数为100×(0.040+0.025+0.005)×10=70,
所以补充完整的2×2列联表如下:
B学科良好 B学科不够良好 合计
A学科良好 40 30 70
A学科不够良好 10 20 30
合计 50 50 100
提出假设H0:A学科良好与B学科良好无关,
易得χ2=≈4.8,因为当H0成立时, χ2≥3.841的概率约为0.05,因此我们有95%的把握认为H0不成立,即有95%的把握认为这次考试学生的A学科良好与B学科良好有关.
(2)由题知A,B学科均良好的概率约为,
X的可能取值为0,1,2,3,且X~B.
所以P(X=0)=,
P(X=1)=,
P(X=2)=,
P(X=3)=.
所以X的概率分布为
X 0 1 2 3
P
因为X~B.
7.解析 (1)从该校学生中随机选出1人,记其达标为事件A,是“阅读之星”为事件B.
则P(A)=P(X≥1),P(B)=P(AB)=P(X≥2).
因为X~N(1.5,σ2),所以P(B)=1-P(A).
又达标学生是“阅读之星”的概率为,
所以P(B|A)=,
即从该校学生中随机选出1人,达标的概率为.
(2)依题意,随机调查的90名学生中,男生人数为40,女生人数为50.
设这90名学生中,不达标的学生人数为Y.
由(1)知,不达标的概率为.
所以数学期望E(Y)=90×=18,即不达标的人数为18.
因为不达标的学生中有是男生,所以不达标的男生人数为3,不达标的女生人数为15.
则达标的男生人数为37,达标的女生人数为35,得如下2×2列联表.
男生 女生 合计
达标 37 35 72
不达标 3 15 18
合计 40 50 90
所以χ2==7.031 25>6.635.
因为P(χ2≥6.635)≈0.010,所以有99%的把握认为不达标与性别有关.
8.解析 (1)提出假设H0:网民选择在甲、乙直播间内购买大米与网民所处地区无关,
经计算得χ2=≈9.091>7.879,
因为当H0成立时, χ2≥7.879的概率约为0.005,所以我们有99.5%的把握认为网民选择在甲、乙直播间内购买大米与网民所处地区有关.
(2)利用样本的频率分布估计总体的概率分布,可知网民选择在甲直播间内购买大米的概率为,
则X~B,
则P(X=k)=pk(1-p)n-k(k=0,1,2,…,100 000),
则问题等价于求当k取何值时,P(X=k)=pk(1-p)n-k取最大值,
当k≥1时,,
又(n+1)p=100 001×=80 000.8,
所以当k<(n+1)p=80 000.8时,P(X=k)>P(X=k-1);
当k=(n+1)p=80 000.8时,P(X=k)=P(X=k-1);
当k>(n+1)p=80 000.8时,P(X=k)所以P(X=80 000)>P(X=79 999)>…>P(X=1),
且P(X=100 000)<…
所以当X=80 000时,P(X=k)取最大值,
即事件“X=k”的概率取最大值时k的值为80 000.
5