(共73张PPT)
复习任务群一
现代文阅读Ⅰ
把握共性之“新” 打通应考之“脉”
第七章 统计案例
§3 独立性检验问题
3.1 独立性检验
3.2 独立性检验的基本思想
3.3 独立性检验的应用
学习任务 核心素养
1.通过对典型案例的探究,了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用.(重点) 2.知道独立性检验在生物统计、医学统计、企业单位等方面的应用,养成实事求是的科学态度. 通过对独立性检验在生物统计、医学统计、企业单位等方面的应用,培养数学建模与数据分析素养.
在20世纪末时,有女性控告美国加州大学伯克莱分校在录取研究生时存在性别歧视,她们提供了一份数据:
必备知识·情境导学探新知
性别 录取情况
录取 未录取 总计 录取率
男 1 198 1 493 2 691 44.5%
女 557 1 278 1 835 30.4%
总计 1 755 2 771 4 526 38.8%
她们说男生的录取率比女生的录取率高了很多,所以她们有理由相信校方存在性别歧视.经过计算后她们发现χ2=92.205,远远大于10.828,所以她们有99.9%的把握认为性别对录取是有影响的.其依据就是我们将要学的独立性检验的有关知识方法.
1.与列联表相关的概念
(1)分类变量:变量的不同“__”,表示个体所属的________,像这样的变量称为分类变量.
(2)列联表:
①列出的____分类变量的______,称为列联表.
②一般地,假设有两个分类变量A和B,它们的取值分别为{A1,A2}和{B1,B2},其样本频数列联表(称为2×2列联表)为:
值
不同类别
两个
频数表
A B
B1 B2 总计
A1 a b ____
A2 c d ____
总计 ____ ____ n=a+b+c+d
a+b
c+d
a+c
b+d
2.独立性检验的基本思想
(1)定义:利用随机变量χ2来判断“两个分类变量______”的方法称为独立性检验.
(2)公式:χ2=,其中n=__________.
有关系
a+b+c+d
(3)当数据量较大时,在统计中,用以下结果对变量的独立性进行判断.
①当χ2≤______时,没有充分的证据判断变量A,B有关联,可以认为变量A,B是没有关联的;
②当χ2>______时,有90%的把握判断变量A,B有关联;
③当χ2>______时,有95%的把握判断变量A,B有关联;
④当χ2>______时,有99%的把握判断变量A,B有关联.
2.706
2.706
3.841
6.635
思考 设n=a+b+c+d,用估计P(A1B1),用估计P(A1),用估计P(B1),在什么情况下,A1与B1独立?
[提示] 当=时,A1与B1独立.
√
1.思考辨析(正确的画“√”,错误的画“×”)
(1)事件X,Y关系越密切,则由观测数据计算得到的χ2值越大.
( )
(2)当χ2<2.706时,有90%的把握判断变量A,B有关联. ( )
(3)列联表频率分析法可初步分析两分类变量是否有关系,而独立性检验中χ2取值则可通过统计表从数据上说明两分类变量的相关性的大小. ( )
×
√
2.某市政府调查市民收入增减与旅游愿望的关系时,采用独立性检验法抽查了3 000人,计算发现χ2=6.023,则根据这一数据查阅下表,市政府断言市民收入增减与旅游愿望有关系的可信程度是( )
√
A.90% B.95% C.97.5% D.99.5%
C [∵χ2=6.023>5.024,∴可断言市民收入增减与旅游愿望有关系的可信程度为97.5%,故选C.]
P(χ2≥k) … 0.15 0.10 0.025 0.010 0.005 …
k … 2.072 2.706 5.024 6.635 7.879 …
3.在一项中学生近视情况的调查中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( )
A.平均数与方差 B.回归分析
C.独立性检验 D.概率
√
C [判断两个分类变量是否有关的最有效方法是进行独立性检验.]
4.吃零食是中学生普遍存在的现象.吃零食对学生身体发育有诸多不利影响,影响学生的健康成长.下表给出性别与吃零食的列联表:
试回答吃零食与性别有关系吗?_______(选填“有关”或“无关”)
吃零食情况 性别
男 女 总计
喜欢吃零食 5 12 17
不喜欢吃零食 40 28 68
总计 45 40 85
有关
有关 [χ2===≈4.722
>3.841.
所以有95%以上的把握认为“吃零食与性别”有关.]
关键能力·合作探究释疑难
类型1 2×2列联表及应用
【例1】 下面是2×2列联表.
A B
B1 B2 总计
A1 33 21 54
A2 a 13 46
总计 b 34 100
(1)表中a,b处的值应为多少?
(2)若用频率估计概率,则P(A1),P(B1),P(A1B1)分别是多少?
(3)表中的数据能说明A1与B1相互独立吗?
[解] (1)a=46-13=33,b=33+a=33+33=66.
(2)P(A1)==,P(B1)==,P(A1B1)=.
(3)因为P(A1)P(B1)=≈=P(A1B1),所以表中的数据能说明A1与B1相互独立.
反思领悟 若=成立,则可以认为A1与B1相互独立.
若=成立,则可以认为A1与B2相互独立.
若=成立,则可以认为A2与B1相互独立.
若=成立,则可以认为A2与B2相互独立.
由于频率不同于概率,即使变量A与B相互独立,式子两边也不一定相等.
[跟进训练]
1.在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用与判断二者是否有关系.
[解] 2×2列联表如下:
饮食习惯 年龄
年龄在六 十岁以上 年龄在六 十岁以下 总计
饮食以蔬菜为主 43 21 64
饮食以肉类为主 27 33 60
总计 70 54 124
将表中数据代入公式得
==0.671 875.==0.45.
显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关系.
类型2 两个变量的独立性检验
【例2】 某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;质量监督员甲不在生产现场时,510件产品中有合格品493件,次品17件.是否有99%的把握认为质量监督员甲是否在生产现场与产品质量好坏有关系?
[解] 根据题目所给数据得如下2×2列联表:
甲是否在生产现场 产品
合格品 次品 总计
甲在生产现场 982 8 990
甲不在生产现场 493 17 510
总计 1 475 25 1 500
由列联表中的数据,得χ2=≈13.097>6.635,
因此,有99%的把握认为质量监督员甲是否在生产现场与产品质量好坏有关系.
反思领悟 解决独立性检验问题的基本步骤
[跟进训练]
2.在研究某种药物对某种病毒的治疗效果时,进行动物试验,得到以下数据,对150只动物服用药物,其中132只动物存活,18只动物死亡,对照组150只动物进行常规治疗,其中114只动物存活,36只动物死亡.
(1)根据以上数据建立一个2×2列联表;
(2)试问该种药物对治疗该病毒是否有效?
[解] (1)2×2列联表如下:
服药情况 存活情况
存活数 死亡数 总计
服用该药物 132 18 150
未服该药物 114 36 150
总计 246 54 300
(2)由(1)知χ2=≈7.317>6.635.
故有99%的把握认为该种药物对该病毒有治疗效果.
类型3 独立性检验的综合应用
【例3】 某高校共有学生15 000人,其中男生10 500人,女生4 500人,为调查该校学生每周平均体育运动时间的情况,工作人员采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).
(1)应收集多少位女生的样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率.
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时.请完成每周平均体育运动时间与性别的列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
附:χ2=.
P(χ2≥k0) 0.10 0.05 0.010 0.005
k0 2.706 3.841 6.635 7.879
[解] (1)300×=90,所以应收集90位女生的样本数据.
(2)由频率分布直方图得2×(0.150+0.125+0.075+0.025)=0.75,
所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.
(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4个小时,75人的每周平均体育运动时间不超过4个小时.
又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别的列联表如下:
每周平均体育运动时间 性别
男生 女生 总计
每周平均体育运动时间 不超过4个小时 45 30 75
每周平均体育运动时间 超过4个小时 165 60 225
总计 210 90 300
结合列联表可算得χ2的观测值
χ2=≈4.762>3.841.
所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
反思领悟 (1)独立性检验问题常与统计、概率相结合,解题时一定要认真审题,找出各数据的联系.
(2)解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.
[跟进训练]
3.某城市地铁即将开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:
月收入 (单位:百元) [15,25) [25,35) [35,45) [45,55) [55,65) [65,75]
赞成定 价者 人数 1 2 3 5 3 4
月收入 (单位:百元) [15,25) [25,35) [35,45) [45,55) [55,65) [65,75]
认为价 格偏高 者人数 4 8 12 5 2 1
(1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差距是多少(结果保留2位小数);
(2)由以上统计数据填下面2×2列联表,分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.
对定价 的态度 月收入情况
月收入不低于 55百元的人数 月收入低于 55百元的人数 总计
认为价格偏高者
赞成定价者
总计
附:χ2=.
[解] (1)“赞成定价者”的月平均收入为
x1=≈50.56.
“认为价格偏高者”的月平均收入为
x2==38.75,
∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x1-x2=50.56-38.75=11.81(百元).
(2)根据条件可得2×2列联表如下:
对定价的态度 月收入情况
月收入不低于 55百元的人数 月收入低于55 百元的人数 总计
认为价格偏高者 3 29 32
赞成定价者 7 11 18
总计 10 40 50
∴χ2=≈6.27<6.635,
∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.
学习效果·课堂评估夯基础
√
1.下面关于χ2的说法正确的是( )
A.χ2在任何相互独立的问题中都可以用于检验有关还是无关
B.χ2的值越大,两个事件的相关的正确性就越大
C.χ2是用来判断两个分类变量是否相关的随机变量,当χ2的值很小时可以推定两类变量不相关
D.χ2的计算公式是χ2=
B [χ2只适用于2×2列联表问题,且χ2只能推定两个分类变量相关,但不能推定两个变量不相关.选项D中χ2公式错误,分子上少了平方.]
2.若变量X和Y的列联表如下:
X Y
Y1 Y2 总计
X1 a b a+b
X2 c d c+d
总计 a+c b+d a+b+c+d
则下列说法正确的是( )
A.ad-bc越小,说明X与Y的相关联程度越弱
B.ad-bc越大,说明X与Y的相关联程度越强
C.(ad-bc)2越大,说明X与Y的相关联程度越强
D.(ad-bc)2越接近于0,说明X与Y的相关联程度越强
√
C [χ2=,当(ad-bc)2越大时,χ2越大,说明X与Y的相关性越强.]
3.下面是两个分类变量的列联表:
X Y
Y1 Y2 总计
X1 a 21 73
X2 2 25 27
总计 b 46 100
则表中a,b处的值分别为( )
A.94,96 B.52,50
C.52,54 D.54,52
C [根据列联表的特点可以发现:73=21+a,b=a+2,解之得a=52,b=54,故选C.]
√
4.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:
年龄 收看节目情况
文艺节目 新闻节目 总计
20至40岁 40 18 58
大于40岁 15 27 42
总计 55 45 100
由表中数据直观分析,收看新闻节目的观众是否与年龄有关:________(填“是”或“否”).
是 [因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即==,两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的.]
是
5.为了考察某种新药的副作用,给50位患者服用此新药,另外50位患者服用安慰剂(一种和新药外形完全相同,但无任何药效的东西),得到如下观测数据.
药物 副作用
有 无 总计
新药 15 35 50
安慰剂 6 44 50
总计 21 79 100
由以上数据,你认为服用新药会产生副作用吗?
[解] 由公式得χ2=≈4.882.
∵4.882>3.841,
∴可以有95%的把握认为新药会产生副作用.
1.熟记公式χ2=.
2.熟悉临界值与相关程度的关系,一般情况下,当χ2>2.706时,说明“变量A与B有关联”的可信程度为90%;当χ2>3.841时,说明“变量A与B有关联”的可信程度为95%;当χ2>6.635时,说明“变量A与B有关联”的可信程度为99%;当χ2≤2.706时,可认为变量A与B无关联.
章末综合测评(一) 动量守恒定律
题号
1
3
5
2
4
6
8
7
9
10
课时分层作业(四十八) 独立性检验问题
一、选择题
1.在吸烟与患肺病这两个分类变量的计算中,下列说法中正确的是
( )
A.若随机变量χ2>6.635,我们有99%以上的把握说吸烟与患肺病有关,则某人吸烟,那么他有99%的可能患有肺病
B.若从统计量中求出有99%以上的把握说吸烟与患肺病有关,则在100个吸烟者中必有99人患有肺病
C.若从统计量中求出有95%以上的把握说吸烟与患肺病有关,是指有5%的可能性使得推断错误
D.以上说法均错误
题号
1
3
5
2
4
6
8
7
9
10
C [由随机变量χ2的意义可知选项C正确.]
√
2.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:
题号
1
3
5
2
4
6
8
7
9
10
班级 成绩
优秀 非优秀 总计
甲班 10 b
乙班 c 30
总计 105
已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是( )
A.列联表中c的值为30,b的值为35
B.列联表中c的值为15,b的值为50
C.根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”
D.根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系”
题号
1
3
5
2
4
6
8
7
9
10
√
C [由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c=20,b=45,选项A,B错误.根据列联表中的数据,得到χ2=≈6.109>3.841,因此有95%的把握认为“成绩与班级有关系”,选项C正确.]
题号
1
3
5
2
4
6
8
7
9
10
3.下列选项中,哪一个χ2的值可以有95%以上的把握认为“A与B有关系”( )
A.χ2=2.700 B.χ2=2.710
C.χ2=3.765 D.χ2=5.014
√
题号
1
3
5
2
4
6
8
7
9
10
D [∵5.014>3.841,故D正确.]
4.以下关于独立性检验的说法中,错误的是( )
A.独立性检验依据小概率原理
B.独立性检验得到的结论一定正确
C.样本不同,独立性检验的结论可能有差异
D.独立性检验不是判断两分类变量是否相关的唯一方法
√
题号
1
3
5
2
4
6
8
7
9
10
B [独立性检验得到的结论不一定正确,如我们得出有90%的把握认为A与B有关,只是说这种判断的正确性为90%,具体问题中A与B可能有关,也可能无关.]
5.两个分类变量X和Y,值域分别为{x1,x2}和{y1,y2},其样本频数分别是a=10,b=21,c+d=35.若X与Y有关系的可信程度不小于95%,则c=( )
A.3 B.7
C.5 D.6
√
题号
1
3
5
2
4
6
8
7
9
10
A [列2×2列联表如下:
题号
1
3
5
2
4
6
8
7
9
10
故χ2=≥3.841.
把选项A,B,C,D代入验证可知选A.]
X Y
y1 y2 总计
x1 10 21 31
x2 c d 35
总计 10+c 21+d 66
二、填空题
6.某大学在研究性别与职称(分正教授、副教授)之间是否有关系,你认为应该收集的数据是_____________________________________
___________________.
题号
1
3
5
2
4
6
8
7
9
10
男正教授人数,女正教授人数,男副教授人数,女副教授人数 [由研究的问题可知,需收集的数据应为男正教授人数,女正教授人数,男副教授人数,女副教授人数.]
男正教授人数,女正教授人数,男副教授
人数,女副教授人数
三、解答题
7.一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).试验结果如下:
对照组的小白鼠体重的增加量从小到大排序为
15.2 18.8 20.2 21.3 22.5 23.2
25.8 26.5 27.5 30.1 32.6 34.3
34.8 35.6 35.6 35.8 36.2 37.3
40.5 43.2
题号
1
3
5
2
4
6
8
7
9
10
试验组的小白鼠体重的增加量从小到大排序为
7.8 9.2 11.4 12.4 13.2 15.5
16.5 18.0 18.8 19.2 19.8 20.2
21.6 22.8 23.6 23.9 25.1 28.2
32.3 36.5
(1)计算试验组的样本平均数;
题号
1
3
5
2
4
6
8
7
9
10
(2)(ⅰ)求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m的数据的个数,完成如下列联表:
题号
1
3
5
2
4
6
8
7
9
10
组别 体重的增加量
对照组
试验组
总计
(ⅱ)根据(ⅰ)中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异?
附:χ2=,其中n=a+b+c+d.
题号
1
3
5
2
4
6
8
7
9
10
[解] (1)试验组的样本平均数为×(7.8+9.2+11.4+12.4+13.2+15.5+16.5+18.0+18.8+19.2+19.8+20.2+21.6+22.8+23.6+23.9+25.1+28.2+32.3+36.5)=19.8.
(2)(ⅰ)将40个数据按照从小到大的顺序依次排列,得最中间的两个数据即第20个和第21个数据分别为23.2和23.6,则40只小白鼠体重的增加量的中位数m==23.4.
题号
1
3
5
2
4
6
8
7
9
10
列联表如下:
题号
1
3
5
2
4
6
8
7
9
10
组别 体重的增加量
对照组 6 14 20
试验组 14 6 20
总计 20 20 40
(ⅱ)χ2===6.4>3.841,
故有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异.
题号
1
3
5
2
4
6
8
7
9
10
8.假设有两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为:
题号
1
3
5
2
4
6
8
7
9
10
X Y
y1 y2
x1 10 18
x2 m 26
则当m取下面何值时,X与Y的关系最弱( )
A.8 B.9
C.14 D.19
题号
1
3
5
2
4
6
8
7
9
10
√
C [由10×26≈18m,解得m≈14.4,所以当m=14时,X与Y的关系最弱.]
9.某高校《统计初步》课程的教师随机调查了选该课程的学生的一些情况,具体数据如下表:
题号
1
3
5
2
4
6
8
7
9
10
性别 专业
非统计专业 统计专业 总计
男 33 20 53
女 17 26 43
总计 50 46 96
则χ2≈________,有________的把握判定主修统计专业与性别有关.
题号
1
3
5
2
4
6
8
7
9
10
4.914 95% [依题意知:χ2=≈4.914,∵4.914>3.841,
∴有95%的把握判定主修统计专业与性别有关.]
4.914
95%
10.中国调查网有一项关于午休问题的调查,其结果如下:(单位:人)
题号
1
3
5
2
4
6
8
7
9
10
对午休的看法 性别
男 女 总计
有用 50 214 264
无用 113 ① 182
总计 163 283 ②
(1)将题表补充完整,应填入的数据是多少?
(2)试分析性别与对午睡的看法是否有关?
(3)请再列举一些可能与对午睡看法有关的分类变量.(至少两个)
题号
1
3
5
2
4
6
8
7
9
10
[解] (1)①=283-214=69,②=264+182=446,∴①填69,②填446.
(2)∵χ2=≈86.490>6.635,∴至少有99%的把握认为性别与对午睡的看法有关.
(3)年龄、职业、季节等.
谢 谢!