授课主题
独立性检验
教学目标
1.通过对典型案例的分析,了解分类变量、2×2列联表、随机变量K2的意义.2.通过对典型案例分析,了解独立性检验的基本思想、方法及初步应用.
教学内容
列联表分类变量的汇总统计表(频数表).一般我们只研究每个分类变量只取两个值,这样的列联表称为2×2列联表.一般地,假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+dK2=,其中n=a+b+c+d为样本容量.三维柱形图和二维条形图若要推断的论述为H1:“X与Y有关系”,可以按如下步骤判断结论H1成立的可能性:(1)在三维柱形图中,主对角线上两个柱形高度的乘积ad与副对角线上两个柱形高度的乘积bc相差越大,H1成立的可能性就越大.(2)在二维条形图中,计算和,两个值相差越大,H1成立的可能性就越大.题型一 有关、无关的检验
INCLUDEPICTURE
"F:\\源文件\\人教B版\\左括.TIF"
\
MERGEFORMATINET
INCLUDEPICTURE
"F:\\源文件\\人教B版\\左括.TIF"
\
MERGEFORMATINET
INCLUDEPICTURE
"F:\\源文件\\人教B版\\左括.TIF"
\
MERGEFORMATINET
INCLUDEPICTURE
"F:\\源文件\\人教B版\\左括.TIF"
\
MERGEFORMATINET
INCLUDEPICTURE
"F:\\源文件\\人教B版\\左括.TIF"
\
MERGEFORMATINET
INCLUDEPICTURE
"F:\\源文件\\人教B版\\左括.TIF"
\
MERGEFORMATINET
INCLUDEPICTURE
"F:\\源文件\\人教B版\\左括.TIF"
\
MERGEFORMATINET
INCLUDEPICTURE
"F:\\源文件\\人教B版\\左括.TIF"
\
MERGEFORMATINET
INCLUDEPICTURE
"F:\\源文件\\人教B版\\左括.TIF"
\
MERGEFORMATINET
INCLUDEPICTURE
"F:\\源文件\\人教B版\\左括.TIF"
\
MERGEFORMATINET
INCLUDEPICTURE
"F:\\源文件\\人教B版\\左括.TIF"
\
MERGEFORMATINET
INCLUDEPICTURE
"F:\\源文件\\人教B版\\左括.TIF"
\
MERGEFORMATINET
INCLUDEPICTURE
"F:\\源文件\\人教B版\\左括.TIF"
\
MERGEFORMATINET
INCLUDEPICTURE
"F:\\源文件\\人教B版\\左括.TIF"
\
MERGEFORMATINET
INCLUDEPICTURE
"F:\\源文件\\人教B版\\左括.TIF"
\
MERGEFORMATINET
INCLUDEPICTURE
"F:\\源文件\\人教B版\\左括.TIF"
\
MERGEFORMATINET
INCLUDEPICTURE
"F:\\源文件\\人教B版\\左括.TIF"
\
MERGEFORMATINET
INCLUDEPICTURE
"F:\\源文件\\人教B版\\左括.TIF"
\
MERGEFORMATINET
INCLUDEPICTURE
"F:\\源文件\\人教B版\\左括.TIF"
\
MERGEFORMATINET
INCLUDEPICTURE
"F:\\源文件\\人教B版\\左括.TIF"
\
MERGEFORMATINET
INCLUDEPICTURE
"F:\\源文件\\人教B版\\左括.TIF"
\
MERGEFORMATINET
INCLUDEPICTURE
"F:\\源文件\\人教B版\\左括.TIF"
\
MERGEFORMATINET
INCLUDEPICTURE
"F:\\源文件\\人教B版\\左括.TIF"
\
MERGEFORMATINET
INCLUDEPICTURE
"F:\\源文件\\人教B版\\左括.TIF"
\
MERGEFORMATINET
INCLUDEPICTURE
"F:\\源文件\\人教B版\\左括.TIF"
\
MERGEFORMATINET
例1 磨牙不仅影响别人休息,而且可能与患某种疾病有关,下表是一次调查所得的数据,试问:每晚都磨牙与肠道中有寄生虫有关吗?肠道中有寄生虫肠道中没有寄生虫合计每晚都磨牙22430254不磨牙241
3551
379合计2481
3851
633
解析:根据题意计算得K2==≈1
244.510.
因为1
244.510>6.635,所以我们有99%的把握说每晚都磨牙与肠道中有寄生虫有关.
INCLUDEPICTURE
"F:\\源文件\\人教B版\\左括.TIF"
\
MERGEFORMATINET
INCLUDEPICTURE
"F:\\源文件\\人教B版\\左括.TIF"
\
MERGEFORMATINET
INCLUDEPICTURE
"F:\\源文件\\人教B版\\左括.TIF"
\
MERGEFORMATINET
INCLUDEPICTURE
"F:\\源文件\\人教B版\\左括.TIF"
\
MERGEFORMATINET
INCLUDEPICTURE
"F:\\源文件\\人教B版\\左括.TIF"
\
MERGEFORMATINET
INCLUDEPICTURE
"F:\\源文件\\人教B版\\左括.TIF"
\
MERGEFORMATINET
INCLUDEPICTURE
"F:\\源文件\\人教B版\\左括.TIF"
\
MERGEFORMATINET
巩
固 了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:作文成绩优秀作文成绩一般总计课外阅读量较大221032课外阅读量一般82028总计303060由以上数据,计算得到K2的观测值k=9.643,根据临界值表,以下说法正确的是( )A.没有充足的理由认为课外阅读量大与作文成绩优秀有关B.有0.5%的把握认为课外阅读量大与作文成绩优秀有关C.有99%的把握认为课外阅读量大与作文成绩优秀无关D.有99%的把握认为课外阅读量大与作文成绩优秀有关解析:根据临界值表,9.643>6.635,在犯错误的概率不超过0.005的前提下,认为课外阅读量大与作文成绩优秀有关,即有99%的把握认为课外阅读量大与作文成绩优秀有关.答案:D例2 为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.试分析学生选报文、理科与对外语的兴趣是否有关.
解析:根据题目所给的数据得到如下列联表:理科文科总计有兴趣13873211无兴趣9852150总计236125361根据列联表中数据由公式计算得K2的观测值为k=≈1.871×10-4.因为1.871×10-4<2.706,所以据目前的数据不能认为学生选报文、理科与对外语的兴趣有关,即可以认为学生选报文、理科与对外语的兴趣无关.点评:“有关”的检验:通过2×2列联表,先计算K2的观测值k,然后借助k的含义判断“两个分类变量有关系”这一结论成立的可信程度.“无关”
的检验方法同
“有关”
的检验方法相同.巩
固 某单位餐厅的固定餐椅经常有损坏,于是该单位领导决定在餐厅墙壁上张贴文明标语看是否有效果,并对文明标语张贴前后餐椅的损坏情况作了一个统计,具体数据如下:损坏餐椅数未损坏餐椅数合计文明标语张贴前39157196文明标语张贴后29167196合计68324392问:我们是否有理由说在餐厅墙壁上张贴文明标语对减少餐椅损坏有效果?解析:根据题中的数据计算:k==≈1.78.因为1.78<2.706,所以我们没有理由说在餐厅墙壁上张贴文明标语对减少餐椅损坏有效果,即效果不明显.题型二 独立性检验的综合应用项例3 某企业有两间分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两间分厂生产的零件中各抽出了500件,量其内径尺寸,结果如下表所示.甲厂:分组[29.86,29.90)[29.90,29.94)[29.94,29.98)[29.98,30.02)[30.02,30.06)[30.06,30.10)[30.10,30.14)频数12638618292614乙厂:分组[29.86,29.90)[29.90,29.94)[29.94,29.98)[29.98,30.02)[30.02,30.06)[30.06,30.10)[30.10,30.14)频数297185159766218(1)分别估计两间分厂生产的零件的优质品率;(2)由以上统计数据填写2×2列联表,并问是否有99%的把握认为“两间分厂生产的零件的质量有差异”?解析:(1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为=72%;乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为=64%.(2)2×2列联表为:甲厂乙厂总计优质品360320680非优质品140180320总计5005001
000由列联表中的数据,得K2的观测值为k=≈7.353>6.635.所以有99%的把握认为“两间分厂生产的零件的质量有差异”.点评:解独立性检验问题的基本步骤:(1)认真读题,指出相关数据,得出2×2列联表;(2)根据2×2列联表中的数据,计算K2的观测值k;(3)通过观测值k与临界值k0的比较;(4)在犯错误的概率不超过a的前提下能否推断“X与Y有关系”.巩
固 为了调查某大学学生在周日上网的时间,随机对100名男生和100名女生进行了不记名的问卷调查,得到了如下的统计结果:表1:男生上网时间与频数分布表:上网时间(分钟)[30,40)[40,50)[50,60)[60,70)[70,80]人数525302515表2:女生上网时间与频数分布表:上网时间(分钟)[30,40)[40,50)[50,60)[60,70)[70,80]人数1020402010(1)若该大学共有女生750人,试估计其中上网时间不少于60分钟的人数;(2)完成表3的列联表,并回答能否有90%的把握认为“学生周日上网时间与性别有关”?表3
:上网时间少于60分钟上网时间不少于60分钟合计男生女生合计附:K2=,其中n=a+b+c+d.p(x2≥k0)0.500.400.250.150.100.050.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828解析:(1)设估计上网时间不少于60分钟的人数x,
依据题意有=,解得:x=225,所以估计其中上网时间不少于60分钟的人数是225人
.(2)根据题目所给数据得到如下列联表:上网时间少于60分钟上网时间不少于60分钟合计男生6040100女生7030100合计13070200其中K2===≈2.198<2.706.因此,没有90%的把握认为“学生周日上网时间与性别有关”.A组1.下面说法正确的是( )A.统计方法的特点是统计推断准确、有效B.独立性检验的基本思想类似于数学上的反证法C.任何两个分类变量有关系的可信度都可以通过查表得到D.不能从等高条形图中看出两个分类变量是否相关解析:根据独立性检验的概念知,选项B正确.故选B.答案:B2.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是( )A.k越大,推断“X与Y有关系”,犯错误的概率越大B.k越小,推断“X与Y有关系”,犯错误的概率越大C.k越接近于0,推断“X与Y无关”,犯错误的概率越大D.k越大,推断“X与Y无关”,犯错误的概率越小答案:B3.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )A.若K2的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病B.从独立性检验可知,有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病C.若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误D.以上三种说法都不正确解析:根据独立性检验的概念知,选项C正确.故选C.答案:CB组一、选择题1.与表格相比,能更直观地反映出相关数据总体状况的是( )A.列联表
B.散点图
C.残差图
D.三维柱形图和二维条形图答案:D 2.如果有99%的把握认为“X与Y有关系”,那么具体算出的数据满足( )A.k>6.635
B.k>5.024
C.k>7.879
D.k>3.841答案:A3.某中学采取分层抽样的方法从高二学生按照性别抽出20名学生,其选报文科,理科的情况如下表所示:男女文科25理科103则以下判断正确的是( )A.至少有99%的把握认为学生选报文理科与性别相关B.至多有99%的把握认为学生选报文理科与性别相关C.至少有95%的把握认为学生选报文理科与性别相关D.至多有95%的把握认为学生选报文理科与性别相关解析:由公式K2===≈4.432,因3.841<4.432<6.635,故至少有95%的把握认为学生选报文理科与性别相关.故选C.答案:C4.某调查机构调查教师工作压力大小的情况,部分数据如表:教师职业喜欢教师职业不喜欢教师职业总计认为工作压力大533487认为工作压力不大12113总计6535100则推断“工作压力大与不喜欢教师职业有关系”,这种推断犯错误的概率不超过( )A.0.01
B.0.05
C.0.10
D.0.005答案:B5.有两个分类变量x,y,其2×2列联表如下表.其中a,15-a均为大于5的整数,若在犯错误的概率不超过0.1的前提下认为“x与y之间有关系”,则a应取值为
( )y1y2x1a20-ax215-a30+aA.5或6
B.
6或7
C.7
或8
D.8或9解析:查表可知,要使在犯错误的概率不超过0.1的前提下,认为K2之间有关系,则K2>2.706,而K2===,要使K2>2.706得a>7.19或a<2.04.又因为a>5且15-a>5,a∈Z,所以a=8或9,故当a取8或9时在犯错误的概率不超过0.1的前提下,认为“x与y之间有关系”.答案:D二、填空题6.
下面是一个2×2列联表:y1y2总计x1a2170x25c30总计bd100则b-d=____________.解析:依题意有a+21=70,所以a=49;5+c=30,所以c=25;所以b-d=a+5-(21+c)=a-c-16=8.答案:87.利用独立性检验来考虑两个分类变量X和Y是否有关系时,通过查阅下表来确定“X和Y有关系”的可信度.如果K2>5.024,那么认为“X和Y有关系”的犯错率不超过____________.p(K2≥k0)0.500.400.250.150.100.050.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828解析:
p(K2>5.024)=0.025,那么认为“X与Y有关系”的犯错率就不会超过0.025.
答案:0.0258.
对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:又发作过心脏病未发作过心脏病合计心脏搭桥手术39157196血管清障手术29167196合计68324392试根据上述数据计算K2=________,比较这两种手术对病人又发作心脏病的影响有没有差别________________________________________________________________________解析:提出假设H0:两种手术对病人又发作心脏病的影响没有差别.根据列联表中的数据,可以求得K2的观测值k==1.78.当H0成立时,K2=1.78,而K2<2.072的概率为0.85.所以,不能否定假设H0.也就是不能作出这两种手术对病人又发作心脏病的影响有差别的结论.答案:1.78 不能作出这两种手术对病人又发作心脏病的影响有差别的结论三、解答题9.为了解决初二平面几何入门难的问题,某校在初中一年级代数教学中加强概念和推理教学,并设有对照班,下表是初中二年级平面几何期中测验成绩统计表的一部分,试分析研究实验结果.70分以上70及70分以下合计实验班321850对照班123850合计4456100解析:∵k=≈16.234>10.828,故有99.9%的把握认为“在初一加强概念和推理教学,对初二平面几何的测试成绩”有关系.10.
甲、乙两机床加工同一种零件,抽检得到它们加工后的零件尺寸x(单位:cm)及个数y,如下表:
零件尺寸x零件个数y1.011.021.031.041.05甲37893乙7444a由表中数据得y关于x的线性回归方程为y=-91+100x(1.01≤x≤1.05),其中合格零件尺寸为1.03±0.01(cm).完成下面列联表,并判断是否有99%的把握认为加工零件的质量与甲、乙有关?合格零件数不合格零件数合计甲乙合计解析:(1)=1.03,=,由y=-91+100x知,=-91+100×1.03,所以,a=11,由于合格零件尺寸为1.03±0.01
cm,故甲、乙加工的合格与不合格零件的数据表为:合格零件数不合格零件数合计甲24630乙121830合计362460所以,K2===10,因K2=10>6.635,故有99%的把握认为加工零件的质量与甲、乙有关.一、基础过关1.当>2.706时,就有________的把握认为“x与y有关系”.2.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶,则≈__________.(结果保留3位小数)3.分类变量X和Y的列表如下,则下列说法判断正确的是________.(填序号)y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d①ad-bc越小,说明X与Y的关系越弱;②ad-bc越大,说明X与Y的关系越强;③(ad-bc)2越大,说明X与Y的关系越强;④(ad-bc)2越接近于0,说明X与Y的关系越强.4.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男女总计爱好402060不爱好203050总计6050110由=算得,=≈7.8.附表:P(≥k)0.0500.0100.001k3.8416.63510.828参照附表,得到的正确结论是________.①在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”;②在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”;③有99%以上的把握认为“爱好该项运动与性别有关”;④有99%以上的把握认为“爱好该项运动与性别无关”.为了研究男子的年龄与吸烟的关系,抽查了100个男子,按年龄超过和不超过40岁,吸烟量每天多于和不多于20支进行分组,如下表:年龄合计不超过40岁超过40岁吸烟量不多于20支/天501565吸烟量多于20支/天102535合计6040100则有________的把握确定吸烟量与年龄有关.二、能力提升6.某高校“统计初步”课程的教师随机调查了选该课的一些情况,具体数据如下表:
专业性别 非统计专业统计专业合计男131023女72027合计203050为了判断主修统计专业是否与性别有关,根据表中的数据,得=≈4.844.因为≈4.844>3.841,所以判断主修统计专业与性别有关系,那么这种判断出错的可能性为________.7.在2×2列联表中,若每个数据变为原来的2倍,则卡方值变为原来的________倍.8.下列说法正确的是________.(填序号)①对事件A与B的检验无关,即两个事件互不影响;②事件A与B关系越密切,就越大;③的大小是判断事件A与B是否相关的惟一数据;④若判定两事件A与B有关,则A发生B一定发生.9.为研究某新药的疗效,给50名患者服用此药,跟踪调查后得下表中的数据:无效有效总计男性患者153550女性患者64450总计2179100设H0:服用此药的效果与患者的性别无关,则的值约为________,从而得出结论:服用此药的效果与患者的性别有关,这种判断出错的可能性为________.10.某县对在职的71名高中数学教师就支持新的数学教材还是支持旧的数学教材做了调查,结果如下表所示:支持新教材支持旧教材合计教龄在15年以上的教师122537教龄在15年以下的教师102434合计224971根据此资料,你是否认为教龄的长短与支持新的数学教材有关?11.下表是某地区的一种传染病与饮用水的调查表:得病不得病总计干净水52466518不干净水94218312总计146684830(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;(2)若饮用干净水得病5人,不得病50人;饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水的卫生程度有关,并比较两种样本在反映总体时的差异.三、探究与拓展12.某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:甲厂:分组[29.86,29.90)[29.90,29.94)[29.94,29.98)[29.98,30.02)频数126386182分组[30.02,30.06)[30.06,30.10)[30.10,30.14)频数92614乙厂:分组[29.86,29.90)[29.90,29.94)[29.94,29.98)[29.98,30.02)频数297185159分组[30.02,30.06)[30.06,30.10)[30.10,30.14)频数766218(1)分别估计两个分厂生产的零件的优质品率;(2)由以上统计数据填写2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.答案1.90% 2.16.373 3.③ 4.③ 5.99.9%6.5% 7.2 8.② 9.4.882 5%10.解 由公式得==≈0.08.∵<2.706.∴我们没有理由说教龄的长短与支持新的数学教材有关.11.解 (1)假设:传染病与饮用水的卫生程度无关.由公式得=≈54.21.因为54.21>10.828.因此我们有99.9%的把握认为该地区这种传染病与饮用水的卫生程度有关.(2)依题意得2×2列联表:得病不得病总计干净水55055不干净水92231总计147286此时,=≈5.785.由于5.785>5.024,所以我们有97.5%的把握认为该种传染病与饮用水的卫生程度有关.两个样本都能统计得到传染病与饮用水的卫生程度有关这一相同结论,但(1)问中我们有99.9%的把握肯定结论的正确性,(2)问中我们只有97.5%的把握肯定结论的正确性.12.解 (1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为×100%=72%;乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为×100%=64%.(2)甲厂乙厂总计优质品360320680非优质品140180320总计5005001
000由列联表中的数据,得=≈7.353>6.635.所以有99%的把握认为“两个分厂生产的零件的质量有差异”.
PAGE