3.1 回归分析的基本思想及其初步应用
内 容 标 准
学 科 素 养
1.能知道用回归分析处理两个变量之间的不确定关系的统计方法.2.会利用散点图分析两个变量是否存在相关关系,会用残差及R2来刻画线性回归模型的拟合效果.3.能记住建立回归模型的方法和步骤;能知道如何利用线性回归模型求非线性回归模型.
利用数据分析提升数学建模及数学运算
授课提示:对应学生用书第51页
[基础认识]
知识点一 线性回归模型
“名师出高徒”这句谚语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?
某电脑公司有5名产品推销员,其工作年限与年推销金额数据如下表:
推销员编号
1
2
3
4
5
工作年限x/年
3
5
6
7
9
推销金额y/万元
2
3
3
4
5
请问如何表示推销金额y与工作年限x之间的相关关系?y关于x的线性回归方程是什么?
提示:画出散点图,由图可知,样本点散布在一条直线附近,因此可用回归直线表示变量之间的相关关系.
设所求的线性回归方程为=x+,
则===0.5,
=-=0.4.
所以年推销金额y关于工作年限x的线性回归方程为
=0.5x+0.4.
知识梳理 1.概念:回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
2.步骤:画散点图→求回归方程→用回归方程进行预报.
3.在线性回归方程=+x中,==,=-,其中=i,=i,(,)称为样本点的中心,回归直线过样本点的中心.
4.线性回归模型y=bx+a+e,其中e称为随机误差,自变量x称为解释变量,因变量y称为预报变量.
知识点二 刻画回归效果的方式
(1)具有相关关系的两个变量的回归方程是唯一的吗?
(2)预报变量与真实值y一样吗?
(3)预报值与真实值y之间误差大了好还是小了好?
提示:(1)不一定. (2)不一样. (3)越小越好.
知识梳理 1.残差平方和法
(1)i=yi-i=yi-xi-(i=1,2,…,n)称为相应于点(xi,yi)的残差.
(2)残差平方和(yi-i)2越小,模型的拟合效果越好.
2.残差图法
残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.
3.利用相关指数R2刻画回归效果
其计算公式为:R2=1-,其几何意义:R2越接近于1,表示回归的效果越好.
知识点三 建立回归模型的基本步骤
知识梳理 确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.
画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).
由经验确定回归方程的类型(如观察到数据呈线性关系,则选用线性回归方程).
按一定规则(如最小二乘法)估计回归方程中的参数.
得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否合适等.
[自我检测]
1.判断下列命题是否正确.(正确的打“√”,错误的打“×”)
(1)残差平方和越小,线性回归模型的拟合效果越好.( )
(2)在画两个变量的散点图时,预报变量在x轴上,解释变量在y轴上.( )
(3)R2越小,线性回归模型的拟合效果越好.( )
答案:(1)√ (2)× (3)×
2.如果记录了x,y的几组数据分别为(0,1),(1,3),(2,5),(3,7),那么y关于x的线性回归直线必过点( )
A.(2,2)
B.(1.5,2)
C.(1,2)
D.(1.5,4)
答案:D
3.从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为________.
答案:正相关
授课提示:对应学生用书第52页
探究一 求线性回归方程
[阅读教材P81例1]从某大学中随机选取8名女大学生,其身高和体重数据如表所示.
编号
1
2
3
4
5
6
7
8
身高/cm
165
165
157
170
175
165
155
170
体重/kg
48
57
50
54
64
61
43
59
求根据女大学生的身高预报体重的回归方程,并预报一名身高为172
cm的女大学生的体重.
题型:求线性回归方程
方法步骤:(1)画出散点图.
(2)确定身高和体重有很好的线性相关关系.
(3)由和的计算公式得出回归直线方程.
(4)由所给x的值进行预报y的值.
[例1] 某商场经营一批进价是30元/件的小商品,在市场试验中发现,此商品的销售单价x(x取整数)元与日销售量y台之间有如下关系:
x
35
40
45
50
y
56
41
28
11
(1)y与x是否具有线性相关关系?如果具有线性相关关系,求出回归直线方程.(方程的斜率精确到1)
(2)设经营此商品的日销售利润为P元,根据(1)写出P关于x的函数关系式,并预报当销售单价x为多少元时,才能获得最大日销售利润.
[解析] (1)散点图如图所示,从图中可以看出这些点大致分布在一条直线附近,因此两个变量线性相关.
设回归直线方程为=x+,
由题知=42.5,=34,
则求得=≈-3.
=-≈34-(-3)×42.5=161.5.
∴=-3x+161.5.
(2)依题意有P=(-3x+161.5)(x-30)
=-3x2+251.5x-4
845
=-32+-4
845.
∴当x=≈42时,P有最大值,约为426.
故预报当销售单价为42元时,才能获得最大日销售利润.
方法技巧 1.求线性回归方程的基本步骤
(1)列出散点图,从直观上分析数据间是否存在线性相关关系.
(2)计算:,,,,iyi.
(3)代入公式求出=x+中参数,的值.
(4)写出线性回归方程并对实际问题作出估计.
2.需特别注意的是,只有在散点图大致呈线性时,求出的回归方程才有实际意义,否则求出的回归方程毫无意义.
跟踪探究 1.某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:
x
6
8
10
12
y
2
3
5
6
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+;
(3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.
解析:(1)如图:
(2)iyi=6×2+8×3+10×5+12×6=158,
==9,
==4,
=62+82+102+122=344,
===0.7,
=-
=4-0.7×9=-2.3,
故线性回归方程为=0.7x-2.3.
(3)由(2)中线性回归方程可知,当x=9时,=0.7×9-2.3=4,预测记忆力为9的同学的判断力约为4.
探究二 线性回归分析
[阅读教材P84思考]如何发现数据中的错误?如何衡量模型的拟合效果?
以例1中的女大学生身高和体重的原始数据以及相应的残差数据进行分析.
题型:判断模型的拟合效果
方法步骤:
(1)求出残差,并画出残差图进行分析.
(2)求出残差平方和进行分析.
(3)求出R2进行分析.
[例2] 已知某种商品的价格x(单位:元/件)与需求量y(单位:件)之间的关系有如下一组数据:
x
14
16
18
20
22
y
12
10
7
5
3
求y对x的回归直线方程,并说明回归模型拟合效果的好坏.
[解析] =(14+16+18+20+22)=18,
=(12+10+7+5+3)=7.4,
=142+162+182+202+222
=1
660,
=122+102+72+52+32=327,
iyi=14×12+16×10+18×7+20×5+22×3=620,
所以=
==-1.15,
=7.4+1.15×18=28.1,
所以所求回归直线方程是=-1.15x+28.1.
列出残差表:
yi-i
0
0.3
-0.4
-0.1
0.2
yi-
4.6
2.6
-0.4
-2.4
-4.4
所以(yi-i)2=0.3,
(yi-)2=53.2,
R2=1-≈0.994,
所以回归模型的拟合效果很好.
方法技巧 1.解答线性回归问题,应通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.
2.刻画回归效果的三种方法
(1)残差图法,残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.
(2)残差平方和法:残差平方和(yi-i)2越小,模型的拟合效果越好.
(3)相关指数法:R2=1-越接近1,表明回归的效果越好.
跟踪探究 2.关于x与y有如下数据:
x
2
4
5
6
8
y
30
40
60
50
70
有如下的两个线性模型:(1)=6.5x+17.5;(2)=7x+17.试比较哪一个拟合效果更好.
解析:由(1)可得yi-i与yi-的关系如下表:
yi-i
-0.5
-3.5
10
-6.5
0.5
yi-
-20
-10
10
0
20
∴(yi-i)2=(-0.5)2+(-3.5)2+102+(-6.5)2+0.52=155,
(yi-)2=(-20)2+(-10)2+102+02+202=1
000.
∴R=1-
=1-=0.845.
由(2)可得yi-i与yi-的关系如下表:
yi-i
-1
-5
8
-9
-3
yi-
-20
-10
10
0
20
∴(yi-i)2=(-1)2+(-5)2+82+(-9)2+(-3)2=180,
(yi-)2=(-20)2+(-10)2+102+02+202=1
000.
∴R=1-=1-=0.82.
由于R=0.845,R=0.82,0.845>0.82,
∴R>R.
∴(1)的拟合效果好于(2)的拟合效果.
探究三 非线性回归模型
[阅读教材P86例2]一只红铃虫的产卵数y和温度x有关.现收集了7组观测数据列于下表中,试建立y关于x的回归方程.
温度x/℃
21
23
25
27
29
32
35
产卵数y/个
7
11
21
24
66
115
325
题型:非线性回归模型
方法步骤:(1)画出散点图
(2)写出非线性回归方程:y=c1ec2x.
(3)通过某种变换令z=ln
y,得出线性回归直线z=bx+a.
(4)用线性回归方程来建立y与x间的非线性回归方程.
[例3] 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(xi-)2
(wi-)2
(xi-)·(yi-)
(wi-)·(yi-)
46.6
563
6.8
289.8
1.6
1
469
108.8
表中wi=,=i.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x,根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为
=,=-
.
[解析] (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程.
由于===68,
=-
=563-68×6.8=100.6,
所以y关于w的线性回归方程为=100.6+68w,
因此y关于x的回归方程为=100.6+68.
(3)①由(2)知,当x=49时,
年销售量y的预报值=100.6+68=576.6,
年利润z的预报值=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
方法技巧 求非线性回归方程的步骤
(1)确定变量,作出散点图.
(2)根据散点图,选择恰当的拟合函数.
(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.
(4)分析拟合效果:通过计算相关指数或画残差图来判断拟合效果.
(5)根据相应的变换,写出非线性回归方程.
跟踪探究 3.在一次抽样调查中测得样本的5个样本点,数值如下表:
x
0.25
0.5
1
2
4
y
16
12
5
2
1
试建立y与x之间的回归方程.
解析:由数值表可作散点图如图,
根据散点图可知y与x近似地呈反比例函数关系,
设=,令t=,则=kt,原数据变为:
t
4
2
1
0.5
0.25
y
16
12
5
2
1
由置换后的数值表作散点图如下:
由散点图可以看出y与t呈近似的线性相关关系,列表如下:
i
ti
yi
tiyi
t
1
4
16
64
16
2
2
12
24
4
3
1
5
5
1
4
0.5
2
1
0.25
5
0.25
1
0.25
0.062
5
∑
7.75
36
94.25
21.312
5
所以=1.55,=7.2.
所以=≈4.134
4,
=-≈0.8.
所以=4.134
4t+0.8.
所以y与x之间的回归方程是=+0.8.
授课提示:对应学生用书第54页
[课后小结]
回归分析的步骤:
①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
②画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等);
③由经验确定回归方程的类型(如果呈线性关系,则选用线性回归方程=x+);
④按一定规则估算回归方程中的参数;
⑤得出结果后分析残差图是否有异常(个别数据对应的残差过大,或残差呈现不随机的规律性等),若存在异常,则检查数据是否有误或模型是否合适等.
[素养培优]
求回归直线方程的方法和技巧
某地最近十年粮食需求量逐年上升,下表是部分统计数据:
年 份
2007
2009
2011
2013
2015
需求量/万吨
236
246
257
276
286
(1)利用所给数据求年需求量与年份之间的回归直线方程=x+;
(2)利用(1)中所求出的直线方程预测该地2020年的粮食需求量.
教你审题:分别计算,,,,把2020代入所求回归直线方程中.
解析:(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来求回归直线方程,先将数据处理如下:
年份-2011
-4
-2
0
2
4
需求量-257
-21
-11
0
19
29
对处理的数据,容易算得=0,=3.2.
=
==6.5,
=-
=3.2.
由上述计算结果,知所求回归直线方程为
-257=6.5(x-2
011)+3.2,
即=6.5(x-2
011)+260.2.
(2)利用所求得的回归直线方程,可预测2020年的粮食需求量为6.5×(2020-2
011)+260.2=318.7(万吨).
方法点睛 求回归直线方程时,重点考查的是计算能力.若本题用一般方法去解,计算比较繁琐(如年份、需求量不做如上处理),所以平时训练时遇到数据较大的要考虑有没有更简便的方法解决.
PAGE3.2 独立性检验的基本思想及其初步应用
内 容 标 准
学 科 素 养
1.能用等高条形图反映两个分类变量之间是否有关系.2.能够根据条件列出列联表并会由公式求k.3.能知道独立性检验的基本思想和方法.
利用数据分析提升数学建模及数学运算
授课提示:对应学生用书第54页
[基础认识]
知识点一 分类变量及2×2列联表
在日常生活中,我们常常关心两个分类变量之间是否有关系.例如,吸烟与患肺癌是否有关系?性别是否对喜欢数学课程有影响?等等.
为研究吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9
965人,得到如下结果:
不患肺癌
患肺癌
总计
不吸烟
7
775
42
7
817
吸烟
2
099
49
2
148
总计
9
874
91
9
965
那么吸烟是否对患肺癌有影响?
提示:在不吸烟样本中,有0.54%患肺癌;在吸烟样本中,有2.28%患肺癌.因此,直观上可以得到结论:吸烟群体和不吸烟群体患肺癌的可能性存在差异,吸烟者患肺癌的可能性大.
知识梳理 1.分类变量
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
2.列联表
(1)定义:列出的两个分类变量的频数表,称为列联表.
(2)2×2列联表
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(也称为2×2列联表)为下表.
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
知识点二 等高条形图
知识梳理 与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.
比较图中两个深色条的高可以发现,在吸烟样本中患肺癌的频率要高一些,因此直观上可以认为吸烟更容易引发肺癌.
如果通过直接计算或等高条形图发现和相差很大,就判断两个分类变量之间有关系.
知识点三 独立性检验
知识梳理 1.定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
2.K2=,其中n=a+b+c+d.
3.独立性检验的具体做法
(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.
(2)利用公式计算随机变量K2的观测值k.
(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.
[自我检测]
1.在一个2×2列联表中,由其数据计算得K2=13.097,认为两个变量有关系犯错误的概率不超过( )
A.0.001
B.0.05
C.0.1
D.0.2
答案:A
2.由如图所示的等高条形图,可知吸烟与患肺病________关系.(填“有”或“没有”)
答案:有
授课提示:对应学生用书第55页
探究一 等高条形图的应用
[阅读教材P95例1]在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.
(1)利用图形判断秃顶与患心脏病是否有关系;
(2)能否在犯错误的概率不超过0.01的前提下认为秃顶与患心脏病有关系?
题型:利用等高条形图判断两分类变量是否有关
方法步骤:(1)列出2×2列联表.
(2)计算出秃顶样本中患心脏病的频率,和不秃顶样本中患心脏病的频率.
(3)作出两样本中的等高条形图作出判断:秃顶与患心脏病有关.
[例1] 为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:
组别
阳性数
阴性数
总计
铅中毒病人
29
7
36
对照组
9
28
37
总计
38
35
73
试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?
[解析] 等高条形图如图所示:
其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.由图可以直观地看出铅中毒病人与对照组相比,
尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.
方法技巧 1.判断两个分类变量是否有关系的方法
(1)利用数形结合思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法.
(2)在等高条形图中,与相差越大,两个分类变量有关系的可能性就越大.
2.利用等高条形图判断两个分类变量是否相关的步骤
跟踪探究 1.为考察某种药物预防疾病的效果进行动物试验,得到如下列联表:
患病
未患病
总计
服用药
10
45
55
未服用药
20
30
50
总计
30
75
105
试用等高条形图分析服用药和患病之间是否有关系.
解析:根据列联表所给的数据可得出服用药患病的频率为≈0.18,未服用药患病的频率为=0.4,两者的差距是|0.18-0.4|=0.22,两者相差很大,作出等高条形图如图所示,因此服用药与患病有关系.
探究二 独立性检验
[阅读教材P97习题3.2第2题]通过随机询问72名不同性别的大学生在购买食物时是否看营养说明,得到如下列联表:
性别与读营养说明列联表
女
男
总计
读营养说明
16
28
44
不读营养说明
20
8
28
总计
36
36
72
能否在犯错误的概率不超过0.005的前提下认为性别和是否看营养说明有关系呢?
解析:由题意得K2==8.416>7.879
因此能在犯错误的概率不超过0.005的前提下认为性别与读营养说明之间有关系.
[例2] 某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:
喜欢甜品
不喜欢甜品
合计
南方学生
60
20
80
北方学生
10
10
20
合计
70
30
100
根据表中数据,问是否在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
[解析] 将2×2列联表中的数据代入公式计算,得
K2的观测值k=
=
=≈4.762.
因为4.762>3.841,所以在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
方法技巧 1.独立性检验的关注点
在2×2列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0,因此|ad-bc|越小,关系越弱;|ad-bc|越大,关系越强.
2.独立性检验的具体做法
(1)根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误的概率的上界α,然后查表确定临界值k0.
(2)利用公式K2=计算随机变量K2的观测值k.
(3)如果k≥k0,推断“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.
跟踪探究 2.某省进行高中新课程改革已经四年了,为了解教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.
(1)根据以上数据建立一个2×2列联表;
(2)判断是否有99%的把握说明对新课程教学模式的赞同情况与教师年龄有关系.
解析:(1)2×2列联表如下所示:
赞同
不赞同
总计
老教师
10
10
20
青年教师
24
6
30
总计
34
16
50
(2)假设“对新课程教学模式的赞同情况与教师年龄无关”.
由公式得K2=≈4.963<6.635,
所以没有99%的把握认为对新课程教学模式的赞同情况与教师年龄有关.
探究三 独立性检验的综合应用
[例3] 某高校共有学生15
000人,其中男生10
500人,女生4
500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间(单位:时)的样本数据.
(1)应收集多少位女生的样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图),其中样本数据的分组区间为[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率.
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否认为“该校学生的每周平均体育运动时间与性别有关”.
[解析] (1)由分层抽样可得300×=90,所以应收集90位女生的样本数据.
(2)由频率分布直方图得学生每周平均体育运动超过4小时的频率为1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.
(3)由(2)知,300位学生中有300×0.75=225(人)的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.样本数据中有210份是关于男生的,90份是关于女生的,可得每周平均体育运动时间与性别列联表如下:
男生
女生
总计
每周平均体育运动时间不超过4小时
45
30
75
每周平均体育运动时间超过4小时
165
60
225
总计
210
90
300
结合列联表可算得K2的观测值
k=≈4.762>3.841.
所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
方法技巧 1.解答此类题目的关键在于正确利用K2=计算k的值,再用它与临界值k0的大小作比较来判断假设检验是否成立,从而使问题得到解决.
2.此类题目规律性强,解题比较格式化,填表计算分析比较即可,要熟悉其计算流程,不难理解掌握.
跟踪探究 3.为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查得到了如下的2×2列联表:
喜爱打篮球
不喜爱打篮球
合计
男生
6
女生
10
合计
48
已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为.
(1)请将上面的2×2列联表补充完整(不用写计算过程);
(2)能否在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关?说明你的理由;
(3)现从女生中抽取2人进一步调查,设其中喜爱打篮球的女生人数为X,求X的分布列与均值.
解析:(1)列联表补充如下:
喜爱打篮球
不喜爱打篮球
合计
男生
22
6
28
女生
10
10
20
合计
32
16
48
(2)由K2=≈4.286.
因为4.286>3.841,所以,能在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关.
(3)喜爱打篮球的女生人数X的可能取值为0,1,2.
其概率分别为
P(X=0)==,
P(X=1)==,
P(X=2)==,
故X的分布列为:
X
0
1
2
P
X的均值为E(X)=0++=1.
授课提示:对应学生用书第57页
[课后小结]
(1)列联表与等高条形图
列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有相关关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有相关关系.
(2)对独立性检验思想的理解
独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量K2的值,如果K2的值很大,说明假设不合理.K2越大,两个分类变量有关系的可能性越大.
[素养培优]
因对独立性检验的基本思想不理解而致错
已知两个分类变量X和Y的取值分别为{x1,x2},{y1,y2},若其列联表为
y1
y2
x1
5
15
x2
40
10
则( )
A.X与Y之间有关系的概率为0.001
B.X与Y之间有关系的概率为0.999
C.认为X与Y有关系,犯错误的概率为0.999
D.认为X与Y有关系,犯错误的概率不超过0.001
易错分析:独立性检验的基本思想是指某件事发生在犯错概率不超过某个非常小的数据的前提下,我们有把握认为有关.理解有误会致误.
自我纠正:K2的观测值为
k=
≈18.822.查表知P(K2≥10.828)=0.001,
所以在犯错误的概率不超过0.001的前提下,我们认为X与Y有关.
答案:D
PAGE