(共22张PPT)
案件中涉及的量有哪些?
吸烟
患肺癌
性别
是否喜欢数学课程
分类变量
思考:
(1)从统计的角度如何研究吸烟与患肺癌的关系呢?
(2)我们需要收集哪些数据呢?
列出两个分类变量的频数表,称为2╳2列联表
不患肺癌 患肺癌 总计
不吸烟 7775 42 7817
吸烟 2099 49 2148
总计 9874 91 9965
表1:吸烟与患肺癌列联表
由上表可计算出,在不吸烟者中患肺癌的比率是
在吸烟者中患肺癌的比率是
0.54%
2.28%
不患肺癌 患肺癌
不吸烟
吸烟
0.54%
2.28%
99.46%
97.72%
图1:吸烟与患肺癌的等高条形图
等高条形图更直观地表达了两种情况下患肺癌的比例。
吸烟与患肺癌有关
图形
数据
以上样本能够在多大程度上代表总体呢?来自于样本的结论”吸烟与患肺癌有关”能够推广到总体吗?
总计
总计
患肺癌
不患肺癌
不吸烟
吸烟
不患肺癌 患肺癌 总计
不吸烟 a b a+b
吸烟 c d c+d
总计 a+c b+d a+b+c+d=n
A表示吸烟,B表示患肺癌
ad-bc≈0
|ad-bc|越小
吸烟与患肺癌之间的关系
|ad-bc|越大
吸烟与患肺癌之间的关系
H0 等价于 P(AB)=P(A)P(B)
越强
越弱
(n=a+b+c+d)
不患肺癌 患肺癌 总计
不吸烟 7775 42 7817
吸烟 2099 49 2148
总计 9874 91 9965
其中(n=a+b+c+d)为样本容量
若H0成立
K2应该很小
K2的观测值
P(K2≥k) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
k 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
临界值表:
至少有99%的把握认为“吸烟与患肺癌有关系”
在犯错误的概率不超过0.01的情况下认为“吸烟与患肺癌有关”
在H0成立的情况下,
P(K2≥k) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
k 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
临界值表:
k≈56.632
10.828
远大于
至少有99.9%的把握认为“吸烟与患肺癌有关系”
独立性检验
P(K2≥k0 ) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
0.1%把握认
为A与B无关
1%把握认为A与B无关
99.9%把握认
为A与B有关
99%把握认
为A与B有关
90%把握认
为A与B有关
10%把握认为
A与B无关
没有充分的依据显示A与B有关,但也不能显示A与B无关
数学来源于生活,服务于生活,我们要善于发现生活中的美,用我们的聪明才智创造更和谐的社会。