数学选修1-2教学资料,补习资料:1.2独立性检验的基本思想及其初步应用:(8份含学案 教案课件练习)

文档属性

名称 数学选修1-2教学资料,补习资料:1.2独立性检验的基本思想及其初步应用:(8份含学案 教案课件练习)
格式 zip
文件大小 5.9MB
资源类型 教案
版本资源 人教新课标A版
科目 数学
更新时间 2020-08-25 12:29:00

文档简介

课件23张PPT。1. 2 独立性检验的基本思想及其初步应用
课前预习学案
预习目标:能用所学的知识对实际问题进行回归分析,体会回归分析的实际价值与基本思想;了解判断刻画回归模型拟合好坏的方法――相关指数和残差分析。
二、预习内容
1. 给出例3:一只红铃虫的产卵数和温度有关,现收集了7组观测数据列于下表中,试建立与之间的回归方程.
温度
 21
 23
 25
 27
 29
 32
 35
产卵数个
 7
 11
 21
 24
 66
 115
 325
(学生描述步骤,教师演示)
2. 讨论:观察右图中的散点图,发现样本点并没有分布在某个带状区域内,即两个变量不呈线性相关关系,所以不能直接用线性回归方程来建立两个变量之间的关系.
课内探究学案
一、学习要求:
通过对典型案例的探究,了解独立性检验的基本思想、方法及初步应用
学习重点:
对独立性检验的基本思想的理解.
学习难点:
独立性检验的基本思想的应用.
学习过程:
知识点详解
知识点一:分类变量
对于性别变量,其取值为男和女两种.这种变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
知识点二:列联表
为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机调查了9965人,得到如下结果(单位:人):
吸烟与患肺癌列联表
不患肺癌
患肺癌
总计
不吸烟
7775
42
7817
吸烟
2099
49
2148
总计
9874
91
9965
像上表这样列出的两个分类变量的频数表,称为列联表.
知识点三:独立性检验
这种利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.
知识点四:判断结论成立的可能性的步骤
一般地,假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
2×2列联表
y1
y2
总计
x1
x
b
x+b
x2
c
d
c+d
总计
x+c
b+d
x+b+c+d
若要推断的论述为
H1:“X与Y有关系”,
可以按如下步骤判断结论H1成立的可能性:
(1)通过三维柱形图和二维条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度.
①在三维柱形图中,主对角线上两个柱形高度的乘积xd与副对角线上的两个柱形高度的乘积bc相差越大,H1成立的可能性就越大.
②在二维条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例,也可以估计满足条件X=x2的个体中具有Y=y1的个体所占的比例.两个比例的值相差越大,H1成立的可能性就越大.
(2)可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度.具体做法是:根据观测数据计算由K2=给出的检验随机变量K2的值k,其值越大,说明“X与Y有关系”成立的可能性越大.当得到的观测数据x,b,c,d都不小于5时,可以通过查阅下表来确定断言“X与Y有关系”的可信程度.
P(K2≥k)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
说明:当观测数据x,b,c,d中有小于5时,需采用很复杂的精确的检验方法.
五、几个典型例题:
例1 三维柱形图中柱的高度表示的是    (A)
A.各分类变量的频数   B.分类变量的百分比
C.分类变量的样本数   D.分类变量的具体值
例2 分类变量X和Y的列联表如下
y1
y2
总计
x1
x
b
x+b
x2
c
d
c+d
总计
x+c
b+d
x+b+c+d
则下列说法正确的是            (C)
X.xd-bc越小,说明X和Y关系越弱   
B.xd-bc越大,说明X和Y关系越强
C.(xd-bc)2越大 ,说明X和Y关系越强
D.(xd-bc)2越接近于0 ,说明X和Y关系越强
例3 研究人员选取170名青年男女大学生的样本,对他们进行一种心理测验,发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定的18名,不定的42名;男生110名在相同的项目上作肯定的有22名,否定的有88名.问:性别与态度之间是否存在某种关系?分别用图形和独立性检验的方法判断.
解:根据题目所给数据建立如下列联表
性别
肯定
否定
总计
男生
22
88
110
女生
18
42
60
总计
40
130
170
根据列联表中的数据得到K2=≈2.158<2.706
因此没有充分的证据显示“性别与态度有关”.
例4 打鼾不仅影响别人休息,而且可能与患某种病症有关.下表是一次调查所得的数据,试问:每一晚都打鼾与患心脏病有关吗?
患心脏病
未患心脏病
总计
每一晚都打鼾
30
224
254
不打鼾
24
1355
1379
总计
54
1579
1633
解:根据列联表中数据,得到,
K2==68.033.
因为68.033>6.635,所以有99%的把握说,每一晚都打鼾与患心脏病有关
课后练习与提高
为了研究某种细菌随时间x变化,繁殖的个数,收集数据如下:
天数x/天
1
2
3
4
5
6
繁殖个数y/个
6
12
25
49
95
190
(1)用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图;
(2)试求出预报变量对解释变量的回归方程.(答案:所求非线性回归方程为.)
1. 2 独立性检验的基本思想及其初步应用
例题:
1.三维柱形图中柱的高度表示的是( )
A .各分类变量的频数B .分类变量的百分比C .分类变量的样本数D .分类变量的具体值
解析: 三维柱形图中柱的高度表示图中各个频数的相对大小.选A
2. 统计推断,当______时,有95 %的把握说事件A 与B 有关;当______时,认为没有充分的证据显示事件A 与B 是有关的.
解析:当时,就有95 %的把握说事件A 与B 有关,当时认为没有充分的证据显示事件A 与B 是有关的.
3.为了探究患慢性气管炎与吸烟有无关系,调查了却339名50岁以上的人,结果如下表所示,据此数据请问:50岁以上的人患慢性气管炎与吸烟习惯有关系吗?
患慢性气管炎
未患慢性气管炎
合计
吸烟
43
162
205
不吸烟
13
121
134
合计
56
283
339
分析:有表中所给的数据来计算的观测值k,再确定其中的具体关系.
解:设患慢性气管炎与吸烟无关.
a=43,b=162,c=13,d=121,a+b=205,c+d=134,
a+c=56,b+d=283,n=339
所以的观测值为.因此,故有99%的把握认为患慢性气管炎与吸烟有关.
课后练习:
1. 在三维柱形图中,主对角线上两个柱形高度的乘积与副对角线上的两个柱形的高度的乘积相差越大两个变量有关系的可能性就( )
A.越大 B.越小 C.无法判断 D.以上都不对
2.下列关于三维柱形图和二维条形图的叙述正确的是: ( )
A .从三维柱形图可以精确地看出两个分类变量是否有关系
B .从二维条形图中可以看出两个变量频数的相对大小,从三维柱形图中无法看出相对频数的大小
C .从三维柱形图和二维条形图可以粗略地看出两个分类变量是否有关系
D .以上说法都不对
3.对分类变量X 与Y 的随机变量的观测值K ,说法正确的是()
A . k 越大," X 与Y 有关系”可信程度越小;
B . k 越小," X 与Y 有关系”可信程度越小;
C . k 越接近于0," X 与Y 无关”程度越小
D . k 越大," X 与Y 无关”程度越大
4. 在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )
A.若K2的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;
B.从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;
C.若从统计量中求出有95% 的把握认为吸烟与患肺病有关系,是指有5% 的可能性使得推判出现错误;
D.以上三种说法都不正确.
5.若由一个2*2列联表中的数据计算得k2=4.013,那么有 把握认为两个变量有关系
6.某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:
性别 专业
非统计专业
统计专业

13
10

7
20
为了判断主修统计专业是否与性别有关系,根据表中的数据,得到
因为,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为 ____;
7.在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人。女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动。
(1)根据以上数据建立一个2×2的列联表;
(2)判断性别与休闲方式是否有关系。
1.2 独立性检验的基本思想及其初步应用参考答案
1.A 2.C 3.B 4.C
5. 95% 6. 5%
7.解:(1)2×2的列联表
性别 休闲方式
看电视
运动
总计

43
27
70

21
33
54
总计
64
60
124
(2)假设“休闲方式与性别无关”
计算

因为,所以有理由认为假设“休闲方式与性别无关”是不合理的,
即有97.5%的把握认为“休闲方式与性别有关”
统计案例复习教案
一、本章知识脉络:
二、本章要点追踪:
1.样本点的中心(,)
其中=xi,= yi .
2.线性回归模型的完美表达式

3.类比样本方差估计总体方差的思想,可以用
=i=Q(,)(n>2)
作为σ2的估计量 其中=-

4.我们可以用相关指数R2来刻画回归的效果,其计算公式是:
R2=1-   
R2取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好.
5.建立回归模型的基本步骤:
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等);
(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y=bx+x);
(4)按一定规则估计回归方程中的参数(如最小二乘法);
(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等等),若存在异常,则检查数据是否有误,或模型是否合适等。
6.作K2来确定结论“X与 Y有关系”的可信程度.
三、几个典型例题:
例1 某地区10名健康儿童头发和全血中的硒含量(1000ppm)如下,
血硒
74
66
88
69
91
73
66
96
58
73
发硒
13
10
13
11
16
9
7
14
5
10
(1)画出散点图;
(2)求回归方程;
(3)如果某名健康儿童的血硒含量为94(1000ppm)预测他的发硒含量.
解(1)散点图如下图所示:
(2)利用计算器或计算机,求得回归方程:
=0.2358x-6.9803
(3)当x=94时,≈15.2
因此,当儿童的血硒含量为94(1000ppm)时,该儿童的发硒含量约为15.2(1000ppm).
某地大气中氰化物测定结果如下:
污染源距离
50
100
150
200
250
300
400
500
氰化物浓度
0.687
0.398
0.200
0.121
0.09
0.05
0.02
0.01
(1)试建立氰化物浓度与距离之间的回归方程.
(2)求相关指数.
(3)作出残差图,并求残差平方和
解析(1)选取污染源距离为变量x,氰化物浓度为自因变量y作散点图.

从表中所给的数据可以看出,氰化物浓度与距离有负的相关关系,用非线性回归方程来拟合,建立y关于x的指数回归方程.
=0.9293e-0.0094x
(2)相关指数K2=1-=0.9915
(3)
编 号
1
2
3
4
5
6
7
8
污染源距离
50
100
150
200
250
300
400
500
氰化物浓度
0.687
0.398
0.2
0.121
0.09
0.05
0.02
0.01
残 差
0.1061857
0.035
-0.027
-0.021
0.0014
-0.005
-0.002
0.0015
残差平方和(yi-)2=0.0118
例3 某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,随机制取了189名员工进行调查,所得数据如下表所示:
积极支持企业改革
不太造成企业改革
合 计
工作积极
54
40
94
工作一般
32
63
95
合 计
86
103
189
对于人力资源部的研究项目,根据上述数据能得出什么结论?
解:根据列联表中的数据,得到K2==10.76.
因为10.76>6.635,所以有99%的把握说:员工“工作积极”与“积极支持企业改革”是有关的,可以认为企业的全体员工对待企业改革的态度与其工作积极性是有关的.
例4 有人统计了同一个省的6个城市某一年的人均国内生产总值(即人均GDP)和这一年各城市患白血病的儿童数量,如下表:
人均GDP(万元)
10
8
6
4
3
1
患白血病的儿童数
351
312
207
175
132
180
(1)画出散点图;
(2)求对的回归直线方程;
(3)如果这个省的某一城市同时期年人均GDP为12万元,估计这个城市一年患白血病的儿童数目;
分析:利用公式分别求出的值,即可确定回归直线方程,然后再进行预测.
解:(1)作与对应的散点图,如右图所示;
(2)计算得

∴,,
∴对的回归直线方程是;
(3)将代入得,估计这个城市一年患白血病的儿童数目约为381.
评注:本题涉及的是一个和我们生活息息相关,也是一个愈来愈严峻的问题——环保问题.本题告诉了我们一个沉痛的事实:现如今,一个城市愈发达,这个城市患白血病的儿童愈多.原因在于,城市的经济发展大都以牺牲环境为代价的,经济发展造成了大面积的环境污染,空气、水源中含有的大量的有害物质是导致白血病患者增多的罪魁祸首,所以,我们一定要增强自我保护意识和环境保护意识.
例5 寒假中,某同学为组织一次爱心捐款,于2008年2月1日在网上给网友发了张帖子,并号召网友转发,下表是发帖后一段时间的收到帖子的人数统计:
天数
1
2
3
4
5
6
7
人数
7
11
21
24
66
115
325
(1)作出散点图,并猜测与之间的关系;
(2)建立与的关系,预报回归模型并计算残差;
(3)如果此人打算在2008年2月12日(即帖子传播时间共10天)进行募捐活动,根据上述回归模型,估计可去多少人.
分析:先通过散点图,看二者是否具有线性相关关系,若不具有,可通过相关函数变换,转化为线性相关关系.
解:(1)散点图略.从散点图可以看出与不具有线性相关关系,同时可发现样本点分布在某一个指数函数曲线的周围,其中是参数;
(2)对两边取对数,把指数关系变成线性关系.令,则变换后的样本点分布在直线的周围,这样就可以利用线性回归模型来建立与之间的非线性回归方程了,数据可以转化为:
天数
1
2
3
4
5
6
7
人数
1.946
2.398
3.045
3.178
4.190
4.745
5.784
求得回归直线方程为,
∴.
(3)截止到2008年2月12日,,此时(人).
∴估计可去1530人.
评注:现如今是网络时代,很多同学都会通过互联网发帖子,所以此类问题为同学们司空见惯.但如何预测发帖后的效果,这却是个新课题,通过本题你是否已明确.
例6 有人发现了一个有趣的现象,中国人的邮箱名称里含有数字的比较多,而外国人邮箱名称里含有数字的比较少.为了研究国籍和邮箱名称里是否含有数字的关系,他收集了124个邮箱名称,其中中国人的70个,外国人的54个,中国人的邮箱中有43个含数字,外国人的邮箱中有27个含数字.
(1)根据以上数据建立一个2×2的列联表;
(2)他发现在这组数据中,外国人邮箱名称里含数字的也不少,他不能断定国籍和邮箱名称里含有数字是否有关,你能帮他判断一下吗?
分析:按题中数据建列联表,然后根据列联表数据求出值,即可判定.
解:(1)2×2的列联表
中国人
外国人
总计
有数字
43
27
70
无数字
21
33
54
总计
64
60
124
(2)假设“国籍和邮箱名称里是否含有数字无关”.
由表中数据得,
因为,所以有理由认为假设“国籍和邮箱名称里是否含有数字无关”是不合理的,即有的把握认为“国籍和邮箱名称里是否含有数字有关”.
评注:独立性检验类似于反证法,其一般步骤为:第一步:首先假设两个分类变量几乎没有关系(几乎独立);第二步:求随机变量的值;第三步.判断两个分类变量有关的把握(即概率)有多大.
例7 针对时下的“韩剧热”,某校团委对“学生性别和是否喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的,男生喜欢韩剧的人数占男生人数的,女生喜欢韩剧人数占女生人数的.
(1)若有的把握认为是否喜欢韩剧和性别有关,则男生至少有多少人;
(2)若没有充分的证据显示是否喜欢韩剧和性别有关,则男生至多有多少人.
分析:有的把握认为回答结果对错和性别有关,说明,没有充分的证据显示回答结果对错和性别有关,说明.设出男生人数,并用它分别表示各类别人数,代入的计算公式,建立不等式求解即可.
解:设男生人数为,依题意可得列联表如下:
喜欢韩剧
不喜欢韩剧
总计
男生
女生
总计

(1)若有的把握认为回答结果的对错和性别有关,则,
由,解得,
∵为整数,∴若有的把握认为回答结果的对错和性别有关,则男生至少有12人;
(2)没有充分的证据显示回答结果的对错和性别有关,则,
由,解得,
∵为整数,∴若没有充分的证据显示回答结果的对错和性别有关,则男生至多有6人.
评注:这是一个独立性检验的创新问题,解答时要注意理解“至少”、“至多”的含义.
通过上面几例,大家是否已体会到了回归分析和独立性检验思想方法的应用的广泛性和重要性.其实,这两种思想方法并不神秘,你身边有很多问题可信手拈来,用它们处理,这一点还请同学们多思考、勤尝试.
高中新课标数学选修(1-2)统计案例测试题
一、选择题:本大题共道小题,每小题分,共分,在每小题给出的四个选项中,只有一项符合题目要求
1、对于散点图下列说法中正确一个是( )
(A)通过散点图一定可以看出变量之间的变化规律
(B)通过散点图一定不可以看出变量之间的变化规律
(C)通过散点图可以看出正相关与负相关有明显区别
(D)通过散点图看不出正相关与负相关有什么区别
2、在画两个变量的散点图时,下面叙述正确的是( )
(A)预报变量在轴上,解释变量在轴上
(B)解释变量在轴上,预报变量在轴上
(C)可以选择两个变量中的任意一个变量在轴上
(D)可以选择两个变量中的任意一个变量在轴上
3、如果根据性别与是否爱好运动的列联表,得到,所以判断性别与运动有关,那么这种判断出错的可能性为( )
(A) (B) (C) (D)
4、下列关于线性回归的说法,不正确的是( )
(A)变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系;
(B)在平面直角坐标系中用描点法的方法得到表示具有相关关系的两个变量的一组数据的图形叫散点图;
(C)线性回归直线方程最能代表观测值之间的关系;
(D)任何一组观测值都能得到具有代表意义的回归直线方程;
5、在两个变量与的回归模型中,分别选择了四个不同的模型,它们的相关指数如下,其中拟合效果最好的为( )
(A)模型①的相关指数为 (B)模型②的相关指数为
(C)模型③的相关指数为 (D)模型④的相关指数为
6、关于如何求回归直线的方程,下列说法正确的一项是( )
(A)先画一条,测出各点到它的距离,然后移动直线,到达一个使距离之和最小的位置,测出此时的斜率与截距,就可得到回归直线方程
(B)在散点图中,选两点,画一条直线,使所画直线两侧的点数一样多或基本相同,求出此直线方程,则该方程即为所求回归方程
(C)在散点图中多选几组点,分别求出各直线的斜率与截距,再求它们的平均值,就得到了回归直线的斜率与截距,即可产生回归方程
(D)上述三种方法都不可行
7、若对于变量与的组统计数据的回归模型中,相关指数,又知残差平方和为,那么的值为( )
(A) (B) (C) (D)
8、右表是对与喜欢足球与否的统计列联表依据表中的数据,得到( )
(A)
(B)
(C)
(D)
9、某医院用光电比色计检验尿汞时,得尿汞含量与消光系数读数的结果如下:
如果与之间具有线性相关关系,那么当消光系数的读数为时,( )
(A)汞含量约为 (B)汞含量高于
(C)汞含量低于 (D)汞含量一定是
10、由一组样本数据得到的回归直线方程,那么下面说法正确的是( )
(A)直线必过点
(B)直线必经过一点
(C)直线经过中某两个特殊点
(D)直线必不过点
11、根据下面的列联表
得到如下中个判断:①有的把握认为患肝病与嗜酒有关;②有的把握认为患肝病与嗜酒有关;③认为患肝病与嗜酒有关的出错的可能为;④认为患肝病与嗜酒有关的出错的可能为;
其中正确命题的个数为( )
(A) (B) (C) (D)
12、对于两个变量之间的相关系数,下列说法中正确的是( )
(A)越大,相关程度越大
(B)越小,相关程度越大
(C)越大,相关程度越小;越小,相关程度越大
(D)且越接近于,相关程度越大; 越接近于,相关程度越小;
二、填空题:本大题共小题,每小题分,共分,把答案填在题中的横线上
13、下表是关于出生男婴与女婴调查的列联表
那么,A= ,B= ,C= ,D= ,E= ;
14、如右表中给出五组数据,从中选出四组使其线性相关最大,且保留第一组,那么,应去掉第 组。

15、某学校对校本课程《人与自然》的选修情况进行了统计,得到如下数据:
那么,选修《人与自然》与性别有关的把握是 ;
16、、如图,有组数据,去掉
组(即填A,B,C,D,E中的某一个)
后,剩下的四组数据的线性相关系数最大。

三、解答题:本大题共小题,共分,解答应写出文字说明、证明过程或演算步骤
17、(本小题满分分)
有甲、乙两个班,进行数学考试,按学生考试及格与不及格统计成绩后,得到如下的列联表
根据表中数据,你有多大把握认为成绩及格与班级有关?
18、(本小题满分分)
假设关于某设备的使用年限和所支出的维修费用有如下的统计资料
若由资料知对呈线性相关关系,试求:
(1)线性回归方程
(2)估计使用年限为年时,维修费用大约是多少?
19、(本小题满分分)
吃零食是中学生中普遍存在的现象,吃零食对学生身体发育有诸多不得影响,影响学生的健康成长,下表是性别与吃零食的列联表
试画出列联表的三维柱形图、二维条形图与等高条件形图,并结合图形判断性别与吃零食是否有关?
20、(本小题满分分)
一机器可以按不同的速度运转,其生产物件有一些会有缺点,每小时生产有缺点物件的多少,随机器运转速度而变化,用表示转速(单位:转/秒),用表示每小时生产的有缺点物件的个数,现观测得到的四组观测值为。若实际生产中所允许的每小时有缺点的物件数不超过,则机器的速度每秒不得超过多少转?
21、(本小题满分分)
在大街上,随机调查339名成人,有关吸烟、不吸烟、患支气管炎、不患支气管炎的数据如下表
根据表中数据,(1)判断:吸烟与患支气管炎是否有关?(2)用假设检验的思想予以证明。
22、(本小题满分分)
某同学次考试的数学、语文成绩在班中的排名如下表:
数学成绩
语文成绩

对上述数据分别用与来拟合与之间的关系,并用残差分析两者的拟合效果。

统计案例单元测试题的答案与提示
一、选择题
1、答案:(C);
2、答案:(B);
3、答案:(D);
4、答案:(D);
5、答案:(A)
6、答案:(D);
7、答案:(B);由,得

8、答案:(D);由
9、答案(A)
10、答案:(A);
11、答案:(D);由
12、答案:(D);
二、填空题
13、答案:A=47,B=92,C=88,D=82,E=53;
14、答案:应去掉第三组;画散点图可以发现。
15、答案:,即有的把握,认为选修《人与自然》与性别有关
16、答案:D;
三、解答题:
17、由列联表中的数据,得
没有充分的证据显示“及格或不及格否与班级有关”。
18、(1)由计算器得,
那么,回归直线方程为
(2)当时,
即使用年限为年时,维修费用大约是万元。
19、三维柱形图如下:
二维条形图如下:
等高条形图如下:

由上述三图可知:性别与吃零食有关。
20、由于,
,,,
那么,因此,与之间具有很强的线性相关关系。
于是由公式,得,,那么与之间的回归直线方程为
,由,得
即每小时有缺点的物件数不超过时,机器的速度每秒不得超过转。
21、(1)由列联表中的数据,得
所以,有的把握认为吸烟与患支气管炎有关。
(2)假设吸烟与患支气管炎无关,由于,即为小概率事件,而小概率事件发生了,进而假设错误,得到吸烟与患支气管炎有关。
22、首先用来拟合与之间的关系
由于,,,,那么
,而,此时可得,,此时的残差平方和
再用来拟合与之间的关系,令,则排名表为
由于,,,,
那么,
,此时可得,,此时的残差平方和
由于,可知用来拟合与之间的关系效果最好。
课件31张PPT。1.2 独立性检验的基本思想及其初步应用学习目标
1.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.
2.了解假设检验的基本思想、方法及其简单应用.课前自主学案1.上节学习了回归分析的基本方法.线性回归模型y=bx+a+e不同于一次函数y=bx+a,含有__________,其中x为________,y为________.随机误差e解释变量预报变量样本点的中心1.2×2列联表与等高条形图
(1)分类变量的定义
变量的不同“值”表示个体所属的________,像这样的变量称为分类变量.
(2)2×2列联表的定义
一般地,假设有两个分类变量X和Y,它们的取值分别为________和________,其样本频数列联表(称为2×2列联表)为:不同类别{x1,x2}{y1,y2}(3)与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用__________展示列联表数据的频率特征.等高条形图a+b+c+d(1)如果k≥10.828,就有______的把握认为“X与Y有关系”;
(2)如果k≥7.879,就有______的把握认为“X与Y有关系”;
(3)如果k≥6.635,就有99%的把握认为“X与Y有关系”;
(4)如果k≥5.024,就有97.5%的把握认为“X与Y有关系”;
(5)如果k≥3.841,就有95%的把握认为“X与Y有关系”;
(6)如果k≥2.706,就有____的把握认为“X与Y有关系”.99.9%99.5%90%1.分类变量的值就是指的一些具体实数吗?
提示:这里的“变量”和“值”都应作为广义的变量和值来理解,只要不属于同种类别都是变量和值,并不一定是取具体的数值,如:男、女;上、下;左、右等.2.在判断两变量相关时,若K2的观测值k=56.632,则P(K2≥6.635)≈0.01和P(K2≥10.828)≈0.001,哪种说法是正确的?
提示:两种说法均正确.
P(K2≥6.635)≈0.01的含义是在犯错误的概率不超过0.01的前提下,认为两变量相关;
而P(K2≥10.828)≈0.001的含义是在犯错误的概率不超过0.001的前提下,认为两变量相关.课堂互动讲练利用列联表和等高条形图可粗略地判断两个分类变量是否有关系,这种判断可加深对独立性检验基本思想的理解. 某学校心理教研室为了做好2011年高考前的心理辅导,对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.【解】 作列联表如下:相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关.
【思维总结】 在等高条形图中展示列联表数据的频率特征,比较图中两个深色条的高可以发现两者频率不一样而得出结论.变式训练1 某校对学生课外活动进行调查,结果整理成下表:
试用你所学过的知识进行分析,能否在犯错误的概率不超过0.005的前提下,认为“喜欢体育还是文娱与性别有关系”? 解:其等高条形图如图所示.且P(K2≥7.879)≈0.005,即我们得到的K2的观测值k≈8.106超过7.879.这就意味着:“喜欢体育还是文娱与性别没有关系”这一结论成立的可能性小于0.005,即在犯错误的概率不超过0.005的前提下认为“喜欢体育还是喜欢文娱与性别有关.” 在一次天气恶劣的飞行航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有8人,不晕机的有26人.请你根据所给数据判定:在天气恶劣的飞行航程中,男乘客是否比女乘客更容易晕机?【解】 根据题意,列出2×2列联表如下:变式训练2 某县对在职的71名高中数学教师就支持新的数学教材还是支持旧的数学教材作了调查,结果如下表所示:根据此资料,你是否认为教龄的长短与支持新的数学教材有关?失误防范
1.K2≥6.635是指两个分类变量有关系这一结论成立的可信度为99%,不是指两个分类变量有关系的概率为99%.
2.独立性检验首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立.课件20张PPT。本章优 化 总 结知识体系网络专题探究精讲分析两个变量的相关关系常用的方法:
(1)把样本数据表示的点在直角坐标系中标出,得到散点图;
(2)利用R2进行检验,在确认具有相关关系后,再求线性回归方程. 某商场经营一批进价是30元/台的小商品,在市场试验中发现,此商品的销售单价x(x取整数)元与日销售量y台之间有如下对应数据:(1)画出散点图并说明y与x是否具有线性相关关系?如果有,求出线性回归方程;(方程的斜率保留一个有效数字)
(2)设经营此商品的日销售利润为P元,根据(1)写出P关于x的函数关系式,并预测当销售单价x为多少元时,才能获得最大日销售利润?【解】 (1)散点图如图所示:
从图中可以看出这些点大致分布在一条直线附近,
因此两个变量具有线性相关关系.即预测销售单价为42元时,能获得最大日销售利润.
【思维总结】 该类题属于线性回归问题,解答此类题目的关键是:首先通过散点图来判断两变量是否相关,然后再利用求回归方程的公式求解回归方程.在此基础上,借助回归方程对实际问题进行分析. 炼钢厂出钢时所用的盛钢水的钢包,在使用过程中,由于钢液及炉渣对包衬耐火材料的侵蚀,使其容积不断增大,请根据表格中的数据找出使用次数x与增大的容积y之间的关系.【解】 先根据试验数据作散点图,如图所示:【思维总结】 对于非线性问题,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量代换,把问题转化为线性回归问题,使其得到解决.独立性检验的一般步骤:
(1)提出假设H0:Ⅰ和Ⅱ没有关系;
(2)根据2×2列联表计算K2的观测值;
(3)根据K2的观测值与临界值的大小关系作统计推断.
调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据表,试问婴儿的性别与出生的时间是否有关系?§1.2 回归分析
第一课时
一、基础过关
1.下列变量之间的关系是函数关系的是 (  )
A.已知二次函数y=ax2+bx+c,其中a,c是已知常数,取b为自变量,因变量是这个函数的判别式Δ=b2-4ac
B.光照时间和果树亩产量
C.降雪量和交通事故发生率
D.每亩施用肥料量和粮食产量
2.在以下四个散点图中,
其中适用于作线性回归的散点图为 (  )
A.①② B.①③ C.②③ D.③④
3.已知对一组观察值(xi,yi)作出散点图后确定具有线性相关关系,若对于 = x+ ,求得 =0.51,=61.75,=38.14,则回归直线方程为 (  )
A. =0.51x+6.65 B. =6.65x+0.51
C. =0.51x+42.30 D. =42.30x+0.51
4.对于回归分析,下列说法错误的是 (  )
A.在回归分析中,变量间的关系若是非确定关系,那么因变量不能由自变量唯一确定
B.线性相关系数可以是正的,也可以是负的
C.回归分析中,如果r2=1,说明x与y之间完全相关
D.样本相关系数r∈(-1,1)
5.下表是x和y之间的一组数据,则y关于x的回归方程必过 (  )
x
1
2
3
4
y
1
3
5
7
A.点(2,3) B.点(1.5,4)
C.点(2.5,4) D.点(2.5,5)
6.如图是x和y的一组样本数据的散点图,去掉一组数据________后,剩下的4组数据的相关系数最大.
二、能力提升
7.设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的斜率是 ,纵轴上的截距是 ,那么必有 (  )
A. 与r的符号相同 B. 与r的符号相同
C. 与r的符号相反 D. 与r的符号相反
8.某医院用光电比色计检验尿汞时,得尿汞含量(mg/L)与消光系数计数的结果如下:
尿汞含量x
2
4
6
8
10
消光系数y
64
138
205
285
360
若y与x具有线性相关关系,则回归直线方程是__________________.
9.若施化肥量x(kg)与小麦产量y(kg)之间的回归直线方程为 =250+4x,当施化肥量为50 kg时,预计小麦产量为________ kg.
10.某车间为了规定工时定额,需确定加工零件所花费的时间,为此做了4次试验,得到的数据如下:
零件的个数x/个
2
3
4
5
加工的时间y/小时
2.5
3
4
4.5
若加工时间y与零件个数x之间有较好的相关关系.
(1)求加工时间与零件个数的回归直线方程;
(2)试预报加工10个零件需要的时间.
11.假设关于某种设备的使用年限x(年)与所支出的维修费用y(万元)有如下统计资料:
x
2
3
4
5
6
y
2.2
3.8
5.5
6.5
7.0
已知=90,=140.8,iyi=112.3,≈8.9,≈1.4,n-2=3时,r0.05=0.878.
(1)求,;
(2)对x,y进行线性相关性检验;
(3)如果x与y具有线性相关关系,求出回归直线方程;
(4)估计使用年限为10年时,维修费用约是多少?
三、探究与拓展
12.某运动员训练次数与运动成绩之间的数据关系如下:
次数(x)
30
33
35
37
39
44
46
50
成绩(y)
30
34
37
39
42
46
48
51
(1)作出散点图;
(2)求出回归直线方程;
(3)计算相关系数r,并进行相关性检验;
(4)试预测该运动员训练47次及55次的成绩.
答案
1.A 2.B 3.A 4.D 5.C 6.D(3,10) 7.A 
8. =-11.3+36.95x
解析 由已知表格中的数据,利用科学计算器进行计算得
=6,=210.4,x=220,
xiyi=7 790,
所以 ==36.95,
=- =-11.3.
所以回归直线方程为 =-11.3+36.95x.
9.450
10.解 (1)由表中数据及科学计算器得=3.5,=3.5,xiyi=52.5,x=54,
故 ==0.7,
=- =1.05,
因此,所求的回归直线方程为 =0.7x+1.05.
(2)将x=10代入回归直线方程,得 =0.7×10+1.05=8.05(小时),即加工10个零件的预报时间为8.05小时.
11.解 (1)==4,
==5.
(2)步骤如下:
①作统计假设:x与y不具有线性相关关系;
②iyi-5 =112.3-5×4×5=12.3,
-52=90-5×42=10,
-52=140.8-125=15.8,
所以r===
≈≈0.987;
③|r|=0.987>0.878,即|r|>r0.05,
所以有95%的把握认为x与y之间具有线性相关关系,去求回归直线方程是有意义的.
(3) =
==1.23.
=- =5-1.23×4=0.08.
所以回归直线方程为 =1.23x+0.08.
(4)当x=10时, =1.23×10+0.08=12.38(万元),
即估计使用年限为10年时,维修费用为12.38万元.
12.解 (1)作出该运动员训练次数(x)与成绩(y)之间的散点图,如下图所示,由散点图可知,它们之间具有线性相关关系.
(2)列表计算:
次数xi
成绩yi
x2i
y2i
xiyi
30
30
900
900
900
33
34
1 089
1 156
1 122
35
37
1 225
1 369
1 295
37
39
1 369
1 521
1 443
39
42
1 521
1 764
1 638
44
46
1 936
2 116
2 024
46
48
2 116
2 304
2 208
50
51
2 500
2 601
2 550
由上表可求得=39.25,=40.875,
x2i=12 656,
y2i=13 731,xiyi=13 180,
∴ =≈1.041 5,
=- =-0.003 88,
∴回归直线方程为 =1.041 5x-0.003 88.
(3)计算相关系数r=0.992 7>r0.05=0.707,因此有95%的把握认为运动员的成绩和训练次数有关.
(4)由上述分析可知,我们可用回归直线方程 =1.041 5x-0.003 88作为该运动员成绩的预报值.
将x=47和x=55分别代入该方程可得y=49和y=57.故预测该运动员训练47次和55次的成绩分别为49和57.