2018年秋高中数学第三章统计案例学案(打包3套)新人教A版选修2_3

文档属性

名称 2018年秋高中数学第三章统计案例学案(打包3套)新人教A版选修2_3
格式 zip
文件大小 390.0KB
资源类型 教案
版本资源 人教新课标A版
科目 数学
更新时间 2018-10-29 14:14:11

文档简介

3.1 回归分析的基本思想及其初步应用
学习目标:1.通过对典型案例的探究,了解回归分析的基本思想、方法及其初步应用.2.会求回归直线方程,并用回归直线方程进行预报.(重点).3.了解最小二乘法的思想方法,理解回归方程与一般函数的区别与联系.了解判断模型拟合效果的方法(相关指数和残差分析).(难点)
[自 主 预 习·探 新 知]
1.回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
2.回归直线方程
方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定参数,其最小二乘估计分别为:
其中=i,=i,(,)称为样本点的中心.
思考:如何求回归直线方程?
[提示] (1)计算:,,,,iyi.
(2)代入公式计算,.
(3)写出回归方程.
3.线性回归模型
(1)表达式y=bx+a+e.
(2)基本概念:
①a和b为模型的未知参数.
②e是y与bx+a之间的误差.通常e为随机变量,称为随机误差.
③x称为解释变量,y称为预报变量.
4.衡量回归方程的预报精度的方法
(1)残差平方和法:
①称为相应于点(xi,yi)的残差.
②残差平方和越小,模型的拟合效果越好.
(2)残差图法:
残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型的拟合精度越高.
(3)利用相关指数R2刻画回归效果:
其计算公式为:R2=1-;
其几何意义:R2越接近于1,表示回归的效果越好.
[基础自测]
1.判断(正确的打“√”,错误的打“×”)
(1)求线性回归方程前可以不进行相关性检验. (  )
(2)在残差图中,纵坐标为残差,横坐标可以选为样本编号. (  )
(3)随机误差也就是残差. (  )
[解析]  (1)× 因为如果两个变量之间不具有线性相关关系,就不用求线性回归方程了,求出的回归直线方程当然也不能很好的反映两变量间的关系.
(2)√ 因为由残差图的方法步骤可知,该说法正确.
(3)× 因为随机误差e是真实值y与bx之间的误差,而残差=y-是随机误差e的估计量.
[答案] (1)× (2)√ (3)×
2.下列变量是相关关系的是(  )
【导学号:95032232】
A.正方体的棱长和体积
B.角的弧度数和它的正弦值
C.日照时间与水稻的亩产量
D.人的身高与视力
C [A、B均为一种确定性关系(函数关系),而D为互不相关的.]
3.在判断两个变量y与x是否相关时,选择了4个不同的模型,它们的R2分别为:
模型1的R2为0.98,模型2的R2为0.80,模型3的R2为0.50,模型4的R2为0.25.其中拟合效果最好的模型是(  )
A.模型1          B.模型2
C.模型3 D.模型4
A [R2能够刻画用回归模型拟合数据的效果,R2的值越接近于1,说明回归模型拟合数据的效果越好.]
4.若y与x之间的一组数据为
x
0
1
2
3
4
y
1
3
5
5
6
则y对x的回归直线一定经过的点是________.
【导学号:95032233】
(2,4) [由表中数据得==2,==4.
因回归直线必过样本点的中心(,),所以y与x的回归直线一定经过的点是(2,4).]
[合 作 探 究·攻 重 难]
线性回归分析
 某种产品的广告费用支出x与销售额y(单位:百万元)之间有如下的对应数据:
x/百万元
2
4
5
6
8
y/百万元
30
40
60
50
70
(1)画出散点图;
(2)求线性回归方程;
(3)试预测广告费用支出为10百万元时的销售额.
[解] (1)散点图如图所示:
(2)列出下表,并用科学计算器进行有关计算:
i
1
2
3
4
5
合计
xi
2
4
5
6
8
25
yi
30
40
60
50
70
250
xiyi
60
160
300
300
560
1 380
x
4
16
25
36
64
145
所以,==5,==50,=145,
iyi=1 380.
于是可得===6.5,
=-=50-6.5×5=17.5.
所以所求的线性回归方程为=6.5x+17.5.
(3)根据(2)中求得的线性回归方程,当广告费用支出为10百万元时,
=6.5×10+17.5=82.5(百万元),
即广告费用支出为10百万元时,销售额大约为82.5百万元.
[规律方法] (1)求线性回归方程前必须判断两个变量是否线性相关,如果两个变量本身不具备相关关系,或者它们之间的相关关系不显著,那么即使求出回归方程也是毫无意义的.
(2)写出回归直线方程=x+,并用回归直线方程进行预测说明:当x取x0时,由线性回归方程可得0的值,从而可进行相应的判断.
[跟踪训练]
1.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据:
x
3
4
5
6
y
2.5
3
4
4.5
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的回归直线方程=x+;
(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的回归直线方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?
(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)
[解] (1)由题设所给数据,可得散点图如图.
(2)由数据,计算得:=86,
==4.5,
==3.5,
又已知iyi=66.5.
所以,由最小二乘法确定的回归方程的系数为:
===0.7,
=-=3.5-0.7×4.5=0.35,
因此,所求的回归直线方程为=0.7x+0.35.
(3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为90-(0.7×100+0.35)=19.65吨标准煤.
残差分析
 已知某种商品的价格x(元)与需求量y(件)之间的关系有如下一组数据:
x(元)
14
16
18
20
22
y(件)
12
10
7
5
3
求y对x的回归直线方程,并说明回归模型拟合效果的好坏.
【导学号:95032234】
[思路探究] 先利用求线性回归直线方程的方法步骤求出回归直线方程,再利用相关指数R2说明拟合效果.
[解] =×(14+16+18+20+22)=18,
=×(12+10+7+5+3)=7.4,
x=142+162+182+202+222=1 660,
y=122+102+72+52+32=327,
xiyi=14×12+16×10+18×7+20×5+22×3=620,
∴===-1.15.
=-=7.4+1.15×18=28.1,
∴所求回归直线方程为=-1.15x+28.1.
列出残差表:
yi-i
0
0.3
-0.4
-0.1
0.2
yi-
4.6
2.6
-0.4
-2.4
-4.4
∴ (yi-i)2=0.3, (yi-)2=53.2,
R2=1-≈0.994,
故回归模型的拟合效果很好.
[规律方法] 
1.该类题属于线性回归问题,解答本题应先通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.
2.刻画回归效果的三个方式
(1)残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.
(2)残差平方和法:残差平方和 (yi-i)2越小,模型的拟合效果越好.
(3)相关指数法:R2=1-越接近1,表明回归的效果越好.
[跟踪训练]
2.假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得5组数据如下:
x
15.0
25.8
30.0
36.6
44.4
y
39.4
42.9
42.9
43.1
49.2
(1)以x为解释变量,y为预报变量,作出散点图;
(2)求y与x之间的回归方程,对于基本苗数56.7预报有效穗;
(3)计算各组残差,并计算残差平方和;
(4)求R2,并说明残差变量对有效穗的影响占百分之几?
[解] (1)散点图如下.
(2)由(1)中散点图看出,样本点大致分布在一条直线的附近,有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.
设回归方程为=x+.=30.36,=43.5,
=5 101.56,=9 511.43.
=1 320.66,2=921.729 6,
iyi=6 746.76.
则=≈0.29,=-≈34.70.
故所求的回归直线方程为=0.29x+34.70.
当x=56.7时,=0.29×56.7+34.70=51.143.
估计成熟期有效穗为51.143.
(3)由于i=xi+,可以算得i=yi-i分别为1=0.35,2=0.718,3=-0.5,4=-2.214,5=1.624,残差平方和:≈8.43.
(4)(yi-)2=50.18,故R2=1-≈0.832.所以解释变量小麦基本苗数对总效应约贡献了83.2%,残差变量贡献了约1-83.2%=16.8%.
非线性回归分析
[探究问题]
1.如果两个相关变量x,y满足回归方程y=c1x2+c2,那么x,y具有线性相关关系吗?如何把它化归为线性回归方程问题?
[提示] x,y不具有线性相关关系,但是若令z=x2,则y=c1x2+c2可变换为y=c1z+c2,即化归为线性回归方程问题.
2.如果两个相关变量x,y满足非线性回归方程y=c1ec2x,如何转化为线性回归方程问题?如果两个变量呈非线性相关关系,怎样求回归方程?
[提示] 令z=ln y,则原回归方程可变换为z=bx+a(a=ln c1,b=c2).若两个变量呈非线性相关关系可以通过对解释变量进行变换,如对数变换或平方变换,先得到另外两个变量间的回归方程,再得到所求两个变量的回归方程.
3.若对同一个问题建立的两种不同回归模型,怎样比较它们的拟合效果?
[提示] 有两种比较方法:(1)计算残差平方和,残差平方和小的模型拟合效果好;(2)计算相关指数R2,R2越接近于1的模型拟合效果越好.
 下表为收集到的一组数据:
x
21
23
25
27
29
32
35
y
7
11
21
24
66
115
325
(1)作出x与y的散点图,并猜测x与y之间的关系;
(2)建立x与y的关系,预报回归模型并计算残差;
(3)利用所得模型,预报x=40时y的值.
【导学号:95032235】
[思路探究] →→
→→→→
[解]  (1)作出散点图如图,从散点图可以看出x与y不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数型函数曲线y=c1ec2x的周围,其中c1,c2为待定的参数.
(2)对两边取对数把指数关系变为线性关系,令z=ln y,则变换后的样本点应分布在直线z=bx+a,a=ln c1,b=c2的周围,这样就可以利用线性回归模型来建立y与x之间的非线性回归方程了,数据可以转化为:
x
21
23
25
27
29
32
35
z
1.946
2.398
3.045
3.178
4.190
4.745
5.784
求得回归直线方程为=0.272x-3.849,
∴=e0.272x-3.849.
残差列表如下:
yi
7
11
21
24
66
115
325
i
6.443
11.101
19.125
32.950
56.770
128.381
290.325
i
0.557
-0.101
1.875
-8.950
9.23
-13.381
34.675
(3)当x=40时,y=e0.272×40-3.849≈1 131.
[规律方法]  非线性回归问题的处理方法
1.指数函数型y=ebx+a
(1)函数y=ebx+a的图象:
(2)处理方法:两边取对数得ln y=ln ebx+a,即ln y=bx+a.令z=ln y,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b.
2.对数函数型y=bln x+a
(1)函数y=bln x+a的图象:
(2)处理方法:设x′=ln x,原方程可化为y=bx′+a,再根据线性回归模型的方法求出a,b.
3.y=bx2+a型
处理方法:设x′=x2,原方程可化为y=bx′+a,再根据线性回归模型的方法求出a,b.
[跟踪训练]
3.某地区六年来轻工业产品利润总额y与年次x的试验数据如下表所示:
年次x
1
2
3
4
5
6
利润总额y
11.35
11.85
12.44
13.07
13.59
14.41
由经验知,年次x与利润总额y(单位:亿元)近似有如下关系:y=abxe0.其中a,b均为正数,求y关于x的回归方程.
[解] 对y=abxe0两边取自然对数,得ln y=ln ae0+xln b,令z=ln y,则z与x的数据如下表:
x
1
2
3
4
5
6
z
2.43
2.47
2.52
2.57
2.61
2.67
由z=ln ae0+xln b及最小二乘法公式,得
ln b≈0.047 7,ln ae0=2.378,
即=2.378+0.047 7x,故=10.8×1.05x.
[当 堂 达 标·固 双 基]
1.在对两个变量x,y进行线性回归分析时,有下列步骤:
①对所求出的回归直线方程作出解释;②收集数据(xi,yi),i=1,2,…,n;③求线性回归方程;④求相关系数;⑤根据所搜集的数据绘制散点图.
如果根据可行性要求能够作出变量x,y具有线性相关的结论,则在下列操作顺序中正确的是(  )
A.①②⑤③④        B.③②④⑤①
C.②④③①⑤ D.②⑤④③①
D [对两个变量进行回归分析时,首先收集数据(xi,yi),i=1,2,…,n;根据所搜集的数据绘制散点图.观察散点图的形状,判断线性相关关系的强弱,求相关系数,写出线性回归方程,最后依据所求出的回归直线方程作出解释.故正确顺序是②⑤④③①.]
2.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R2分别如下表:




R2
0.98
0.78
0.50
0.85
则建立回归模型拟合效果最好的同学是(  )
【导学号:95032236】
A.甲   B.乙    C.丙   D.丁
A [相关指数R2越大,表示回归模型的拟合效果越好.]
3.在一次试验中,测得(x,y)的四组值分别是A(1,2),B(2,3),C(3,4),D(4,5),则y与x间的线性回归方程为(  )
A.=x+1 B.=x+2
C.=2x+1 D.=x-1
A [因为==2.5,
==3.5,
这组数据的样本点的中心是(2.5,3.5)回归直线过样本点的中心,只有=x+1适合.]
4.已知某车间加工零件的个数x与花费时间y(h)之间的线性回归直线方程为=0.01x+0.5,则加工600个零件大约需要________h.
6.5 [=0.01×600+0.5=6.5,所以加工600个零件大约需要6.5 h.]
5.在一段时间内,分5次测得某种商品的价格x(万元)和需求量y(t)之间的一组数据为:
1
2
3
4
5
价格x
1.4
1.6
1.8
2
2.2
需求量y
12
10
7
5
3
已知iyi=62,=16.6,且y与x呈线性相关.
(1)求出y对x的回归方程;
(2)如价格定为1.9万元,预测需求量大约是多少?(精确到0.01 t).
【导学号:95032237】
[解] (1)因为=×9=1.8,=×37=7.4,
iyi=62,=16.6,
所以===-11.5,
=-=7.4+11.5×1.8=28.1,
故y对x的回归方程为=28.1-11.5x.
(2)=28.1-11.5×1.9=6.25(t).
3.2 独立性检验的基本思想及其初步应用
学习目标:1.了解分类变量、2×2列联表、随机变量K2的意义.2.通过对典型案例的分析,了解独立性检验的基本思想方法.(重点)3.通过对典型案例的分析,了解两个分类变量的独立性检验的应用.(难点)
[自 主 预 习·探 新 知]
1.分类变量和列联表
(1)分类变量
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表
①定义:列出的两个分类变量的频数表称为列联表.
②2×2列联表
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
2.等高条形图
(1)等高条形图与表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.
(2)观察等高条形图发现和相差很大,就判断两个分类变量之间有关系.
3.独立性检验
定义
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验
公式
K2=,其中n=a+b+c+d
具体步骤
①确定α,根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值Ka
②计算K2,利用公式计算随机变量K2的观测值K.
③下结论,如果K≥K0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”
思考:独立性检验的基本思想与反证法的思想有何相似之处?
[提示] 
反证法
假设检验
要证明结论A
要确认“两个变量有关系”
在A不成立的前提下进行推理
假设该结论不成立,即假设结论“两个变量没有关系”成立,在该假设下计算K2
推出矛盾,意味着结论A成立
由观测数据计算得到的K2很大,则在一定可信程度上说明假设不合理
没有找到矛盾,不能对A下任何结论,即反证法不成功
根据随机变量K2的含义,可以通过K2的大小来判断“两个变量有关系”这一结论成立有多大把握
[基础自测]
1.判断(正确的打“√”,错误的打“×”)
(1)分类变量中的变量与函数中的变量是同一概念. (  )
(2)独立性检验的方法就是反证法. (  )
(3)独立性检验中可通过统计表从数据上说明两分类变量的相关性的大小 (  )
[解析] (1)× 变量的不同“值”表示个体所属的不同类别,象这样的变量称为分类变量,有时可以把分类变量的不同取值用数字表示,但这时的数字除了分类以外没
有其他含义,而函数中的变量分为自变量与因变量,都是数的集合,有它们各自的意义.
(2)× 独立性检验的思想类似于反证法,但不能说它就是反证法.
(3)√ 独立性检验是对两个分类变量有关系的可信度的判断,其结论是有多大的把握确认两个分类变量有关系,可以通过统计表从数据上进行运算,再进行判断.
[答案] (1)× (2)× (3)√
2.下面是2×2列联表
y1
y2
总计
x1
a
21
73
x2
7
20
27
总计
b
41
100
则表中a,b处的值为(  )
A.94,96       B.52,40
C.52,59 D.59,52
C [a=73-21=52,b=a+7=52+7=59.]
3.调查男女学生购买食品时是否看出厂日期与性别有无关系时,最有说服力的是(  )
【导学号:95032243】
A.期望 B.方差
C.正态分布 D.独立性检验
D [要判断两个事件是否相关时,用独立性检验.]
4.下面的等高条形图可以说明的问题是________(填序号).
图3-2-1
①“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响是绝对不同的;
②“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响没有什么不同;
③此等高条形图看不出两种手术有什么不同的地方;
④“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响在某种程度上是不同的,但是没有100%的把握.
[答案] ④
[合 作 探 究·攻 重 难]
等高条形图的应用
 为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:
组别
阳性数
阴性数
总计
铅中毒病人
29
7
36
对照组
9
28
37
总计
38
35
73
试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?
[解] 等高条形图如图所示:
其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.
由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.
[规律方法] 
1.利用等高条形图判断两个分类变量是否相关的步骤:
(1)统计:收集数据,统计结果.
(2)列表:列出2×2列联表,计算频率、粗略估计.
(3)绘图:绘制等高条形图,直观分析.
2.在等高条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例,也可以估计满足条件X=x2的个体中具有Y=y1的个体所占的比例.两个比例的值相差越大,X与Y有关系成立的可能性就越大.
[跟踪训练]
1.某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.
[解] 作列联表如下:
性格内向
性格外向
总计
考前心情紧张
332
213
545
考前心情不紧张
94
381
475
总计
426
594
1 020
在考前心情紧张的群体中,性格内向的约占61%,在考前心情不紧张的群体中,性格内向的约占20%.绘制相应的等高条形图如图所示:
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前心情紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例大,可以认为考前紧张与性格类别有关.
由K2进行独立性检验
 某校高三年级在一次全年级的大型考试中,数学成绩优秀和非优秀的学生中,物理、化学、总分也为优秀的人数如下表所示,则我们能否在犯错误的概率不超过0.001的前提下认为数学成绩优秀与物理、化学优秀有关系?
物理优秀
化学优秀
总分优秀
数学优秀
228
225
267
数学非优秀
143
156
99
注:该年级此次考试中数学成绩优秀的有360人,非优秀的有880人.
【导学号:95032244】
[思路探究] 首先分别列出数学成绩与物理、化学、总分的2×2列联表,再正确计算K2的观测值,然后由K2的值作出判断.
[解] (1)根据已知数据列出数学与物理优秀的2×2列联表如下:
物理优秀
物理非优秀
总计
数学优秀
228
b
360
数学非优秀
143
d
880
总计
371
b+d
1 240
∴b=360-228=132,d=880-143=737,b+d=132+737=869.
代入公式可得K2的观测值为k1≈270.114.
(2)按照上述方法列出数学与化学优秀的2×2列联表如下:
化学优秀
化学非优秀
总计
数学优秀
225
135
360
数学非优秀
156
724
880
总计
381
859
1 240
代入公式可得K2的观测值k2≈240.611.
综上,由于K2的观测值都大于10.828,因此说明都能在犯错误的概率不超过0.001的前提下认为数学成绩优秀与物理、化学优秀有关系.
[规律方法] 
1.利用K2进行独立性检验的步骤
(1)列表:列出2×2列联表.
(2)求值:求出K2的观测值k.
(3)判断:与临界值比较,得出事件有关的可能性大小作出判断.
2.独立性检验的必要性
列联表中的数据是样本数据,它只是总体的代表,它具有随机性,所以只能利用列联表的数据和等高条形图粗略判断两个分类变量是否有关系.而K2给出了不同样本容量的数据的统一评判标准.利用它能精确判断两个分类变量是否有关系的可靠程度.
[跟踪训练]
2.为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.能否在犯错误的概率不超过0.1的前提下,认为“学生选报文、理科与对外语的兴趣有关”?
[解] 根据题目所给的数据得到如下列联表:
理科
文科
总计
有兴趣
138
73
211
无兴趣
98
52
150
总计
236
125
361
根据列联表中数据由公式计算得随机变量K2的观测值
k=≈1.871×10-4.
因为1.871×10-4<2.706,
所以在犯错误的概率不超过0.1的前提下,不能认为“学生选报文、理科与对外语的兴趣有关”.
独立性检验与统计的综合应用
[探究问题]
1.从容量为400人的中年人与容量为100人的老年人中抽出50人去体检某项健康指标,若采取分层抽样方法,应从中抽取老年人为多少人?
[提示] ×100=10(人).
2.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据:
总成绩好
总成绩不好
总计
数学成绩好
478
a
490
数学成绩不好
399
24
423
总计
b
c
913
你能求出a,b,c的值吗?该问题中有几个分类变量?它们的取值分别是什么?
[提示] a=12,b=877,c=36.该问题中有“总成绩”和“数学成绩”两个分类变量;“总成绩”的取值有“总成绩好”与“总成绩不好”两个值,“数学成绩”的取值也有“好”与“不好”两个值.
3.在探究2中,你认为文科学生总成绩不好与数学成绩不好有关系吗?
[提示] 由探究2计算随机变量K2的观测值:
k=≈6.233>5.024,
∵P(k≥5.024)≈0.025,
∴在犯错误的概率不超过0.025的前提下,认为文科学生总成绩不好与数学成绩不好有关系.
 为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.
(1)甲、乙是200只家兔中的2只,求甲、乙分在不同组的概率.
(2)下表1和表2分别是注射药物A和B后的试验结果.(疱疹面积单位:mm2)
表1:注射药物A后皮肤疱疹面积的频数分布表
疱疹面积
[60,65)
[65,70)
[70,75)
[75,80)
频数
30
40
20
10
表2:注射药物B后皮肤疱疹面积的频数分布表
疱疹面积
[60,65)
[65,70)
[70,75)
[75,80)
[80,85]
频数
10
25
20
30
15
完成下面2×2列联表
疱疹面积小于70 mm2
疱疹面积不小于70 mm2
合计
注射药物A
a=
b=
注射药物B
c=
d=
合计
n=
[解] (1)甲、乙两只家兔分在不同组的概率为p==.
(2)2×2列联表如下.
疱疹面积小于70 mm2
疱疹面积不小于70 mm2
合计
注射药物A
a=70
b=30
100
注射药物B
c=35
d=65
100
合计
105
95
n=200
母题探究:1.(改变问法)典例2中条件不变,改变问法:是否有99%的把握认为注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异?
[解] k=≈24.56.
由于K2>6.635,所以有99%的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.
2.(改变问法)在典例2(2)中完成如图3-2-2所示的频率分布直方图,并比较注射两种药物后疱疹面积的中位数大小.
图3-2-2
[解] 如图所示
图Ⅰ 注射药物A后皮肤疱疹面积的频率分布直方图
图Ⅱ 注射药物B后皮肤疱疹面积的频率分布直方图
可以看出注射药物A后的疱疹面积的中位数在65至70之间,而注射药物B后的疱疹面积的中位数在70至75之间,所以注射药物A后疱疹面积的中位数小于注射药物B后疱疹面积的中位数.
[规律方法] 
1.独立性检验在实际中有着广泛的应用,是对实际生活中数据进行分析的一种方法,通过这种分析得出的结论对实际生活或者生产都有一定的指导作用.
2.近几年高考中较少单独考查独立性检验,经常与统计、概率等知识综合,频率分布表、频率分布直方图与独立性检验融合在一起是常见的考查形式,一般需要根据条件列出2×2列联表,计算K2的观测值,从而解决问题.
[跟踪训练]
3.某学生对其亲属30人的饮食进行了一次调查,并用如图3-2-3所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主)
图3-2-3
(1)根据以上数据完成下列2×2列联表:
主食蔬菜
主食肉类
总计
50岁以下
50岁以上
总计
(2)能否在犯错误的概率不超过0.01的前提下认为其亲属的饮食习惯与年龄有关?并写出简要分析.
[解] (1)2×2列联表如下:
主食蔬菜
主食肉类
总计
50岁以下
4
8
12
50岁以上
16
2
18
总计
20
10
30
(2)因为k2==10>6.635,
P(K2>6.635)=0.01,
所以可以在犯错误的概率不超过0.01的前提下认为其亲属的饮食习惯与年龄有关.
[当 堂 达 标·固 双 基]
1.与表格相比,能更直观地反映出相关数据总体状况的是(  )
【导学号:95032245】
A.列联表        B.散点图
C.残差图 D.等高条形图
D [对于A,列联表需要计算K2的值,不是直观的分析;
对于B,散点图体现的是变量间相关性的强弱;
对于C,残差图体现预报变量与实际值之间的差距,
对于D,等高条形图能直观地反映两个分类变量是否有关系.]
2.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是(  )
A.k越大,“X与Y有关系”的可信程度越小
B.k越小,“X与Y有关系”的可信程度越小
C.k越接近于0,“X与Y没有关系”的可信程度越小
D.k越大,“X与Y没有关系”的可信程度越大
B [k越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大,k越小,“X与Y有关系”的可信程度越小.]
3.为了探究电离辐射的剂量与人体的受损程度是否有关,用两种不同剂量的电离辐射照射小白鼠.在照射后14天内的结果如下表所示:
死亡
存活
总计
第一种剂量
14
11
25
第二种剂量
6
19
25
总计
20
30
50
进行统计分析时的统计假设是________.
假设电离辐射的剂量与人体受损程度无关 [根据假设性检验的概念知,应“假设电离辐射的剂量与人体受损程度无关”.]
4.下列说法正确的有________(填序号).
【导学号:95032246】
①分类变量的取值仅表示个体所属的类别,它们的取值一定是离散的;
②分类变量的取值也可以用数字来表示,但这时的数字除了分类以外没有其他的含义;
③2×2列联表是两个分类变量的频数汇总统计表;
④2×2列联表和等高条形图都能反映出两个分类变量间是否相互影响.
①②③④ [由分类变量的定义可知①②正确;由2×2列联表的定义可知③正确;2×2列联表和等高条形图都能展示样本的频率特征,若在一个分类变量所取值的群体中,另一个分类变量所取值的频率相差较小,则说明这两个变量不相互影响,否则就相互影响.故④正确.]
5.在国家未实施西部开发战略前,一新闻单位在应届大学毕业生中随机抽取1 000人问卷,只有80人志愿加入西部建设.而国家公布实施西部开发战略后,随机抽取1 200名应届大学毕业生问卷,有400人志愿加入国家西部建设.
问:能否在犯错误的概率不超过0.001的前提下,认为实施西部开发战略的公布对应届大学毕业生的选择产生了影响?
[解] 根据题意,列出2×2列联表:
志愿者
非志愿者
总计
开发战略公布前
80
920
1 000
开发战略公布后
400
800
1 200
总计
480
1 720
2 200
由公式计算K2统计量得:
k=≈205.22.
因为205.22>10.828,因此在犯错误的概率不超过0.001的前提下认为实施西部开发战略的公布对应届大学毕业生的选择产生了影响.
第三课 统计案例
[核心速填]
(建议用时4分钟)
1.分析判断两个变量相关关系常用的方法
(1)散点图法:把样本数据表示的点在直角坐标系中标出,得到散点图,由散点图的形状分析.
(2)相关指数法:利用相关指数R2进行检验,在确认具有相关关系后,再求线性回归方程.
2.求线性回归方程的步骤
(1)画散点图:从直观上观察两个变量是否线性相关.
(2)计算:利用公式求回归方程的系数的值.
==,=-.
(3)写出方程:依据=+x,写出回归直线方程.
3.两种特殊可线性化回归模型的转化
(1)将幂型函数y=axm(a为正的常数,x,y取正值)化为线性函数.
如果将y=axm两边同取以10为底的对数,则有lg y=mlg x+lg a.令u=lg y,v=lg x,lg a=b,代入上式,得u=mv+b,其中m,b是常数.这是u,v的线性函数.如果以u为纵坐标,v为横坐标,则u=mv+b的图象就是一直线.
(2)将指数型函数y=cax(a>0且a≠1,c>0且为常数)化为线性函数.
将y=cax两边同取以10为底的对数,有lg y=xlg a+lg c,令lg y=u,lg a=k,lg c=b,得u=kx+b,其中,k和b是常数,与幂型函数不同的是x依然保持原来的,只是用y的对数lg y代替了y.
4.在实际问题中常用的三个数值
(1)当K2>6.635时,表示有99%的把握认为“事件A与B有关系”.
(2)当K2>3.841时,表示有95%的把握认为“事件A与B有关系”.
(3)当K2≤3.841时,认为事件A与B是无关的.
[体系构建]

[题型探究]
线性回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.根据两个变量的一组观测值,可以画出散点图或利用相关系数r,判断两个变量是否具有线性相关关系,若具有线性相关关系,可得出线性回归直线方程.
利用公式求回归直线方程时应注意以下几点:
(1)求时,利用公式==,先求出=(x1+x2+x3+…+xn),=(y1+y2+y3+…+yn).再由=- 求的值,并写出回归直线方程.
(2)回归直线一定经过样本点的中心(,).
(3)回归直线方程中的截距和斜率都是通过样本估计得来的,存在误差,这种误差可能导致预报结果的偏差.
(4)回归直线方程=+x中的表示x每增加1个单位时预报变量y的平均变化量,而表示预报变量y不随x的变化而变化的部分.
 以下是某地收集到的新房屋的销售价格y和房屋的面积x的数据:
房屋面积x/m2
115
110
80
135
105
销售价格y/万元
24.8
21.6
18.4
29.2
22
(1)画出数据对应的散点图;
(2)若线性相关,求线性回归方程;
(3)根据(2)的结果估计当房屋面积为150 m2时的销售价格.
【导学号:95032252】
[解] (1)数据对应的散点图如图所示.
(2)由散点图知y与x具有线性相关关系.由表中数据知=i=109,=i=23.2,=60 975,iyi=12 952.设所求回归直线方程为=x+,则=≈0.196 2,=-≈1.814 2,故所求回归直线方程为=0.196 2x+1.814 2.
(3)根据(2),当x=150时,销售价格的估计值为=0.1962×150+1.814 2=31.244 2(万元).
[规律方法] 在散点图中样本点大致分布在一条直线附近,则利用线性回归模型进行研究,可近似地利用回归直线方程=x+来预报,利用公式求出回归系数,,即可写出回归直线方程,并用回归直线方程进行预测说明.
[跟踪训练]
1.已知某连锁经营公司的5个零售店某月的销售额和利润额资料如下表:
商店名称
A
B
C
D
E
销售额x(千万元)
3
5
6
7
9
利润额y(千万元)
2
3
3
4
5
(1)画出散点图;
(2)根据如下的参考公式与参考数据,求利润额y与销售额x之间的线性回归方程;
(3)若该公司还有一个零售店某月销售额为10千万元,试估计它的利润额是多少.
(参考公式:=,=-.
其中,iyi=112,=200)
[解] (1)散点图.
(2)由已知数据计算得n=5,==6,==3.4,==0.5,=3.4-0.5×6=0.4.
则线性回归方程为=0.5x+0.4.
(3)将x=10代入线性回归方程中得到=0.5×10+0.4=5.4(千万元).
即估计该零售店的利润额约为5.4千万元.
回归模型分析
对于建立的回归模型,我们必须对模型的拟合效果进行分析,也就是对利用回归模型解决实际问题的效果进行评价.一方面可以对比残差或残差平方和的大小,同时观察残差图,进行残差分析;另一方面也可以研究数据的R2(相关系数r).对模型拟合效果的分析能够帮助我们利用最优化的模型来解决实际问题.
 在研究弹簧伸长长度y(cm)与拉力x(N)的关系时,对不同拉力的6根弹簧进行测量,测得如下表中的数据:
x/N
5
10
15
20
25
30
y/cm
7.25
8.12
8.95
9.90
10.9
11.8
若依据散点图及最小二乘法求出的回归直线方程为=0.18x+6.34,求R2,并结合残差说明拟合效果.
【导学号:95032253】
[解] 列表求值如下:
xi
5
10
15
20
25
30
yi
7.25
8.12
8.95
9.90
10.9
11.8
xiyi
36.25
81.2
134.25
198
272.5
354
x
25
100
225
400
625
900
yi-i
0.01
-0.02
-0.09
-0.04
0.06
0.06
yi-
-2.24
-1.37
-0.54
0.41
1.41
2.31
=17.5,≈9.49,iyi=1 076.2,=2 275,(yi-i)2=0.017 4,(yi-)2=14.678 4.
∴R2=1-≈0.998 81,回归模型拟合效果较好.由表中数据可以看出残差比较均匀地落在宽度不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高.
[规律方法] 在一元线性回归模型中,相关指标R2与相关系数r都能刻画线性回归模型拟合数据的效果.|r|越大,R2就越大,用线性回归模型拟合数据的效果就越好.
[跟踪训练]
2.关于x与y有以下数据:
x
2
4
5
6
8
y
30
40
60
50
70
已知x与y线性相关,由最小二乘法得=6.5,
(1)求y与x的线性回归方程;
(2)现有第二个线性模型:=7x+17,且R2=0.82.
若与(1)的线性模型比较,哪一个线性模型拟合效果比较好,请说明理由.
[解] (1)依题意设y与x的线性回归方程为=6.5x+.
==5,
==50,
∴=6.5x+经过(,),
∴50=6.5×5+,∴=17.5,
∴y与x的线性回归方程为=6.5x+17.5.
(2)由(1)的线性模型得yi-i与yi-的关系如下表:
yi-i
-0.5
-3.5
10
-6.5
0.5
yi-
-20
-10
10
0
20
所以(yi-i)2=(-0.5)2+(-3.5)2+(-10)2+(-6.5)2+0.52=155.
(yi-)2=(-20)2+(-10)2+102+02+202=1 000.
所以R=1-=1-=0.845.
由于R=0.845,R2=0.82知R>R2,
所以(1)的线性模型拟合效果比较好.
独立性检验
独立性检验是判断两个分类变量之间是否有关系的一种方法.在判断两个分类变量之间是否有关系时,作出等高条形图只能近似地判断两个分类变量是否有关系,而独立性检验可以精确地得到可靠的结论.
 为了调查胃病是否与生活规律有关,在某地对540名40岁以上的人进行了调查,结果是:患胃病者生活不规律的共60人,患胃病者生活规律的共20人,未患胃病者生活不规律的共260人,未患胃病者生活规律的共200人.
(1)根据以上数据列出2×2列联表;
(2)判断40岁以上的人患胃病与生活规律是否有关.
【导学号:95032254】
[思路探究] (1)解决本题关键是首先弄清问题中的两个分类变量及其取值分别是什么,其次掌握2×2列联表的结构特征.
(2)利用2×2列联表计算K2的观测值,再结合临界值表来分析相关性的大小.
[解] (1)由已知可列2×2列联表如下:
患胃病
未患胃病
总计
生活规律
20
200
220
生活不规律
60
260
320
总计
80
460
540
(2)根据列联表得K2的观测值为
k=≈9.638.
因为9.638>7.879,
因此,我们在犯错误的概率不超过0.005的前提下认为40岁以上的人患胃病和生活规律有关.
[规律方法] 独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表.
(2)根据公式计算K2的观测值k.
(3)比较k与临界值的大小关系作统计推断.
[跟踪训练]
3.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行问卷调查得到了如下的列联表:
喜爱打篮球
不喜爱打篮球
总计
男生
5
女生
10
总计
50
已知在全部50人中随机抽取1人抽到喜爱打篮球的学生的概率为0.6.
(1)请将上面的列联表补充完整(不用写计算过程);
(2)能否有99%的把握认为喜爱打篮球与性别有关?说明你的理由.
(参考公式:K2=,
其中n=a+b+c+d)
[解] (1)依题意可知喜爱打篮球的学生的人数为50×0.6=30.
列联表补充如下:
喜爱打篮球
不喜爱打篮球
总计
男生
20
5
25
女生
10
15
25
总计
30
20
50
(2)因为k=≈8.333>6.635,所以,有99%的把握认为喜爱打篮球与性别有关.