2018年秋高中数学新人教A版选修1_2第1章统计案例学案(3份)

文档属性

名称 2018年秋高中数学新人教A版选修1_2第1章统计案例学案(3份)
格式 zip
文件大小 429.5KB
资源类型 教案
版本资源 人教新课标A版
科目 数学
更新时间 2018-10-12 15:16:28

文档简介

1.1 回归分析的基本思想及其初步应用
学习目标:1.了解随机误差、残差、残差图的概念.(重点)2.会通过分析残差判断线性回归模型的拟合效果.(重点)3.了解常见的非线性回归模型转化为线性回归模型的方法.(难点)
[自 主 预 习·探 新 知]
1.回归分析的相关概念
(1)回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)回归直线方程
方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定参数,其最小二乘估计分别为:
其中=i,=i,(,)称为样本点的中心.
(3)线性回归模型
样本点散布在某一条直线的附近,而不是在一条直线上,所以不能用一次函数y=bx+a来描述它们之间的关系,而是用线性回归模型y=bx+a+e来表示,其中a和b为模型的未知参数,e称为随机误差,自变量x称为解释变量,因变量y称为预报变量.
思考:在线性回归模型y=bx+a+e中,e产生的原因主要有哪几种?
[提示]随机误差产生的原因主要有以下几种:
(1)所用的确定性函数不恰当引起的误差;
(2)忽略了某些因素的影响;
(3)存在观测误差.
2.残差的概念
对于样本点(x1,y1),(x2,y2),…,(xn,yn)而言,它们的随机误差为ei=yi-bxi-a,i=1,2,…,n,其估计值为i=yi-i=yi-xi-,i=1,2,…,n,i称为相应于点(xi,yi)的残差.
3.刻画回归效果的方式
残差图
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图
残差图法
残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高
残差平方和
残差平方和为(yi-i)2,残差平方和越小,模型的拟合效果越好
相关指数R2
R2=1-,R2表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示模型的拟合效果越好
[基础自测]
1.思考辨析
(1)相关指数R2越小,线性回归方程的拟合效果越好. (  )
(2)在线性回归模型中,e是bx+a预报真实值y的随机误差,它是一个可观测的量. (  )
(3)线性回归方程=x+必过样本点的中心(,). (  )
[答案] (1)× (2)× (3)√
2.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R2分别如下表:




R2
0.98
0.78
0.50
0.85
建立回归模型拟合效果最好的同学是(  )
【导学号:48662000】
A.甲          B.乙
C.丙 D.丁
A [相关指数R2越大,表示回归模型的拟合效果越好.]
3.甲、乙、丙、丁4位同学各自对A、B两变量做回归分析,分别得到散点图与残差平方和(yi-i)2如表所示:




散点图
残差
平方和
115
106
124
103
________(填“甲”“乙”“丙”“丁”)同学的试验结果体现拟合A、B两变量关系的模型拟合精度高.
丁 [根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小(对于已经获取的样本数据,R2表达式中(yi-)2为确定的数,则残差平方和越小,R2越大),由回归分析建立的线性回归模型的拟合效果就越好,由试验结果知丁要好些.]
4.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系.根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中正确的是________(填序号).
【导学号:48662001】
(1)y与x具有正的线性相关关系;
(2)回归直线过样本点的中心(,);
(3)若该大学某女生身高增加1 cm,则其体重约增加0.85 kg;
(4)若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg.
(1)(2)(3) [回归方程中x的系数为0.85>0,因此y与x具有正的线性相关关系,(1)正确;
由回归方程系数的意义可知回归直线过样本点的中心(,),(2)正确;
依据回归方程中的含义可知,x每变化1个单位,相应变化约0.85个单位,(3)正确;
用回归方程对总体进行估计不能得到肯定结论,故(4)不正确.]
[合 作 探 究·攻 重 难]
求线性回归方程
 某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:
x
6
8
10
12
y
2
3
5
6
(1)请画出上表数据的散点图(要求:点要描粗);
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+;
(3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.
【导学号:48662002】
[解] (1)如图:
(2)iyi=6×2+8×3+10×5+12×6=158,
==9,==4,
=62+82+102+122=344,
===0.7,
=- =4-0.7×9=-2.3,
故线性回归方程为=0.7x-2.3.
(3)由(2)中线性回归方程当x=9时,=0.7×9-2.3=4,预测记忆力为9的同学的判断力约为4.
[规律方法] 求线性回归方程的基本步骤:
?1?列出散点图,从直观上分析数据间是否存在线性相关关系.
?2?计算:
?3?代入公式求出=x+中参数,的值.
?4?写出线性回归方程并对实际问题作出估计.
提醒:只有在散点图大致呈线性时,求出的回归方程才有实际意义,否则求出的回归方程毫无意义.
[跟踪训练]
1.某种产品的广告费用支出x与销售额y(单元:百万元)之间有如下的对应数据:
x/百万元
2
4
5
6
8
y/百万元
30
40
60
50
70
(1)画出散点图;
(2)求线性回归方程;
(3)试预测广告费用支出为10百万元时的销售额.
[解] (1)散点图如图所示:
(2)列出下表,并用科学计算器进行有关计算:
i
1
2
3
4
5
合计
xi
2
4
5
6
8
25
yi
30
40
60
50
70
250
xiyi
60
160
300
300
560
1 380
x
4
16
25
36
64
145
所以,==5,==50,=145,
iyi=1 380.
于是可得===6.5,
=- =50-6.5×5=17.5.
所以所求的线性回归方程为=6.5x+17.5.
(3)根据(2)中求得的线性回归方程,当广告费用支出为10百万元时,
=6.5×10+17.5=82.5(百万元),
即广告费用支出为10百万元时,销售额大约为82.5百万元.
线性回归分析
 为研究重量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:
x
5
10
15
20
25
30
y
7.25
8.12
8.95
9.90
10.9
11.8
(1)作出散点图并求线性回归方程;
(2)求出R2;
(3)进行残差分析.
【导学号:48662003】
[解] (1)散点图如图.
=(5+10+15+20+25+30)=17.5,
=(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,
=2 275,iyi=1 076.2,
计算得,≈0.183,≈6.285,
所求回归直线方程为=0.183x+6.285.
(2)列表如下:
yi-i
0.05
0.005
-0.08
-0.045
0.04
0.025
yi-
-2.24
-1.37
-0.54
0.41
1.41
2.31
所以(yi-i)2≈0.013 18,(yi-)2=14.678 4.
所以,R2=1-≈0.999 1,
回归模型的拟合效果较好.
(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与拉力成线性关系.
[规律方法] “相关指数R2、残差图”在回归分析中的作用
1.相关指数R2是用来刻画回归效果的,由R2=1-可知,R2越大,意味着残差平方和越小,也就是说模型的拟合效果就越好.
2.残差图也是用来刻画回归效果的,判断依据是残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合精度越高,回归方程预报的精度也越高.
[跟踪训练]
2.关于x与y有如下数据:
x
2
4
5
6
8
y
30
40
60
50
70
有如下的两个线性模型:(1)=6.5x+17.5;(2)=7x+17.试比较哪一个拟合效果更好.
[解] 由(1)可得yi-i与yi-的关系如下表:
yi-i
-0.5
-3.5
10
-6.5
0.5
yi-
-20
-10
10
0
20
∴(yi-i)2=(-0.5)2+(-3.5)2+102+(-6.5)2+0.52=155,
(yi-)2=(-20)2+(-10)2+102+02+202=1 000.
∴R=1-=1-=0.845.
由(2)可得yi-i与yi-的关系如下表:
yi-i
-1
-5
8
-9
-3
yi-
-20
-10
10
0
20
∴(yi-i)2=(-1)2+(-5)2+82+(-9)2+(-3)2=180,
(yi-)2=(-20)2+(-10)2+102+02+202=1 000.
∴R=1-=1-=0.82,
由于R=0.845,R=0.82,0.845>0.82,∴R>R.
∴(1)的拟合效果好于(2)的拟合效果.
非线性回归分析
[探究问题]
1.已知x和y之间的一组数据,则下列四个函数中,模拟效果最好的为哪一个?
x
1
2
3
y
3
5.99
12.01
①y=3×2x-1; ②y=log2x;
③y=4x; ④y=x2.
提示:观察散点图中样本点的分布规律可判断样本点分布在曲线y=3×2x-1附近.所以模拟效果最好的为①.
2.如何将上题函数变换为线性函数?
提示:将y=3×2x-1两边取自然对数得ln y=ln 3+(x-1)ln 2.
令则原方程变为y′=ln 3+x′ln 2-ln 2=ln +x′ln 2.这样y′与x′成线性函数关系.
 为了研究某种细菌随时间x变化,繁殖的个数,收集数据如下:
天数x/天
1
2
3
4
5
6
繁殖个数y/个
6
12
25
49
95
190
(1)用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图,根据散点图判断:y=a+bx与y=c1ec2x哪一个作为繁殖的个数y关于时间x变化的回归方程类型为最佳?(给出判断即可,不必说明理由)
(xi-)2
(xi-)·
(yi-)
(xi-)·
(zi-)
3.5
62.83
3.53
17.5
596.505
12.09
其中zi=ln yi;=i.
(2)根据(1)的判断最佳结果及表中的数据,建立y关于x的回归方程.
【导学号:48662004】
参考公式:=,=-.
思路探究:(1)根据收集数据,可得数据的散点图;
(2)由散点图看出样本点分布在一条指数型曲线y=cebx(c>0)的周围,则ln y=bx+ln c.变换后的样本点分布在一条直线附近,因此可以用线性回归方程来拟合,即可求出y对x的回归方程.
[解] (1)作出散点图,如图1所示.
图1            图2
由散点图看出样本点分布在一条指数函数y=c1ec2x的周围,于是选择y=c1ec2x.
(2)令z=ln y,则z=bx+a.
x
1
2
3
4
5
6
z
1.79
2.48
3.22
3.89
4.55
5.25
相应的散点图如图2.
从图2可以看出,变换后的样本点分布在一条直线附近,因此可以用线性回归方程来拟合.
由=≈0.69,
=-=1.115,得z=0.69x+1.115;
则有=e0.69x+1.115.
母题探究:1.(变结论)在本例条件不变的情况下,试估计第7天细菌繁殖个数.
[解] ∵=e0.69x+1.115,
∴当x=7时,≈382(个)
即第7天细菌繁殖个数约为382个.
2.(变结论)计算相关指数.
[解] 残差计算如下表:
天数
1
2
3
4
5
6
残差
0.08
0.12
-0.83
-0.82
1.06
1.52
即解释变量“天数”对预报变量“繁殖细菌个数”解释了99.98%.
[规律方法] 解决非线性回归问题的方法及步骤
?1?确定变量:确定解释变量为x,预报变量为y;
?2?画散点图:通过观察散点图并与学过的函数?幂、指数、对数函数、二次函数?作比较,选取拟合效果好的函数模型;
?3?变量置换:通过变量置换把非线性回归问题转化为线性回归问题;
?4?分析拟合效果:通过计算相关指数等来判断拟合效果;
?5?写出非线性回归方程.
[当 堂 达 标·固 双 基]
1.下表是x和y之间的一组数据,则y关于x的线性回归方程必过点(  )
【导学号:48662005】
x
1
2
3
4
y
1
3
5
7
A.(2,3)       B.(1.5,4)
C.(2.5,4) D.(2.5,5)
C [线性回归方程必过样本点的中心(,),即(2.5,4),故选C.]
2.对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是(  )
A       B
C       D
A [用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.]
3.若一组观测值(x1,y1),(x2,y2),…,(xn,yn)之间满足yi=bxi+a+ei(i=1,2,…,n),且ei恒为0,则R2为________.
1 [∵ei恒为0,∴样本点(x1,y1),(x2,y2),…,(xn,yn)均落在直线y=bx+a上,
∴变量x,y成函数关系,即R2=1.]
4.已知回归方程=2x+1,而试验得到一组数据是(2,4.9),(3,7.1),(4,9.1),则残差平方和等于________.
0.03 [(4.9-5)2+(7.1-7)2+(9.1-9)2=0.03.]
5.已知x,y之间的一组数据如下表:
x
0
1
2
3
y
1
3
5
7
(1)分别计算:、、x1y1+x2y2+x3y3+x4y4、x+x+x+x;
【导学号:48662006】
(2)已知变量x与y线性相关,求出回归方程.
[解] (1)==1.5,==4,
x1y1+x2y2+x3y3+x4y4=0×1+1×3+2×5+3×7=34,
x+x+x+x=02+12+22+32=14.
(2)==2,
=-=4-2×1.5=1,
故=2x+1.
1.2 独立性检验的基本思想及其初步应用
学习目标:1.理解独立性检验的基本思想及其实施步骤.(重点)2.能利用条形图、列联表探讨两个分类变量的关系.(易混点)3.了解K2的含义及其应用.(重点)4.通过对数据的处理,来提高解决实际问题的能力.(难点)
[自 主 预 习·探 新 知]
1.分类变量及2×2列联表
(1)分类变量
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表
①定义:列出的两个分类变量的频数表,称为列联表.
②2×2列联表:一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
2.等高条形图
(1)与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.
(2)观察等高条形图发现和相差很大,就判断两个分类变量之间有关系.
3.独立性检验
(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
(2)K2=,其中n=a+b+c+d.
(3)独立性检验的具体做法
①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.
②利用公式计算随机变量K2的观测值k.
③如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.
思考:有人说:“我们有99%的把握认为吸烟和患肺癌有关,是指每100个吸烟者中就会有99个患肺癌的.”你认为这种观点正确吗?为什么?
[提示]观点不正确.99%的把握说明的是吸烟与患肺癌有关的程度,不是患肺癌的百分数.
[基础自测]
1.思考辨析
(1)在独立性检验中,若K2越大,则两个分类变量有关系的可能性越大.
(  )
(2)2×2列联表是借助两个分类变量之间频率大小差异说明两个变量之间是否有关联关系. (  )
(3)应用独立性检验的基本思想对两个变量间的关系作出的推断一定是正确的. (  )
[答案] (1)√ (2)√ (3)×
2.下列变量中不属于分类变量的是(  )
【导学号:48662013】
A.性别 B.吸烟
C.宗教信仰 D.国籍
B [“吸烟”不是分类变量,“是否吸烟”才是分类变量.故选B.]
3.下面是一个2×2列联表:
y1
y2
总计
x1
a
21
73
x2
8
25
33
总计
b
46
则表中a,b处的值分别为________.
52,60 [∵a+21=73,∴a=52.
b=a+8=52+8=60.]
4.根据下表计算:
不看电视
看电视

37
85

35
143
K2的观测值k≈________(保留3位小数).
【导学号:48662014】
4.514 [k=≈4.514.]
[合 作 探 究·攻 重 难]
用2×2列联表分析两变量间的关系
 在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用与判断二者是否有关系.
[解] 2×2列联表如下:
年龄在六十岁以上
年龄在六十岁以下
总计
饮食以蔬菜为主
43
21
64
饮食以肉类为主
27
33
60
总计
70
54
124
将表中数据代入公式得==0.671 875.
==0.45.
显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关系.
[规律方法] 1.作2×2列联表时,关键是对涉及的变量分清类别.注意应该是4行4列,计算时要准确无误.
2.利用2×2列联表分析两变量间的关系时,首先要根据题中数据获得2×2列联表,然后根据频率特征,即将与的值相比,直观地反映出两个分类变量间是否相互影响,但方法较粗劣.
[跟踪训练]
1.假设有两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为:
y1
y2
x1
10
18
x2
m
26
则当m取下面何值时,X与Y的关系最弱(  )
A.8        B.9
C.14 D.19
C [由10×26≈18m,解得m≈14.4,所以当m=14时,X与Y的关系最弱.]
用等高条形图分析两变量间的关系
 为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:
组别
阳性数
阴性数
总计
铅中毒病人
29
7
36
对照组
9
28
37
总计
38
35
73
试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?
【导学号:48662015】
[解] 等高条形图如图所示:
其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.
由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.
[规律方法] 利用等高条形图判断两个分类变量是否相关的步骤:
[跟踪训练]
2.为考察某种药物预防疾病的效果,进行动物试验,得到如下的列联表:
药物效果试验列联表
患病
未患病
总计
服用药
10
45
55
没有服用药
20
30
50
总计
30
75
105
试用图形判断服用药与患病之间是否有关系?
[解] 相应的等高条形图如下:
从图形可以看出,服用药的样本中患病的比例明显低于没有服用药的样本中患病的比例,因此可以认为:服用药和患病之间有关系.
用K2进行独立性检验
[探究问题]
1.在K2运算后,得到K2的值为29.78,在判断变量相关时,P(K2≥6.635)≈0.01和P(K2≥7.879)≈0.005,哪种说法是正确的?
提示:两种说法均正确.P(K2≥6.635)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两个变量相关;而P(K2≥7.879)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两个变量相关.
2.你能说一下用K2进行独立性检验的依据吗?
提示:独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量K2的值,如果K2值很大,说明假设不合理.K2越大,两个分类变量有关系的可能性越大.
 随着生活水平的提高,人们的休闲方式也发生了变化.某机构随机调查了n个人,其中男性占调查人数的.已知男性中有一半的人的休闲方式是运动,而女性中只有的人的休闲方式是运动.
(1)完成下列2×2列联表:
运动
非运动
总计
男生
女生
总计
n
(2)若在犯错误的概率不超过0.05的前提下,可认为“性别与休闲方式有关”,那么本次被调查的人数至少有多少?
【导学号:48662016】
思路探究:(1)依据2×2列联表的定义填表;
(2)计算K2,利用临界值建立不等关系,求n的值.
[解] (1)补全2×2列联表如下:
运动
非运动
总计
男性
n
n
n
女性
n
n
n
总计
n
n
n
(2)若在犯错误的概率不超过0.05的前提下,可认为“性别与休闲方式有关”,则P(K2≥k0)=3.841.
由于K2的观测值k==,
故≥3.841,即n≥138.276.
又由n∈Z,故n≥140.
故若在犯错误的概率不超过0.05的前提下,可认为“性别与休闲方式有关”,那么本次被调查的至少有140人.
母题探究:1.(变结论)根据(2)的结论,本次被调查的人中,至少有多少人的休闲方式是运动?
[解] 根据(2)的结论,本次被调查的人中,至少有×140=56(人)的休闲方式是运动.
2.(变条件)若增加条件n=100,问能否在犯错误不超过0.1的前提下,可认为“性别与休闲方式有关”?
[解] 由(2)可知,当n=100时,K2的观测值k=≈2.78>2.706.故在犯错误不超过0.1的前提下,我们可以认为性别与休闲方式有关.
[规律方法] 解决一般的独立性检验问题的步骤
[当 堂 达 标·固 双 基]
1.某科研机构为了研究中年人秃发与心脏病是否有关,随机调查了一些中年人的情况,具体数据如表:
心脏病
无心脏病
秃发
20
300
不秃发
5
450
根据表中数据得到k=≈15.968,因为k>6.635,则断定秃发与心脏病有关系,那么这种判断出错的可能性为(  )
A.0.1         B.0.05
C.0.025 D.0.01
D [∵P(k>6.635)=0.01,故选D.]
2.在一项中学生近视情况的调查中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力(  )
【导学号:48662017】
A.平均数与方差   B.回归分析
C.独立性检验 D.概率
C [判断两个分类变量是否有关的最有效方法是进行独立性检验,故选C.]
3.在研究打鼾与患心脏病之间的关系中,通过收集数据、整理分析数据得到“打鼾与患心脏病有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的.下列说法中正确的是(  )
A.100个心脏病患者中至少有99人打鼾
B.1个人患心脏病,则这个人有99%的概率打鼾
C.100个心脏病患者中一定有打鼾的人
D.100个心脏病患者中可能一个打鼾的人都没有
D [这是独立性检验,在犯错误的概率不超过0.01的前提下认为“打鼾与患心脏病有关”.这只是一个概率,即打鼾与患心脏病有关的可能性为99%.根据概率的意义可知答案应选D.]
4.观察下列各图,其中两个分类变量x,y之间关系最强的是________.
图1-2-1
(4) [在四幅图中图(4)中两个深色条的高相差最明显,说明两个分类变量之间关系最强,故选(4).]
5.某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:
喜欢甜品
不喜欢甜品
总计
南方学生
60
20
80
北方学生
10
10
20
总计
70
30
100
根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
【导学号:48662018】
[解] 将2×2列联表中的数据代入公式计算,得
k=
==≈4.762.
因为4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
第一课 统计案例
[核心速填]
1.线性回归方程
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),回归直线y=bx+a的斜率和截距的最小二乘估计公式分别为==,=-,其中(,)称为样本点的
中心.
2.线性回归模型为y=bx+a+e,其中e为随机误差.
3.残差i=yi-i.
4.刻画回归效果的方法
(1)残差平方和法
残差平方和(yi-)2越小,模型拟合效果越好.
(2)残差图法
残差图形成的带状区域的宽度越窄,模型拟合效果越好.
(3)相关指数R2法
R2越接近1,模型拟合效果越好.
5.K2公式
K2=,其中n=a+b+c+d.
[题型探究]
线性回归分析
 某城市理论预测2014年到2018年人口总数与年份的关系如表所示:
年份201x(年)
0
1
2
3
4
人口数y(十万)
5
7
8
11
19
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,求出y关于x的线性回归方程=x+;
(3)据此估计2022年该市人口总数.
【导学号:48662025】
[解] (1)散点图如图:
(2)因为==2,
==10,
0×5+1×7+2×8+3×11+4×19=132,
02+12+22+32+42=30,
所以==3.2,
=-=3.6.
所以线性回归方程为=3.2x+3.6.
(3)令x=8,则=3.2×8+3.6=29.2,
故估计2020年该城市人口总数为29.2(十万).
[规律方法] 解决回归分析问题的一般步骤
(1)画散点图.根据已知数据画出散点图.
(2)判断变量的相关性并求回归方程.通过观察散点图,直观感知两个变量是否具有相关关系;在此基础上,利用最小二乘法求回归系数,然后写出回归方程.
(3)回归分析.画残差图或计算R2,进行残差分析.
(4)实际应用.依据求得的回归方程解决实际问题.
[跟踪训练]
1.在一段时间内,某种商品的价格x元和需求量y件之间的一组数据为:
x(元)
14
16
18
20
22
y(件)
12
10
7
5
3
且知x与y具有线性相关关系,求出y关于x的线性回归方程,并说明拟合效果的好坏.
[解] =×(14+16+18+20+22)=18,
=×(12+10+7+5+3)=7.4,
=142+162+182+202+222=1 660,
=122+102+72+52+32=327,
iyi=14×12+16×10+18×7+20×5+22×3=620,
所以===-1.15,
所以=7.4+1.15×18=28.1,
所以y对x的线性回归方程为=-1.15x+28.1,
列出残差表为
yi-i
0
0.3
-0.4
-0.1
0.2
yi-
4.6
2.6
-0.4
-2.4
-4.4
所以(yi-i)2=0.3,
(yi-)2=53.2,
R2=1-≈0.994.
所以R2≈0.994,拟合效果较好.
独立性检验
 户外运动已经成为一种时尚运动,某单位为了了解员工喜欢户外运动是否与性别有关,决定从本单位全体650人中采用分层抽样的办法抽取50人进行问卷调查,得到了如下列联表:
喜欢户外运动
不喜欢户外运动
总计
男性
5
女性
10
总计
50
已知在这50人中随机抽取1人抽到喜欢户外运动的员工的概率是.
(1)请将上面的列联表补充完整;
(2)求该公司男、女员工各多少人;
(3)在犯错误的概率不超过0.005的前提下能否认为喜欢户外运动与性别有关?并说明你的理由.
下面的临界值表仅供参考:
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
(参考公式:K2=,其中
n=a+b+c+d)
【导学号:48662026】
[解] (1)因为在全部50人中随机抽取1人抽到喜欢户外运动的员工的概率是,
所以喜欢户外运动的男女员工共30人,其中男员工20人,列联表补充如下:
喜欢户外运动
不喜欢户外运动
总计
男性
20
5
25
女性
10
15
25
总计
30
20
50
(2)该公司男员工人数为25÷50×650=325(人),则女员工有325人.
(3)K2的观测值k=≈8.333>7.879,所以在犯错误的概率不超过0.005的前提下认为喜欢户外运动与性别有关.
[规律方法] 独立性检验问题的求解策略
(1)等高条形图法:依据题目信息画出等高条形图,依据频率差异来粗略地判断两个变量的相关性.
(2)K2统计量法:通过公式
先计算观测值k,再与临界值表作比较,最后得出结论.
[跟踪训练]
2.研究人员选取170名青年男女大学生的样本,对他们进行一种心理测验.发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定的有22名,否定的有38名;男生110名在相同的项目上作肯定的有22名,否定的有88名.问:性别与态度之间是否存在某种关系?分别用条形图和独立性检验的方法判断.
[解] 建立性别与态度的2×2列联表如下:
肯定
否定
总计
男生
22
88
110
女生
22
38
60
总计
44
126
170
根据列联表中所给的数据,可求出男生中作肯定态度的频率为=0.2,女生中作肯定态度的频率为≈0.37.作等高条形图如图,其中两个深色条形的高分别表示男生和女生中作肯定态度的频率,比较图中深色条形的高可以发现,女生中作肯定态度的频率明显高于男生中作肯定态度的频率,因此可以认为性别与态度有关系.
根据列联表中的数据得到K2的观测值
k=≈5.622>5.024.
因此,在犯错误的概率不超过0.025的前提下认为性别和态度有关系.
转化与化归思想
 某种书每册的成本费y(元)与印刷册数x(千册)有关,经统计得到数据如下:
x
1
2
3
5
10
20
30
50
100
200
y
10.15
5.52
4.08
2.85
2.11
1.62
1.41
1.30
1.21
1.15
检验每册书的成本费y与印刷册数的倒数之间是否具有线性相关关系.如有,求出y对x的回归方程.
思路探究:令z=,使问题转化为z与y的关系,然后用回归分析的方法,求z与y的回归方程,进而得出x与y的回归方程.
[解] 把置换为z,则有z=,
从而z与y的数据为
z
1
0.5
0.333
0.2
0.1
0.05
0.033
0.02
0.01
0.005
y
10.15
5.52
4.08
2.85
2.11
1.62
1.41
1.30
1.21
1.15
可作出散点图(图略),从图可看出,变换后的样本点分布在一条直线的附近,因此可以用线性回归方程来拟合.
=×(1+0.5+0.333+0.2+0.1+0.05+0.033+0.02+0.01+0.005)=0.225 1,
=×(10.15+5.52+4.08+…+1.15)=3.14,
=12+0.52+0.3332+…+0.012+0.0052≈1.415,
iyi=1×10.15+0.5×5.52+…+0.005×1.15
=15.221 02,
所以=≈8.976,
=-=3.14-8.976×0.225 1≈1.120,
所以所求的z与y的回归方程为=8.976z+1.120.
又因为z=,所以=+1.120.
[规律方法] 非线性回归方程转化为线性回归问题求解步骤.
?1?确定变量,作出散点图.
?2?根据散点图,选择恰当的拟合函数.
?3?变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.
?4?分析拟合效果:通过计算相关指数或画残差图来判断拟合效果.
?5?根据相应的变换,写出非线性回归方程.
[跟踪训练]
3.在某化学试验中,测得如下表所示的6对数据,其中x(单位:min)表示化学反应进行的时间,y(单位:mg)表示未转化物质的质量.
x/min
1
2
3
4
5
6
y/mg
39.8
32.2
25.4
20.3
16.2
13.3
(1)设y与x之间具有关系y=cdx,试根据测量数据估计c和d的值(精确到0.001);
(2)估计化学反应进行到10 min时未转化物质的质量(精确到0.1).
【导学号:48662027】
[解] (1)在y=cdx两边取自然对数,令ln y=z,ln c=a,lnd=b,则z=a+bx.由已知数据,得
x
1
2
3
4
5
6
y
39.8
32.2
25.4
20.3
16.2
13.3
z
3.684
3.472
3.235
3.011
2.785
2.588
由公式得≈3.905 5,≈-0.221 9,则线性回归方程为=3.905 5-0.221 9x.而ln c=3.905 5,lnD=-0.221 9,
故c≈49.675,d≈0.801,
所以c,d的估计值分别为49.675和0.801.
(2)当x=10时,由(1)所得公式可得y≈5.4(mg).
所以,化学反应进行到10 min时未转化物质的质量约为5.4 mg.