2017_2018版高中数学第三章统计案例学案(打包5套)北师大版选修2_3

文档属性

名称 2017_2018版高中数学第三章统计案例学案(打包5套)北师大版选修2_3
格式 zip
文件大小 863.4KB
资源类型 教案
版本资源 北师大版
科目 数学
更新时间 2018-02-26 16:09:13

文档简介

1.1 回归分析 1.2 相关系数
学习目标 1.会建立线性回归模型分析两个变量间的相关关系.2.能通过相关系数判断两个变量间的线性相关程度.3.掌握建立线性回归模型的步骤.www.21-cn-jy.com
知识点一 线性回归方程
思考 (1)什么叫回归分析?
(2)回归分析中,利用线性回归方程求出的函数值一定是真实值吗?
 
梳理 (1)平均值的符号表示
假设样本点为(x1,y1),(x2,y2),…,(xn,yn),在统计上,用表示一组数据x1,x2,…,xn的平均值,即=______=________;用表示一组数据y1,y2,…,yn的平均值,即=______________=______________.21教育名师原创作品
(2)参数a,b的求法
b==____________=____________,a=________.
知识点二 相关系数
思考1 给出n对数据,按照公式求出的线性回归方程,是否一定能反映这n对数据的变化规律?
 
思考2 怎样通过相关系数刻画变量之间的线性相关关系?
 
 
梳理 (1)相关系数r的计算公式
r= .
(2)相关系数r的取值范围是________,|r|值越大,变量之间的线性相关程度越高;|r|值越接近0,变量之间的线性相关程度越低.21教育网
(3)当r>0时,b________0,称两个变量正相关;
当r<0时,b________0,称两个变量负相关;
当r=0时,称两个变量线性不相关.
类型一 概念的理解和判断
例1 有下列说法:
①线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的数学方法;
②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;
③通过回归方程y=bx+a可以估计观测变量的取值和变化趋势;
④因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.
其中正确命题的个数是(  )
A.1 B.2 C.3 D.4
跟踪训练1 下列关系中,是相关关系的是________.(填序号)
①正方形的边长与面积之间的关系;
②农作物的产量与施肥量之间的关系;
③人的身高与年龄之间的关系;
④降雪量与交通事故的发生率之间的关系.
类型二 回归分析
命题角度1 求线性回归方程
例2 某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:
x
6
8
10
12
y
2
3
5
6
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y=bx+a;
(3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.
 
 
 
 
 
跟踪训练2 某个服装店经营某种服装,在某周内纯获利y(元)与该周每天销售这种服装件数x之间的一组数据如下表:21世纪教育网版权所有
x
3
4
5
6
7
8
9
y
66
69
73
81
89
90
91
(1)求样本点的中心;(2)画出散点图;(3)求纯获利y与每天销售件数x之间的回归方程.
 
 
 
 
 
命题角度2 线性回归分析与回归模型构建
例3 某商场经营一批进价是30元/台的小商品,在市场试验中发现,此商品的销售单价x(x取整数)(元)与日销售量y(台)之间有如下关系:21·cn·jy·com
x
35
40
45
50
y
56
41
28
11
(1)画出散点图,并判断y与x是否具有线性相关关系;
(2)求日销售量y对销售单价x的线性回归方程;
(3)设经营此商品的日销售利润为P元,根据(2)写出P关于x的函数关系式,并预测当销售单价x为多少元时,才能获得最大日销售利润.【来源:21·世纪·教育·网】
 
 
跟踪训练3 某电脑公司有5名产品推销员,其工作年限与年推销金额数据如下表:
推销员编号
1
2
3
4
5
工作年限x/年
3
5
6
7
9
推销金额y/万元
2
3
3
4
5
(1)求年推销金额y对工作年限x的线性回归方程;
(2)若第6名推销员的工作年限为11年,试估计他的年推销金额.
 
 
类型三 相关系数的计算与应用
例4 现随机抽取了某中学高一10名在校学生,他们入学时的数学成绩(x)与入学后第一次考试的数学成绩(y)如下:21·世纪*教育网
学生号
1
2
3
4
5
6
7
8
9
10
x
120
108
117
104
103
110
104
105
99
108
y
84
64
84
68
69
68
69
46
57
71
请问:这10名学生的两次数学成绩是否具有线性相关关系?
 
 
 
跟踪训练4 下面的数据是从年龄在40岁到60岁的男子中随机抽出的6个样本,分别测定了心脏的功能水平y(满分100),以及每天花在看电视上的平均时间x(小时).
看电视的平均时间x
4.4
4.6
2.7
5.8
0.2
4.6
心脏功能水平y
52
53
69
57
89
65
(1)求心脏功能水平y与每天花在看电视上的平均时间x之间的样本相关系数r;
(2)求心脏功能水平y与每天花在看电视上的平均时间x的线性回归方程,并讨论方程是否有意义;
(3)估计平均每天看电视3小时的男子的心脏功能水平.
 
 
 
 
1.下表提供了某厂节能降耗技术改造后在生产A产品过程中记录的产量x(t)与相应的生产能耗y(t)的几组对应数据:www-2-1-cnjy-com
x
3
4
5
6
y
2.5
t
4
4.5
根据上表提供的数据,求出y关于x的线性回归方程为y=0.7x+0.35,那么表中t的值为(  )
A.3 B.3.15 C.3.5 D.4.5
2.下表是x和y之间的一组数据,则y关于x的回归直线必过点(  )
x
1
2
3
4
y
1
3
5
7
A.(2,3) B.(1.5,4) C.(2.5,4) D.(2.5,5)
3.一唱片公司欲知打歌费用x(十万元)与唱片销售量y(千张)之间的关系,从其所发行的唱片中随机抽取了10张,得如下的资料:i=28,=303.4,i=75,=598.5,iyi=237,则y与x的相关系数r的绝对值为________.2-1-c-n-j-y
4.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本.某白酒酿造企业市场部对该企业9月份的产品销量x(单位:千箱)与单位成本y(单位:元)的资料进行线性回归分析,结果如下:=,=71,=79,iyi=1 481.则销量每增加1 000箱,单位成本下降________元.【来源:21cnj*y.co*m】
5.已知x、y之间的一组数据如下表:
x
0
1
2
3
y
1
3
5
7
(1)分别计算:、、x1y1+x2y2+x3y3+x4y4、x+x+x+x;
(2)已知变量x与y线性相关,求出回归方程.
 
 
 
 
 
回归分析的步骤
(1)确定研究对象,明确哪个变量是自变量,哪个变量是因变量.
(2)画出确定好的自变量和因变量的散点图,观察它们之间的关系(如是否存在线性关系等).
(3)由经验确定回归方程的类型(如果呈线性关系,则选用线性回归方程y=bx+a).
(4)按一定规则估计回归方程中的参数.

答案精析
问题导学
知识点一
思考 (1)回归分析是对具有相关关系的两个变量进行统计分析的一种方法.
(2)不一定是真实值,利用线性回归方程求的值,在很多时候是个预报值,例如,人的体重与身高存在一定的线性关系,但体重除了受身高的影响外,还受其他因素的影响,如饮食、是否喜欢运动等.21cnjy.com
梳理 (1) i 
i (2)  -b
知识点二
思考1 如果数据散点图中的点都大致分布在一条直线附近,这条直线就能反映这n对数据的变化规律,否则求出的方程没有实际意义.【出处:21教育名师】
思考2 |r|值越接近1,变量之间的线性相关程度越高;|r|值越接近0,变量之间的线性相关程度越低;当r=0时,两个变量线性不相关.【版权所有:21教育】
梳理 (2)[-1,1] (3)> <
题型探究
例1 C
跟踪训练1 ②④
例2 解 (1)散点图如图.
(2)因为iyi=6×2+8×3+10×5+12×6=158,
==9,==4,
=62+82+102+122=344,
所以b===0.7,
a=-b=4-0.7×9=-2.3,
故线性回归方程为y=0.7x-2.3.
(3)由(2)中线性回归方程可知,当x=9时,y=0.7×9-2.3=4,所以预测记忆力为9的同学的判断力约为4.21*cnjy*com
跟踪训练2 解 (1)=6,≈79.86,样本点的中心为
(6,79.86).
(2)散点图如下:
(3)因为iyi=3 487,=280,
所以b=
=≈4.75.
a=-b≈51.36,
所以y=4.75x+51.36.
例3 解 (1)散点图如图所示,从图中可以看出这些点大致分布在一条直线附近,因此两个变量线性相关.
(2)因为=×(35+40+45+50)=42.5,
=×(56+41+28+11)=34.
iyi=35×56+40×41+45×28+50×11=5 410.
=352+402+452+502=7 350.
所以b==
=≈-3.
a=-b=34-(-3)×42.5=161.5.
所以线性回归方程为y=161.5-3x.
(3)依题意,有P=(161.5-3x)(x-30)
=-3x2+251.5x-4 845
=-3(x-)2+-4 845.
所以当x=≈42时,P有最大值,约为426元.即预测当销售单价为42元时,能获得最大日销售利润.
跟踪训练3 解 (1)设所求的线性回归方程为y=a+bx,
则b===0.5,a=-b=0.4.
∴年推销金额y对工作年限x的线性回归方程为
y=0.4+0.5x.
(2)当x=11时,y=0.4+0.5×11=5.9(万元),
∴可以估计第6名推销员的年推销金额为5.9万元.
例4 解 =(120+108+…+99+108)=107.8,
=(84+64+…+57+71)=68,
=1202+1082+…+992+1082=116 584,
=842+642+…+572+712=47 384,
iyi=120×84+108×64+…+99×57+108×71=73 796.
所以相关系数
r=≈0.750 6.
由此可看出这10名学生的两次数学成绩具有线性相关关系.
跟踪训练4 解 n=6,=(4.4+4.6+…+4.6)≈3.716 7,
=(52+53+…+65)≈64.166 7,
-62=(4.42+4.62+…+4.62)-6×3.716 72≈19.766 8,
-62=(522+532+…+652)-6×64.166 72≈964.807 7,
iyi-6 =(4.4×52+4.6×53+…+4.6×65)-6×3.716 7×64.166 7≈-124.630 2.2·1·c·n·j·y
(1)心脏功能水平y与每天花在看电视上的平均时间x之间的相关系数:
r=≈-0.902 5.
(2)b=≈-6.305 0,a=-b≈87.600 5,心脏功能水平y与每天花在看电视上的平均时间x的线性回归方程为y=87.600 5-6.305 0x.21*cnjy*com
由(1)知y与x之间有较强的线性关系,所以这个方程是有意义的.
(3)将x=3代入线性回归方程y=87.600 5-6.305 0x,可得y≈68.7,即平均每天看电视3小时,心脏功能水平约为68.7.
当堂训练
1.A 2.C
3.0.3 4.1.818 2
5.解 (1)==1.5,==4,
x1y1+x2y2+x3y3+x4y4=0×1+1×3+2×5+3×7=34,
x+x+x+x=02+12+22+32=14.
(2)b==2,
a=-b =4-2×1.5=1,
故线性回归方程为y=2x+1.
1.3 可线性化的回归分析
学习目标 1.理解回归分析的基本思想.2.通过可线性化的回归分析,判断几种不同模型的拟合程度.

知识点一 常见的可线性化的回归模型
幂函数曲线____________,指数曲线____________.
倒指数曲线____________,对数曲线____________.
知识点二 可线性化的回归分析
思考1 有些变量间的关系并不是线性相关关系,怎样确定回归模型?
 
思考2 如果两个变量呈现非线性相关关系,怎样求出回归方程?
 
梳理 在大量的实际问题中,所研究的两个变量不一定都呈线性相关关系,它们之间可能呈指数关系或对数关系等非线性关系.在某些情况下可以借助线性回归模型研究呈非线性关系的两个变量之间的关系.21世纪教育网版权所有
类型一 给定函数模型,求回归方程
例1 在彩色显影中,由经验可知:形成染料光学密度y与析出银的光学密度x由公式y=Ae (b<0)表示.现测得试验数据如下:21教育网
xi
0.05
0.06
0.25
0.31
0.07
0.10
yi
0.10
0.14
1.00
1.12
0.23
0.37
xi
0.38
0.43
0.14
0.20
0.47
yi
1.19
1.25
0.59
0.79
1.29
试求y对x的回归方程.
 
跟踪训练1 在试验中得到变量y与x的数据如下表:
x
0.066 7
0.038 8
0.033 3
0.027 3
0.022 5
y
39.4
42.9
41.0
43.1
49.2
由经验知,y与之间具有线性相关关系,试求y与x之间的回归曲线方程,当x0=0.038时,预测y0的值.21·cn·jy·com
 
 
 
 
类型二 选取函数模型,求回归方程
例2 下表所示是一组试验数据:
x
0.5
0.25
0.125
0.1
y
64
138
205
285
360
(1)作出散点图,并猜测y与x之间的关系;
(2)利用所得的函数模型,预测x=10时y的值.
 
 
 
 
反思与感悟 实际问题中非线性相关的函数模型的选取
(1)采集数据,画出散点图.
(2)根据散点图中点的分布状态,选取所有可能的函数类型.
(3)作变量代换,将函数转化为线性函数.
(4)作出线性相关的散点图,或计算线性相关系数r,通过比较选定函数模型.
(5)求回归直线方程,并检查.
(6)作出预报.
跟踪训练2 对两个变量x,y取得4组数据(1,1),(2,1.2),(3,1.3),(4,1.37),甲、乙、丙三人分别求得数学模型如下:www.21-cn-jy.com
甲 y=0.1x+1,
乙 y=-0.05x2+0.35x+0.7,
丙 y=-0.8·0.5x+1.4,试判断三人谁的数学模型更接近于客观实际.
 
 
 
1.指数曲线y=3e-2x的图像为图中的(  )
2.对于指数曲线y=aebx,令u=ln y,c=ln a,经过非线性化回归分析之后,可以转化成的形式为(  )2·1·c·n·j·y
A.u=c+bx B.u=b+cx
C.y=b+cx D.y=c+bx
3.在一次试验中,当变量x的取值分别为1,,,时,变量y的值分别为2,3,4,5,则y与的回归方程为(  )【来源:21·世纪·教育·网】
A.y=+1 B.y=+3
C.y=2x+1 D.y=x-1
4.某地今年上半年患某种传染病的人数y(人)与月份x(月)之间满足函数关系,模型为y=aebx,确定这个函数解析式为________________.21·世纪*教育网
月份x/月
1
2
3
4
5
6
人数y/人
52
61
68
74
78
83
1.对于具有非线性相关关系的两个变量,可以通过对变量进行变换,转化为线性回归问题去解决.
2.建立回归模型的步骤
(1)确定研究对象,明确变量关系.
(2)画出散点图,观察变量之间的关系.
(3)由经验确定回归方程的类型.
(4)按一定规则估计回归方程中的参数.

答案精析
问题导学
知识点一
y=axb y=aebx y=a y=a+bln x
知识点二
思考1 首先要作出散点图,如果散点图中的样本点并没有分布在某个带状区域内,则两个变量不呈现线性相关关系,不能直接利用线性回归方程来建立两个变量之间的关系.这时可以根据已有的函数知识,观察样本点是否呈指数函数关系或二次函数关系,选定适当的回归模型.www-2-1-cnjy-com
思考2 可以通过对解释变量进行变换,如对数变换或平方变换,先得到另外两个变量间的回归方程,再得到所求两个变量的回归方程.2-1-c-n-j-y
题型探究
例1 解 由题意知,对于给定的公式y=A(b<0)两边取自然对数,得ln y=ln A+,与线性回归方程相对照可以看出,只要取u=,v=ln y,a=ln A,就有v=a+bu.
这是v对u的线性回归方程,对此我们再套用相关性检验,求回归系数b和a.题目中所给的数据由变换u=,v=ln y,变为如下表所示的数据.21*cnjy*com
ui
20.000
16.667
4.000
3.226
14.286
10.000
vi
-2.303
-1.966
0
0.113
-1.470
-0.994
ui
2.632
2.326
7.143
5.000
2.128
vi
0.174
0.223
-0.528
-0.236
0.255
可求得b≈-0.146,a≈0.548,
∴v=0.548-0.146u.
把u和v转换回来,可得ln y=0.548-.
∴y==e0.548·≈1.73,
∴回归曲线方程为y=1.73.
跟踪训练1 解 令z=,则y=a+bz,由已知数据制成下表:
z=
14.992 5
25.773 2
30.030 0
36.630 0
44.444
y
39.4
42.9
41.0
43.1
49.2
计算得=30.373 9,=43.120 0,
ziyi=6 693.002 6,
z=5 107.859 8.
∴5 =6 548.612 8,52=4 612.869 0.
于是有b==
≈0.291 7.
∴a=-b≈34.26.
∴y与x之间的回归曲线方程是y=34.26+.
当x0=0.038时,y0≈41.94,即y0的值约为41.94.
例2 解 (1)散点图如图所示,从散点图可以看出y与x不具有线性相关关系.
根据已有知识发现样本点分布在函数y=+a的图像的周围,其中a,b为待定参数,令x′=,y′=y,由已知数据制成下表:21cnjy.com
序号i
x′i
y′i
x′
y′
x′iy′i
1
2
64
4
4 096
128
2
4
138
16
19 044
552
3
6
205
36
42 025
1 230
4
8
285
64
81 225
2 280
5
10
360
100
129 600
3 600

30
1 052
220
275 990
7 790
′=6,′=210.4,
故x′-5(′)2=40,
y′-5(′)2=54 649.2,
r=≈0.999 7,
由于r非常接近于1,
∴x′与y′具有很强的线性关系,计算知,
b≈36.95,a=210.4-36.95×6=-11.3,
∴y′=-11.3+36.95x′,
∴y对x的回归曲线方程为y=-11.3.
(2)当x=10时,y=-11.3=-7.605.
跟踪训练2 解 甲模型,当x=1时,y=1.1;当x=2时,y=1.2;
当x=3时,y=1.3;当x=4时,y=1.4.
乙模型,当x=1时,y=1;当x=2时,y=1.2;
当x=3时,y=1.3;当x=4时,y=1.3.
丙模型,当x=1时,y=1;当x=2时,y=1.2;
当x=3时,y=1.3;当x=4时,y=1.35.
观察4组数据并对照知,丙的数学模型更接近于客观实际.
当堂训练
1.B 2.A 3.A
4.y=e3.910 3+0.090 5x
解析 设u=ln y,c=ln a,得u=c+bx,
则u与x的数据关系如下表:
x
1
2
3
4
5
6
u=ln y
3.95
4.11
4.22
4.30
4.36
4.42
由上表,得xi=21,ui=25.36,
x=91,u=107.339,
xiui=90.35,
=3.5,=4.227,
∴b==≈0.090 5.
c=-b=4.227-0.090 5×3.5=3.910 3,
∴y=e3.910 3+0.090 5x
2 独立性检验
学习目标 1.理解2×2列联表,并会依据列联表判断两个变量是否独立.2.理解统计量χ2的意义和独立性检验的基本思想. 21世纪教育网版权所有
知识点一 2×2列联表
思考 某教育行政部门大力推行素质教育,增加了高中生的课外活动时间,某校调查了学生的课外活动方式,结果整理成下表:21cnjy.com
体育
文娱
合计
男生
210
230
440
女生
60
290
350
合计
270
520
790
如何判定“喜欢体育还是文娱与性别是否有联系”?
 
 
 
梳理 设A、B为两个变量,每一变量都可以取两个值,得到表格.
B1
B2
总计
A1
a
b
A2
c
d
总计
n=________
其中,a表示变量A取 ________,且变量B取 ________时的数据,b表示变量A取 ________,且变量B取 ________时的数据;c表示变量A取 ________,且变量B取 ________时的数据;d表示变量A取 ________,且变量B取 ________时的数据.上表在统计中称为2×2列联表.21·cn·jy·com
知识点二 统计量
χ2=________________________.
(其中n=a+b+c+d为样本容量)
知识点三 独立性检验
当χ2≤2.706时,没有充分的证据判定变量A,B________;
当χ2>2.706时,有__________的把握判定变量A,B有关联;
当χ2>3.841时,有__________的把握判定变量A,B有关联;
当χ2>6.635时,有__________的把握判定变量A,B有关联.
类型一 2×2列联表和统计量χ2
例1 某企业为了更好地了解设备改造与生产合格品的关系,随机抽取了180件产品进行分析,其中设备改造前生产的合格品有36件,不合格品有49件;设备改造后生产的合格品有65件,不合格品有30件,请根据数据,列出2×2列联表,并说明可以用本列表研究什么问题?www.21-cn-jy.com
 
 
 
 
反思与感悟 2×2列联表将文字语言转换为图表语言,使问题更为清晰,可为进一步研究问题作充分的准备.
跟踪训练1 已知药物效果与动物试验列联表如下所示:
患病
未患病
总计
服用药
10
45
55
未服药
20
30
50
总计
30
75
105
则χ2≈________.(结果保留3位小数)
类型二 独立性检验的方法
例2 研究人员选取170名青年男、女大学生作为样本,对他们进行一种心理测验,发现有60名女生对该心理测验中的最后一个题目的反应是:肯定的有22名,否定的有38名;男生110名在相同的题目上肯定的有22名,否定的有88名.问:性别与态度之间是否存在某种关系?用独立性检验的方法判断.2·1·c·n·j·y
 
 
 
 
 
反思与感悟 独立性检验可以通过2×2列联表计算χ2的值,然后和临界值对照作出判断.
跟踪训练2 为了研究人的性别与患色盲是否有关系,某研究所进行了随机调查,发现在调查的480名男性中有39名患有色盲,520名女性中有6名患有色盲,试问人的性别与患色盲有关系吗?【来源:21·世纪·教育·网】
 
 
 
 
1.当χ2>3.841时,认为事件A与事件B(  )
A.有95%的把握有关 B.有99%的把握有关
C.没有理由说它们有关 D.不确定
2.为了考察中学生的性别与是否喜欢数学课程之间的关系,在某校中学生中随机抽取了300名学生,得到如下列联表:21·世纪*教育网
喜欢数学
不喜欢数学
总计

37
85
122

35
143
178
合计
72
228
300
你认为性别与是否喜欢数学课程之间有关系的把握有(  )
A.0 B.95% C.99% D.100%
3.某大学在研究性别与职称(分正教授、副教授)之间是否有关系时,你认为应该收集哪些数据?
 
 
4.2014年世界杯期间,某一电视台对年龄高于40岁和不高于40岁的人是否喜欢西班牙队进行调查,对高于40岁的调查了50人,不高于40岁的调查了50人,所得数据制成如下列联表:www-2-1-cnjy-com
不喜欢西班牙队
喜欢西班牙队
总计
高于40岁
p
q
50
不高于40岁
15
35
50
总计
a
b
100
若工作人员从所有统计结果中任取一个,取到喜欢西班牙队的人的概率为,则有超过________的把握认为年龄与西班牙队的被喜欢程度有关.21教育网
5.某省进行高中新课程改革已经四年了,为了解教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.
(1)根据以上数据建立一个2×2列联表;
(2)判断是否有99%的把握说明对新课程教学模式的赞同情况与教师年龄有关系.
 
 
 
1.独立性检验的思想:先假设两个事件无关,计算统计量χ2的值.若χ2值较大,则拒绝假设,认为两个事件有关.2-1-c-n-j-y
2.独立性检验的步骤
(1)画列联表.
(2)计算χ2.
(3)将得到的χ2值和临界值比较,下结论.

答案精析
问题导学
知识点一
思考 可通过表格与图形进行直观分析,也可通过统计分析定量判断.
梳理 a+b c+d a+c b+d a+b+c+d A1 B1 A1 B2 A2 B1 A2 B2
知识点二
知识点三
有关联 90% 95% 99%
题型探究
例1 解 根据题意列出2×2列联表如下:
产品
设备   
合格
不合格
总计
设备改造前
36
49
85
设备改造后
65
30
95
总计
101
79
180
通过研究此2×2列联表可以研究设备改造对产品合格率是否有影响.
跟踪训练1 6.109
解析 χ2=≈6.109.
例2 解 根据题目所给数据建立如下2×2列联表:
肯定
否定
总计
男生
22
88
110
女生
22
38
60
总计
44
126
170
根据2×2列联表中的数据,得χ2=≈5.622>3.841,
所以有95%的把握认为性别与态度有关系.
跟踪训练2 解 由题意列出2×2列联表:
患色盲
未患色盲
总计
男性
39
441
480
女性
6
514
520
总计
45
955
1 000
由公式得χ2=≈28.225.
因为28.225>6.635,
所以有99%的把握认为人的性别与患色盲有关系.
当堂训练
1.A 2.B
3.女正教授人数、男正教授人数、女副教授人数、男副教授人数
4.95%
5.解 (1)2×2列联表如下所示:
赞同
不赞同
总计
老教师
10
10
20
青年教师
24
6
30
总计
34
16
50
(2)假设“对新课程教学模式的赞同情况与教师年龄无关”.
由公式,得χ2=≈4.963<6.635,
所以没有99%的把握认为对新课程教学模式的赞同情况与教师年龄有关.
第三章 统计案例
    1 回归分析与独立性检验的理解与加深
一、回归分析
1.线性回归方程y=bx+a,其中:
b==,a=-b.
(注:b=主要方便计算,其中(xi,yi)为样本数据,(,)为样本点的中心)
公式作用:通过刻画线性相关的两变量之间的关系,估计和分析数据的情况,解释一些实际问题,以及数据的变化趋势.
2.样本相关系数的具体计算公式:
r=

公式作用:反映两个变量之间线性相关关系的强弱.当r的绝对值接近1时,表明两个变量的线性相关性越强;当r的绝对值接近0时,表明两个变量之间几乎不存在线性相关关系.
公式联系:(1)由于分子与回归方程中的斜率b的分子一样(这也给出了公式的内在联系以及公式的记法),因此,当r>0时,两个变量正相关;当r<0时,两个变量负相关.
(2)常配合散点图判断两个随机变量是否线性相关.
散点图是从形上进行粗略地分析判断,这个判断是可行的、可靠的,也是进行线性回归分析的基础,否则回归方程失效;它形象直观地反映了数据点的分布情况.
相关系数r是从数上反映了两个随机变量是否具有线性相关关系,以及线性相关关系的强弱,它较精确地反映了数据点的分布情况,准确可靠.
二、独立性检验
(一)基础概念的梳理与理解
1.分类变量:对于宗教信仰来说,其取值为信宗教信仰与不信宗教信仰两种.像这样的变量的不同“值”表示个体所属的不同类别的变量称为分类变量.例如性别变量其取值为男和女两种,吸烟变量其取值为吸烟与不吸烟两种.
2.两个分类变量:是否吸烟与是否患肺癌,性别男和女与是否喜欢数学课程等等,这些关系是我们所关心的.
3.2×2列联表:列出的两个分类变量A和B,它们的取值分别为{A1,A2}和{B1,B2}的样本频数表称为2×2列联表(如表1).
表1
B1
B2
总计
A1
a
b
a+b
A2
c
d
c+d
总计
a+c
b+d
a+b+c+d
(二)独立性检验的基本思想
从理论上说明两类分类变量是否有关,请同学们从中体会其思想方法.
1.基本思想与图形的联系
假设两类分类变量是无关的,可知如下的比应差不多,即:≈?|ad-bc|=0.
构造随机变量χ2=(其中n=a+b+c+d)(此公式如何记忆,其特点是什么?结合2×2列联表理解)21*cnjy*com
显然所构造的随机变量与|ad-bc|的大小具有一致性.
2.独立性检验的思想方法
如果χ2的值较大,说明其发生(无关系)的概率很小,此时不接受假设,也就是两分类变量是有关系的(称小概率事件发生);如果χ2的值较小,此时接受假设,说明两分类变量是无关系的.其思想方法类似于数学上的反证法.
3.得到χ2的值常与以下几个临界值加以比较:
如果χ2>2.706,就有90%的把握认为两分类变量A和B有关系;如果χ2>3.841,就有95%的把握认为两分类变量A和B有关系;如果χ2>6.635,就有99%的把握认为两分类变量A和B有关系;如果χ2≤2.706,就认为没有充分的证据说明变量A和B有关系.
像这种利用随机变量χ2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.21教育网
2 回归分析题目击破
一、基本概念
函数关系是一种确定关系,而相关关系是一种非确定关系,回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.21cnjy.com
例1 下列变量之间的关系是相关关系的是________.
(1)正方形的边长与面积之间的关系;
(2)水稻产量与施肥量之间的关系;
(3)人的身高与年龄之间的关系;
(4)降雪量与交通事故发生率之间的关系.
分析 两变量之间的关系有两种:函数关系和带有随机性的相关关系.
解析 (1)是函数关系;(2)不是严格的函数关系,但是具有相关性,因而是相关关系;(3)既不是函数关系,也不是相关关系,因为人的年龄达到一定时期身高就不发生明显变化了,因而它们不具有相关关系;(4)降雪量与交通事故发生率之间具有相关关系.
答案 (2)(4)
点评 该例主要考查对变量相关关系概念的掌握.
二、线性回归方程
设x与y是具有相关关系的两个变量,且相应于n个观测值的n个点大致分布在一条直线的附近,这条直线就叫作回归直线.
例2 假设关于某设备的使用年限x(年)和所支出的维修费用y(万元)有如下的统计资料:
使用年限x
2
3
4
5
6
维修费用y
2.2
3.8
5.5
6.5
7.0
若由资料知y对x呈线性相关关系,试求:
(1)回归方程y=a+bx;
(2)估计使用年限10年时,维修费用是多少?
分析 因为y对x呈线性相关关系,所以可以用线性相关的方法解决问题.
解 (1)制表
i
1
2
3
4
5
合计
xi
2
3
4
5
6
20
yi
2.2
3.8
5.5
6.5
7.0
25
xiyi
4.4
11.4
22.0
32.5
42.0
112.3
x
4
9
16
25
36
90
=4,=5,x=90,xiyi=112.3
于是有b==1.23,
a=-b=5-1.23×4=0.08.
∴回归方程为y=1.23x+0.08.
(2)当x=10时,y=1.23×10+0.08=12.38,
即估计使用10年时维修费用约是12.38万元.
点评 已知y对x呈线性相关关系,无须进行相关性检验,否则,应首先进行相关性检验.
三、非线性回归问题
分析非线性回归问题的具体做法是:
(1)若问题中已给出经验公式,这时可以将解释变量进行变换(换元),将变量的非线性关系转化为线性关系,将问题化为线性回归分析问题来解决.
(2)若问题中没有给出经验公式,需要我们画出已知数据的散点图,通过与各种函数(如指数函数、对数函数、幂函数等)的图像作比较,选择一种与这些散点拟合得最好的函数,然后采用适当的变量变换,将问题化为线性回归分析问题来解决.
下面举例说明非线性回归分析问题的解法.
例3 某地区对本地的企业进行了一次抽样调查,表中是这次抽查中所得到的各企业的人均资本x(单位:万元)与人均产值y(单位:万元)的数据:
人均资本x/万元
3
4
5.5
6.5
7
8
9
10.5
11.5
14
人均产值y/万元
4.12
4.67
8.68
11.01
13.04
14.43
17.50
25.46
26.66
45.20
(1)设y与x之间具有近似关系y≈axb (a,b为常数),试根据表中数据估计a和b的值;
(2)估计企业人均资本为16万元时的人均产值(精确到0.01).
解 (1)在y≈axb的两边取常用对数,可得lg y≈lg a+blg x,设lg y=z,lg a=A,lg x=X,则z≈A+bX.2-1-c-n-j-y
相关数据计算如图所示.
人均资本x/万元
3
4
5.5
6.5
7
人均产出y/万元
4.12
4.67
8.68
11.01
13.04
X=lg x
0.477 12
0.602 06
0.740 36
0.812 91
0.845 1
z=lg y
0.614 9
0.669 32
0.938 52
1.041 79
1.115 28
人均资本x/万元
8
9
10.5
11.5
14
人均产出y/万元
14.43
17.5
25.46
26.66
45.2
X=lg x
0.903 09
0.954 24
1.021 19
1.060 7
1.146 13
z=lg y
1.159 27
1.243 04
1.405 86
1.425 86
1.655 14
由公式(1)可得
由lg a=-0.215 5,
得a≈0.608 8,
即a,b的估计值分别为0.608 8和1.567 7.
(2)由(1)知y=0.608 8x1.567 7.
样本数据及回归曲线的图形如图所示.
当x=16时,y=0.608 8×161.567 7≈47.01(万元),故当企业人均资本为16万元时,人均产值约为47.01万元.21·世纪*教育网
3 巧解非线性回归问题
如果题目所给样本点的分布不呈带状分布,即两个变量不呈线性关系,那么,就不能直接利用线性回归方程建立两个变量之间的关系,这时我们可以把散点图和已经学过的各种函数,如幂函数、指数函数、对数函数、二次函数等作比较,挑选出与这些散点拟合最好的函数,然后利用变量置换,把非线性回归方程问题转化为线性回归方程的问题来解决,这是解决此类问题的通法,体现了转化思想.www.21-cn-jy.com
一、案例分析
例 一个昆虫的某项指标和温度有关,现收集了7组数据如下表:
温度x/℃
2
3
4
5
6
7
8
某项指标y
5.790
6.810
8.199
10.001
12.190
14.790
17.801
试建立某项指标y关于温度x的回归模型,并判断你所建立的回归模型的拟合效果.
分析 根据表中的数据画出散点图,再由图设出相应的回归模型.
解 画出散点图如图所示,样本点并没有分布在某个带状区域内,而是分布在某一条二次函数曲线y=Bx2+A的周围.www-2-1-cnjy-com
令X=x2,则变换后的样本点应该分布在y=bX+a(b=B,a=A)的周围.
由已知数据可得变换后的样本数据表:
X
4
9
16
25
36
49
64
某项指标y
5.790
6.810
8.199
10.001
12.190
14.790
17.801
计算得到线性回归方程为y=0.199 94X+4.999 03.
用x2替换X,得某项指标y关于温度x的回归方程y=0.199 94x2+4.999 03.
计算得r≈0.999 997,几乎为1,说明回归模型的拟合效果非常好.
点评 本题是非线性回归分析问题,解决这类问题应该先画出散点图,把它与我们所学过的函数图像相对照,选择一种跟这些样本点拟合的最好的函数,然后采用适当的变量变换转化为线性回归分析问题,使之得以解决.2·1·c·n·j·y
二、知识拓展
常见的非线性函数转换方法:
(1)幂型函数y=axm(a为正数,x,y取正值)
解决方案:对y=axm两边取常用对数,有lg y=lg a+mlg x,令u=lg y,v=lg x,则原式可变为u=mv+lg a,其中m,lg a为常数,该式表示u,v的线性函数.
(2)指数型函数y=c·ax(a,c>0,且a≠1)
解决方案:对y=cax两边取常用对数,则有lg y=lg c+xlg a,令u=lg y,则原式可变为u=xlg a+lg c,其中lg a和lg c为常数,该式表示u,x的线性函数.与幂函数不同的是x保持不变,用y的对数lg y代替了y.【来源:21cnj*y.co*m】
(3)反比例函数y=(k>0)
解决方案:令u=,则y=ku,该式表示y,u的线性函数.
(4)二次函数y=ax2+c
解决方案:令u=x2,则原函数可变为y=au+c,该式表示y,u的线性函数.
(5)对数型函数y=clogax
解决方案:令x=au,则原函数可变为y=cu,该式表示y,u的线性函数.
4 判断两个分类变量的关系
本章的重点是用独立性检验的基本思想对两个分类变量作出明确的判断,下面通过典例剖析如何判断两个分类变量的关系.21世纪教育网版权所有
例 某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,随机抽取了189名员工进行调查,所得数据如下表所示:【来源:21·世纪·教育·网】
积极支持企业改革
不太赞成企业改革
合计
工作积极
54
40
94
工作一般
32
63
95
合计
86
103
189
对于人力资源部的研究项目,根据上述数据能得出什么结论?
分析 首先由已知条件确定a、b、c、d、n的数值,再利用公式求出χ2的值,最后根据χ2值分析结果.
解 由题目中表的数据可知,
χ2=
=≈10.759.
因为10.759>6.635,所以有99%的把握说员工“工作积极”与“积极支持企业改革”有关,可以认为企业的全体员工对待企业改革的态度与其工作积极性是有关的.
点评 在列联表中注意事件的对应及有关值的确定,避免混乱;在判断两个分类变量的关系的可靠性时一般利用随机变量来确定;把计算出的χ2的值与临界值作比较,确定出“A与B有关系”的把握.21·cn·jy·com
5 独立性检验思想的应用
在日常生活中,经常会面临一些需要推断的问题.在对这些问题作出推断时,我们不能仅凭主观臆断作出结论,需要通过试验来收集数据,并依据独立性检验思想做出合理的推断.
所谓独立性检验,就是根据采集样本的数据,利用公式计算χ2的值,比较与临界值的大小关系来判定事件A与B是否有关的问题.其基本步骤如下:【出处:21教育名师】
(1)考察需抽样调查的背景问题,确定所涉及的变量是否为二值分类变量;
(2)根据样本数据制作列联表;
(3)计算统计量χ2,并查表分析.当χ2很大时,就认为两个变量有关系;否则就认为没有充分的证据显示两个变量有关系.21教育名师原创作品
下面举例说明独立性检验思想在解决实际问题中的应用.
例 为了调查患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,统计结果为:患慢性气管炎共有56人,患慢性气管炎且吸烟的有43人,未患慢性气管炎但吸烟的有162人.根据调查统计结果,分析患慢性气管炎与吸烟在多大程度上有关系?21*cnjy*com
解 根据所给样本数据得到如下2×2列联表:
患慢性气管炎
未患慢性气管炎
总计
吸烟
43
162
205
不吸烟
13
121
134
总计
56
283
339
由列联表可以粗略估计出:有吸烟者中,有20.98%的患慢性气管炎;在不吸烟者中,有9.70%的患慢性气管炎.两个比例的值相差较大,所以结论“患慢性气管炎与吸烟有关”成立的可能性较大.【版权所有:21教育】
根据列联表中的数据,得到
χ2=≈7.469>6.635.
所以有99%的把握认为“患慢性气管炎与吸烟有关”.
点评 通过计算检验随机变量χ2,可以比较精确地给出这种判断的可靠程度.先收集数据,然后通过一些统计方法对数据进行科学的分析,这是我们用统计方法解决实际问题的基本策略.
第三章 统计案例
学习目标 1.能通过相关系数判断两变量间的线性相关性.2.掌握建立线性回归模型的步骤.3.理解条件概率的定义及计算方法.4.能利用相互独立事件同时发生的概率公式解决一些简单的实际问题.5.掌握利用独立性检验解决一些实际问题.21·cn·jy·com

知识点一 线性回归分析
1.线性回归方程
在线性回归方程y=a+bx中,b=____________=____________,a=____________.其中=____________,=____________.21世纪教育网版权所有
2.相关系数
(1)相关系数r的计算公式
r= .
(2)相关系数r的取值范围是________,|r|值越大,变量之间的线性相关程度越高.
(3)当r>0时,b________0,称两个变量正相关;
当r<0时,b________0,称两个变量负相关;
当r=0时,称两个变量线性不相关.
知识点二 独立性检验
1.2×2列联表
设A、B为两个变量,每一变量都可以取两个值,得到表格
B1
B2
总计
A1
a
b
A2
c
d
总计
n=________
其中,a表示变量A取 ________,且变量B取 ________时的数据,b表示变量A取 ______,且变量B取________时的数据;c表示变量A取 __________,且变量B取 ________时的数据;d表示变量A取________,且变量B取________时的数据.上表在统计中称为2×2列联表.21教育网
2.统计量
χ2=____________________.
3.独立性检验
当χ2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的;
当χ2>2.706时,有________的把握判定变量A,B有关联;
当χ2>3.841时,有________的把握判定变量A,B有关联;
当χ2>6.635时,有________的把握判定变量A,B有关联.
类型一 线性回归分析
例1 某城市理论预测2010年到2014年人口总数与年份的关系如表所示:
年份201x(年)
0
1
2
3
4
人口数y(十万)
5
7
8
11
19
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,求出y关于x的线性回归方程y=bx+a;
(3)据此估计2018年该城市人口总数.
 
 
 
 
反思与感悟 解决回归分析问题的一般步骤
(1)画散点图.根据已知数据画出散点图.
(2)判断变量的相关性并求回归方程.通过观察散点图,直观感知两个变量是否具有相关关系;在此基础上,利用最小二乘法求回归系数,然后写出回归方程.21cnjy.com
(3)实际应用.依据求得的回归方程解决实际问题.
跟踪训练1 在一段时间内,某种商品的价格x元和需求量y件之间的一组数据为:
x(元)
14
16
18
20
22
y(件)
12
10
7
5
3
且知x与y具有线性相关关系,求出y关于x的线性回归方程.
 
 
 
类型二 独立性检验思想与应用
例2 为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查得到了如下的2×2列联表:
喜爱打篮球
不喜爱打篮球
合计
男生
6
女生
10
合计
48
已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为.
(1)请将上面的2×2列联表补充完整;(不用写计算过程)
(2)能否在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关?说明你的理由.
 
 
 
 
反思与感悟 独立性检验问题的求解策略
χ2统计量法:通过公式
χ2=
先计算统计量,再用以下结果对变量的独立性进行判断.
(1)当χ2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的.
(2)当χ2>2.706时,有90%的把握判定变量A,B有关联.
(3)当χ2>3.841时,有95%的把握判定变量A,B有关联.
(4)当χ2>6.635时,有99%的把握判定变量A,B有关联.
跟踪训练2 某学生对其亲属30人的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数,如图所示.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主).www.21-cn-jy.com
(1)根据茎叶图,帮助这位同学说明其亲属30人的饮食习惯;
(2)根据以上数据完成如下2×2列联表;
主食蔬菜
主食肉类
合计
50岁以下
50岁以上
总计
(3)在犯错误的概率不超过0.01的前提下,是否能认为“其亲属的饮食习惯与年龄有关”?
 
 
 
 
 
 
1.“回归”一词是在研究子女的身高与父母的身高之间的遗传关系时由高尔顿提出的,他的研究结果是子代的平均身高向中心回归.根据他的结论,在儿子的身高y与父亲的身高x的线性回归方程y=bx+a中,b(  )2·1·c·n·j·y
A.在(-1,0)内 B.等于0
C.在(0,1)内 D.在[1,+∞)内
2.已知线性回归方程中斜率的估计值为1.23,回归方程过点(4,5),则线性回归方程为(  )
A.y=1.23x+0.08 B.y=0.08x+1.23
C.y=1.23x+4 D.y=1.23x+5
3.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:【来源:21·世纪·教育·网】
作文成绩优秀
作文成绩一般
总计
课外阅读量较大
22
10
32
课外阅读量一般
8
20
28
总计
30
30
60
由以上数据,计算得到χ2≈9.643,则以下说法正确的是(  )
A.没有充足的理由认为课外阅读量大与作文成绩优秀有关
B.有1%的把握认为课外阅读量大与作文成绩优秀有关
C.有99.9%的把握认为课外阅读量大与作文成绩优秀有关
D.有99%的把握认为课外阅读量大与作文成绩优秀有关
4.考察棉花种子经过处理与生病之间的关系,得到下表中的数据:
种子处理
种子未处理
总计
生病
32
101
133
不生病
61
213
274
总计
93
314
407
根据以上数据可得出(  )
A.种子是否经过处理与是否生病有关
B.种子是否经过处理与是否生病无关
C.种子是否经过处理决定是否生病
D.有90%的把握认为种子经过处理与生病有关
5.对于线性回归方程y=bx+a,当x=3时,对应的y的估计值是17,当x=8时,对应的y的估计值是22,那么,该线性回归方程是________,根据线性回归方程判断当x=________时,y的估计值是38.21·世纪*教育网
1.建立回归模型的基本步骤
(1)确定研究对象,明确变量.
(2)画出散点图,观察它们之间的关系.
(3)由经验确定回归方程的类型.
(4)按照一定的规则估计回归方程中的参数.
2.独立性检验是对两个分类变量间是否存在相关关系的一种案例分析方法.

答案精析
知识梳理
知识点一
1. 
-b xi yi
2.(2)[-1,1] (3)> <
知识点二
1.a+b c+d a+c b+d a+b+c+d A1 B1 A1 B2 A2 B1 A2 B2
2.
3.90% 95% 99%
题型探究
例1 解 (1)散点图如图.
(2)因为==2,
==10,
xiyi=0×5+1×7+2×8+3×11+4×19=132,
x=02+12+22+32+42=30,
所以b==3.2,
a=-b =3.6.
所以线性回归方程为y=3.2x+3.6.
(3)令x=8,则y=3.2×8+3.6=29.2,
故估计2018年该城市人口总数为292万人.
跟踪训练1 解 =×(14+16+18+20+22)=18,
=×(12+10+7+5+3)=7.4,
=142+162+182+202+222=1 660,
=122+102+72+52+32=327,
iyi=14×12+16×10+18×7+20×5+22×3=620,
所以b==
=-1.15,
所以a=7.4+1.15×18=28.1,
所以y对x的线性回归方程为y=-1.15x+28.1.
例2 解 (1)列联表补充如下:
喜爱打篮球
不喜爱打篮球
合计
男生
22
6
28
女生
10
10
20
合计
32
16
48
(2)由χ2=≈4.286.
因为4.286>3.841,所以能在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关.
跟踪训练2 解 (1)30位亲属中50岁以上的人多以食蔬菜为主,50岁以下的人多以食肉类为主.
(2)2×2列联表如下:
主食蔬菜
主食肉类
合计
50岁以下
4
8
12
50岁以上
16
2
18
总计
20
10
30
(3)χ2==10>6.635,
故在犯错误的概率不超过0.01的前提下认为“其亲属的饮食习惯与年龄有关”.
当堂训练
1.C 2.A 3.D 4.B
5.y=x+14 24
同课章节目录