第1章 统计案例
1.独立性检验
利用χ2=(其中n=a+b+c+d)来确定在多大程度上认为“两个变量有相关关系”.应记熟χ2的几个临界值的概率.
2.回归分析
(1)分析两个变量相关关系常用:散点图或相关系数r进行判断.在确认具有线性相关关系后,再求线性回归方程,进行预测.
(2)对某些特殊的非线性关系,可以通过变量转化,把非线性回归转化为线性回归,再进行研究.
题型一 独立性检验思想的应用
独立性检验的基本思想是统计中的假设检验思想,类似于数学中的反证法,要确认两个分类变量有关系这一结论成立的可信程度,首先假设该结论不成立,即假设“两个分类变量没有关系”成立,在该假设下我们构造的随机变量χ2应该很小,如果由观测数据计算得到的χ2的观测值很大,则在一定程度上说明假设不合理.
例1 为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.下表1和表2分别是注射药物A和药物B后的试验结果.(疱疹面积单位:mm2)
表1:注射药物A后皮肤疱疹面积的频数分布表
疱疹面积
[60,65)
[65,70)
[70,75)
[75,80)
频数
30
40
20
10
表2:注射药物B后皮肤疱疹面积的频数分布表
疱疹面积
[60,65)
[65,70)
[70,75)
[75,80)
[80,85)
频数
10
25
20
30
15
完成下面2×2列联表,能否在犯错误概率不超过0.001的前提下,认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.
表3:
疱疹面积
小于70mm2
疱疹面积不
小于70mm2
合计
注射药物A
a=
b=
注射药物B
c=
d=
合计
n=
解 列出2×2列联表
疱疹面积
小于70mm2
疱疹面积不
小于70mm2
总计
注射药物A
a=70
b=30
100
注射药物B
c=35
d=65
100
合计
105
95
n=200
χ2=≈24.56,
由于χ2>10.828,所以在犯错误概率不超过0.001的前提下,认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.
跟踪演练1 某企业为了更好地了解设备改造与生产合格品的关系,随机抽取了180件产品进行分析.其中设备改造前生产的合格品有36件,不合格品有49件;设备改造后生产的合格品有65件,不合格品有30件,根据上面的数据,你能得出什么结论?
解 根据已知条件列出2×2列联表:
合格品
不合格品
合计
设备改造后
65
30
95
设备改造前
36
49
85
合计
101
79
180
提出假设H0:设备改造与生产合格品无关.
由公式得χ2=≈12.379.
∵χ2>10.828,∴我们有99.9%的把握认为设备改造与生产合格品有关系.
题型二 线性回归分析
进行线性回归分析的前提是两个变量具有线性相关关系,否则求出的线性回归方程就没有实际意义,所以必须先判断两个变量是否线性相关.分析判断两个变量是否线性相关的常用方法是利用散点图进行判断,若各数据点大致分布在通过散点图中心的一条直线附近,那么就说这两个变量之间具有线性相关关系.此方法直观、形象,但缺乏精确性.
例2 在一段时间内,分5次测得某种商品的价格x(万元)和需求量y(t)之间的一组数据为
1
2
3
4
5
价格x
1.4
1.6
1.8
2
2.2
需求量y
12
10
7
5
3
已知xiyi=62,x=16.6.
(1)画出散点图;
(2)求出y对x的线性回归方程;
(3)如果价格定为1.9万元,预测需求量大约是多少?(精确到0.01t).
解 (1)散点图如下图所示:
(2)因为=×9=1.8,=×37=7.4,
xiyi=62,x=16.6,
所以===-11.5,
=-=7.4+11.5×1.8=28.1,
故y对x的线性回归方程为=28.1-11.5x.
(3)=28.1-11.5×1.9=6.25(t).
故价格定为1.9万元,预测需求量大约为6.25t.
跟踪演练2 某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了4次试验,得到数据如下:
零件的个数x(个)
2
3
4
5
加工的时间y(小时)
2.5
3
4
4.5
(1)在给定的坐标系中画出表中数据的散点图;
(2)求y关于x的线性回归方程=x+;
(3)试预测加工10个零件需要的时间.
解 (1)散点图如图所示:
(2)==3.5,==3.5,
iyi=2×2.5+3×3+4×4+5×4.5=52.5,
=4+9+16+25=54,
∴==0.7,
=3.5-0.7×3.5=1.05,
∴所求线性回归方程为=0.7x+1.05.
(3)当x=10时,=0.7×10+1.05=8.05,
∴预测加工10个零件需要8.05小时.
题型三 非线性回归分析
非线性回归问题有时并不给出经验公式.这时我们可以画出已经数据的散点图,把它与已经学过的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量置换,把问题化为线性回归分析问题,使之得到解决.
例3 下表是某年美国旧轿车价格的调查资料,今以x表示轿车的使用年数,y是表示相应的年均价格,求y关于x的回归方程.
使用
年数x
1
2
3
4
5
6
7
8
9
10
年均价格
y(美元)
2651
1943
1494
1087
765
538
484
290
226
204
解 数据对应的散点图如图1,
图1
可以发现,各点并不是基本处于一条直线附近,因此,y与x之间是非线性回归关系.与已学函数图象比较,用=ex+来刻画题中模型更为合理,令=ln,则=x+,题中数据变成如下表所示:
x
1
2
3
4
5
6
7
8
9
10
z
7.883
7.572
7.309
6.991
6.640
6.288
6.182
5.670
5.421
5.318
相应的散点图如图2,从图2可以看出,变换的样本点分布在一条直线附近,因此可以用线性回归方程拟合.
图2
由表中数据可得r≈-0.996.即|r|>r0.05=0.632,所以有95%的把握认为x与z之间具有线性相关关系,由表中数据得≈-0.298,≈8.165,
所以=-0.298x+8.165,最后代回=ln,即=e-0.298x+8.165为所求.
跟踪演练3 下表所示是一组试验数据:
x
0.5
0.25
0.125
0.1
y
64
138
205
285
360
(1)作出x与y的散点图,并判断是否线性相关;
(2)若变量y与成线性相关关系,求出y对x的回归方程,并观测x=10时y的值.
解 (1)散点图如图:
由散点图可知y与x不具有线性相关关系,且样本点分布在反比例函数y=+a的周围.
(2)令x′=,y′=y由已知数据制成下表
序号
x′i
y′i
x′
y′
x′iy′i
1
2
64
4
4096
128
2
4
138
16
19044
552
3
6
205
36
42025
1230
4
8
285
64
81225
2280
5
10
360
100
129600
3600
∑
30
1052
220
275990
7790
′=6,′=210.4,
故′-5()2=40,′-5()2=54649.2,
r=≈0.9997,由于|r|>r0.05=0.878,说明y′与x′具有很强的线性关系,计算知=36.95,=210.4-36.95×6=-11.3,所以y′=-11.3+36.95x′.所求y对x的回归方程y=-11.3.
当x=10时,y=-11.3=-7.605.
1.独立性检验是对两个分类变量间是否存在相关关系的一种案例分析方法,而利用假设的思想方法,计算出某一个随机变量χ2的值来判断更精确些.
2.建立回归模型的基本步骤:(1)确定研究对象.(2)画出散点图,观察它们之间的关系.(3)由经验确定回归方程的类型.(4)按照一定的规则估计回归方程中的参数.