变量的相关性、线性回归及独立性检验
复习目标
1.会作两个有关联变量数据的散点图,会利用散点图认识变量间的相关关系.
2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.
3.了解独立性检验的含义,知道什么是2×2列联表.
4.会运用独立性检验的方法判断事件A与B的关系.
5.会求回归方程模型,并能进行相关性检验.
课前练习
4.下面是2×2列联表:则表中a,b的值分别为( )
A.94,72 B.52,50
C.52,74 D.74,52
y1 y2 合计
x1 a 21 73
x2 22 25 47
合计 b 46 120
知识要点
1.两个变量间的相关关系
如果两个变量之间确实存在关系,但又没有函 ( http: / / www.21cnjy.com )数关系所具有的确定性,它们的关系带有随机性,则称这两个变量具有① .
有相关关系的两个变量,若一个变量的值由小到 ( http: / / www.21cnjy.com )大时,另一个变量的值也是由小到大,这种相关称为② ;反之,一个变量的值由小到大,另一个变量的值由大到小,这种相关称为③ .
2.散点图
在平面直角坐标系中描点,得到关于两个变量的 ( http: / / www.21cnjy.com )一组数据的图形,这样的图形叫做④ .如果散点图中,相应于具有相关关系的两个变量所有观察值的数据点,分布在一条直线附近,则称这两个变量具有⑤ ,这条直线叫做⑥ ,方程为 =bx+a,
其中,a= - b.
3.最小二乘法
使残差平方和为最小的方法,叫做⑦ .
4.独立性检验
设有两个分类变量X和Y它们的值域分别为{x1, x2}和{y1, y2}其样本频数列表(称为2×2列联表) 为2×2列联表
y1 y2 总计
x1 a b a+b
x2 c d c+d
总计 a+c b+d a+b+c+d
典例精炼
题型一、变量的相关关系
例题1:下列说法中正确的是( )
A. 任何两个变量之间都有相关关系
B. 球的体积与该球的半径具有相关关系
C. 农作物的产量与施化肥量之间是一种确定性的关系
D. 某商品的生产量与该商品的销售价格之间是一种非确定性的关系
解析:A显然错误,B是函数关系,C中“确定性”说法错误.答案:D
拓展练习:一位母亲记录了儿 ( http: / / www.21cnjy.com )子3~9岁的身高,由此建立的身高与年龄的回归模型为y=7.19x+73.93.用这个模型预测这个孩子10岁时的身高,则正确的叙述是( )
A. 身高一定是145.83 cm B. 身高在145.83 cm以上
C. 身高在145.83 cm以下 D. 身高在145.83 cm左右
题型二、散点图与线性回归
例题2:一个工厂在某年里每月产品的总成本y(万元)与该月产量x(万件)之间有如下一组数据:
(1)画出散点图;
(2)求月总成本y与月产量x之间的回归直线方程.
x 1.08 1.12 1.19 1.28 1.36 1.48 1.59 1.68 1.80 1.87 1.98 2.07
y 2.25 2.37 2.40 2.55 2.64 2.75 2.92 3.03 3.14 3.26 3.36 3.50
i 1 2 3 4 5 6 7 8 9 10 11 12
xi 1.08 1.12 1.19 1.28 1.36 1.48 1.59 1.68 1.80 1.87 1.98 2.07
yi 2.25 2.37 2.40 2.55 2.64 2.75 2.92 3.03 3.14 3.26 3.36 3.50
反思小结: 散点图是判断变量是否线性相关的基础,故作出准确的散点图就显得尤为重要.线性回归方程的系数公式不要求记忆,但要熟悉.
拓展练习:在7块并排、形状大小相同的试 ( http: / / www.21cnjy.com )验田上进行施化肥量对水稻产量影响的试验,得数据如下(单位:kg) (1)画出散点图;(2)求月总成本y与月产量x之间的回归直线方程.
施化肥量x 15 20 25 30 35 40 45
水稻产量y 330 345 365 405 445 450 455
i 1 2 3 4 5 6 7
xi 15 20 25 30 35 40 45
yi 330 345 365 405 445 450 455
题型三、线性回归的应用
例题3:假设关于某设备的使用年限x(年)和所支出的维修费用y(万元)有如下的统计资料:由资料知,y对x呈线性相关关系,试求:
(1)线性回归方程y=bx+a的回归系数a、b;
(2)估计使用年限为10年时,维修费用是多少?
使用年限x(年) 2 3 4 5 6
维修费用y(万元) 2.2 3.8 5.5 6.5 7.0
(1)
xi yi xiyi
1 2 2.2 4 4.4
2 3 3.8 9 11.4
3 4 5.5 16 22.0
4 5 6.5 25 32.5
5 6 7.0 36 42.0
合计 20 25 90 112.3
反思小结:求线性回归方程是解决问题的关键,理解题意是解题的保证.
拓展练习:一台机器使用时间较长,但 ( http: / / www.21cnjy.com )还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器运转的速度而变化.下表为抽样试验结果:(1)对变量y与x进行相关性检验;(2)如果y与x有线性相关关系,求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么,机器的运转速度应控制在什么范围内?
转速x(转/秒) 16 14 12 8
每小时生产有缺点的零件数y(件) 11 9 8 5
题型四、独立性检验的应用
例题4:通过随机询问72名不同性别的大学生在购买食物时是否看营养说明,得到如下的列联表.请问性别和读营养说明之间在多大程度上有关系?
女 男 总计
读营养说明 16 28 44
不读营养说明 20 8 28
总 计 36 36 72
反思小结:解题的关键在于熟悉公式(不要求记忆).
拓展练习: 为了调查某生产线上质量 ( http: / / www.21cnjy.com )监督员甲是否在场对产品质量好坏有无影响,现统计数据如下:质量监督员甲在现场时,990件产品中合格品有982件,次品有8件;质量监督员甲不在现场时,510件产品中,合格品有493件,次品有17件.试分别用列联表、三维柱形图及独立性检验的方法对数据进行分析.
解析:(1)2×2列联表如下:
产品 合格品数/件 次品数/件 总数/件
甲在现场 982 8 990
甲不在现场 493 17 510
总数/件 1475 25 1500
由列联表看出|ad-bc|=|982×17- ( http: / / www.21cnjy.com )493×8|=12750,相差较大,可在某种程度上认为“质量监督员甲在不在现场与产品质量好坏有关”.
(2)三维柱形图如图所示.
由三维柱形图可知,底面副对角线上的柱形高度乘积要大一些,在某种程度上可认为“质量监督员甲在不在现场与产品质量好坏有关.”
方法提炼
1.回归分析是数理统计中最常用的统计方法之一,它研究的是一个变量与另一个变量之间的相关关系.
2.求线性回归直线方程应对数据进行线性相关分析,其关键是求a、b.注意分步进行.
3.只要公式熟悉,代入正确,问题就能顺利解决.
4.要注意正确理解统计量K2的临界值表.
高考链接
.(2007 广东卷)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.
x 3 4 5 6
y 2.5 3 4 4.5
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程
(3)已知该厂技改前100 ( http: / / www.21cnjy.com )吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)
解析:(1)散点图如下图.
1)如果P(m>10.828)= 0.001表示有99.9%的把握认为”X与Y”有关系;
2)如果P(m>7.879)= 0.005表示有99.5%的把握认为”X与Y”有关系;
3)如果P(m>6.635)= 0.01表示有99%的把握认为”X与Y”有关系;
4)如果P(m>5.024)= 0.025表示有97.5%的把握认为”X与Y”有关系;
5)如果P(m>3.841)= 0.05表示有95%的把握认为”X与Y”有关系;
6)如果P(m>2.706)= 0.010表示有90%的把握认为”X与Y”有关系;
7)如果m≤2.706),就认为没有充分的证据显示”X与Y”有关系;