(共27张PPT)
成对数据的统计相关性
学习目标
通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系.
通过求线性回归方程,探究相关性检验的基本思想.
通过对典型案例的探究,体会回归分析在生产实践和日常生活中的广泛应用.
学习重点
学习难点
通过相关性的检验,对实际问题进行回归分析
回归直线方程相关系数和可线性化的回归分析.
引入
客观事物是相互联系的,过去研究的大多数是因果关系,但实际上更多存在的是一种非因果关系.阅读下面材料,探究下面几个问题.
材料:2012年初我国北方下了几场大雪.“瑞雪兆丰年”是一句广为流传的农谚.据分析大雪可阻止土壤中的热量向外扩散,又可阻止冷空气的侵入,雪融化后又可给土壤带来较多的氮化物,故冬天下几场雪,是获得丰收的预兆.
材料中下几场雪与获得丰收两变量是确定性的关系吗?是否下几场大雪就一定获得丰收?
答案:“瑞雪兆丰年”表示冬天多下几场雪有可能获得丰收,下几场雪与获得丰收间有一定的联系,但不是确定性关系,丰收除了受下雪的影响外还受到其他因素的影响,如施肥、气温、种子等.故下几场雪与获得丰收是相关关系,下几场雪也不一定获得丰收.
抽象概括
1.变量之间有一定的联系,但不能完全用函数来表达。如人的体重y与身高x。一般来说,身高越高,体重越重,但不能用一个函数来严格地表示身高与体重之间的关系。相关关系是___________性关系,因变量的取值具有一定的随机性。
2.在考虑两个变量的关系时,为了对变量之间的关系有一个大致的了解,人们通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常把这种图叫作变量之间的________。
非确定
散点图
变量之间有一定的联系,但不能完全用函数来表达。如人的体重y与身高x。一般来说,身高越高,体重越重,但不能用一个函数来严格地表示身高与体重之间的关系。相关关系是___________性关系,因变量的取值具有一定的随机性。
非确定
在考虑两个变量的关系时,为了对变量之间的关系有一个大致的了解,人们通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常把这种图叫作变量之间的________。
散点图
3.如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现上升趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的响应值呈现减少的趋势,则称这两个变量负相关。
4.如果两个变量的值呈现正相关或者负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关。
根据下面的散点图,判断图中的两个变量是否存在相关关系
下表给出了一些地区的鸟的种类数与该地区的海拔高度的数据,鸟的种类数与海拔高度是否存在相关关系 如果是,那么这种相关关系有什么特点
C
A
B
D
E
F
G
H
I
J
K
地区
海拔
种类
1250
1158
1067
457
701
731
610
670
1493
762
549
36
30
37
11
11
29
13
17
13
4
15
总结
作回归分析要有实际意义.
回归分析前,最好先做出散点图.
应用回归分析预测时,最好先作出散点图.
教材梳理
1.线性回归分析的步骤
(1)画出两个变量的_________;
(2)求_______________;
(3)由线性回归方程进行_____.
散点图
线性回归方程
预测
2.线性回归方程系数的计算公式
设变量y对x的线性回归方程为y=a+bx,由最小二乘法知系数a、b的计算公式为:
3.相关系数
假设两个随机变量的数据分别为( )、( )、..( ), 则变量间线性相关系数r的计算公式如下:
变量之间线性相关系数r具有如下性质:
(1) ≤1,故变量之间线性相关系数r的取值范围为[-1,1].
(2)|r|值越大,变量之间的______________________;|r|值越接近0,变量之间的______________________.
线性相关程度越高
线性相关程度越低
(3)当r>0时,两个变量的值总体上呈现出同时增减的趋势,此时称两个变量________;当r<0时,一个变量增加,另一个变量有减少的趋势,称两个变量_________;当r=0时,称两个_________________.
正相关
负相关
变量线性不相关
根据表8. 1-1中脂肪含量和年龄的样本数据,判断两个变量是否线性相关,计算样本相关系数,并刻画它们的相关程度.
解:先画出散点图(图8.1-1). 观察散点图,可以看出样本点都集中在一条直线附近,由此判断脂肪含量和年龄线性相关. 根据样本相关系数的定义,
利用计算工具可得
由样本相关系数r≈0.97,可以推断脂肪含量和年龄这两个变量正线性相关,且相关程度很强.
有人收集了某城市居民年收入(即所有居民在一年内收人的总和)与A商品销售额的10年数据,如表8.1-2所示.
画出散点图,判断成对样本数据是否线性相关,并通过样本相关系数判断居民年收入与A商品销售额的相关程度和变化趋势的异同.
解:画出成对样本数据的散点图(图8.1-6).从散点图看,A商品销售额与居民年收人的样本数据呈现出线性相关关系.由样本数据计算得样本相关系数r≈0.95.由此可以推断,A商品销售额与居民年收人正线性相关,即A商品销售额与居民年收入有相同的变化趋势, 且相关程度很强.
在某校高一年级中随机抽取25名男生,测得他们的身高、体重、臂展等数据,如表8.1-3所示. 体重与身高、臂展与身高分别具有怎样的相关性
解:根据样本数据分别画出体重与身高、臂展与身高的散点图(图8.1-7(1)和(2)),两个散点图都呈现出线性相关的特征.通过计算得到体重与身高、臂展与身高的样本相关系数分别约为0.34和0.78,都为正线性相关,其中,臂展与身高的相关程度更高.
已知变量x和变量y的3对随机观测数据(2, 2),(3, -1),(5, -7),计算两个变量的样本相关系数。能据此推出这两个变量线性相关吗 为什么
总结
对具有相关关系的两个变量进行统计分析,可从散点图观察大致呈条状分布,可以求线性回归方程并进行预报.
通过计算相关系数可以判定两个变量的线性相关程度,进行相关性检验.
在以下4幅散点图中,判断哪些图中的y和x之间存在相关关系 其中哪些正相关,哪些负相关 哪些图所对应的成对样本数据呈现出线性相关关系 哪些图所对应的成对样本数据呈现出非线性相关关系
2,3线性; 1,4非线性
随机抽取10家航空公司,对其最近一年的航班正点率和顾客投诉次数进行调查,所得数据如下:顾客投诉次数和航班正点率之间是否呈现出线性相关关系 它们之间的相关程度如何 变化趋势有何特征
答:是
航空公司编号
航班正点率/%
顾客投诉/次
4
3
2
5
1
6
7
8
9
10
81.8
76.8
76.6
75.7
73.8
72.2
71.2
70.8
91.4
68.5
21
58
85
68
74
93
72
122
18
125
根据物理中的胡克定律,弹簧伸长的长度与所受的外力成正比.测得一根弹簧伸长长度 x和相应所受外力F的一组数据如下:两个变量的样本相关系数是否为1 请你解释其中的原因.
答:否
2
1
3
4
7
5
6
8
9
10
编号
x/cm
F/N
1.2
1.4
1
1.6
1.8
2.0
2.2
2.4
2.8
3.0
3.08
3.76
4.31
5.02
5.51
6.25
6.74
7.40
8.54
9.24
总结
回归分析要具有实际意义,两个变量是否线性相关,可有两途径检验,(1)根据散点图,(2)利用相关系数r,只有两个变量线性相关,回归直线方程才有预报功能.
线性回归分析的步骤为:①首先作出统计假设;②求出线性相关系数;③由相关系数确定线性回归方程是否有意义;④写出线性回归方程,解决有关问题.
有些非线性回归模型可以经过适当的变换,转化为线性回归模型进行分析.