8.1 成对数据的相关关系
教材分析
本节课选自《2019人教A版高中数学选择性必修第三册》,第七章《随机变量及其分布列》,本节课主本节课主要学习成对数据的相关关系
本章主要学习统计方面知识,在之前学生已经对统计相关的知识做了大概的了解,本节学生要继续探讨的是变量之间的相关关系,变量之间有两类关系;函数关系和相关关系,它们的联系与区别;并了解线性相关及相关系数,为了解线性回归的基本思想和方法以及求回归直线的方程和相关性检验做准备。
教学目标与核心素养
课程目标 学科素养
A. 理解两个变量的相关关系的概念; B.会作散点图,并利用散点图判断两个变量之间是否具有相关关系; D.会根据相关系数判断两个变量的相关程度. 1.数学抽象:相关关系 2.逻辑推理:相关系数公式推导 3.数学运算:求相关系数 4.数学建模:模型化思想
重点难点
重点:相关关系的概念及利用散点图判断两个变量之间是否具有相关关系
难点:根据相关系数判断两个变量的相关程度
课前准备
多媒体
教学过程
教学过程 教学设计意图 核心素养目标
问题导学 我们知道,如果变量y是变量工的函数,那么由x就可以唯一确定y.然而,现实世界中还存在这样的情况:两个变量之间有关系,但密切程度又达不到函数关系的程度.例如,人的体重与身高存在关系,但由一个人的身高值并不能确定他的体重值,那么,该如何刻画这两个变量之间的关系呢 下面我们就来研究这个问题. 探究新知 我们知道,一个人的体重与他的身高有关系,一般而言,个子高的人往往体重值较大,个子矮的人往往体重值较小,但身高并不是决定体重的唯一因素,例如生活中的饮食习惯、体育锻炼、睡眠时间以及遗传因素等也是影响体重的重要因素,像这样,两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系(correlation). 两个变量具有相关关系的事例在现实中大量存在,例如: 1.子女身高y与父亲身高x之间的关系,一般来说,父亲的个子高,其子女的个子也会比较高;父亲个子矮,其子女的个子也会比较矮,但影响子女身高的因素,除父亲身高外还有其他因素,例如母亲身高、饮食结构、体育锻炼等,因此父亲身高又不能完全决定子女身高. 2.商品销售收人y与广告支出x之间的关系,一般来说,广告支出越多,商品销售收入越高,但广告支出并不是决定商品销售收入的唯一因素,商品销售收入还与商品质量、居民收入等因素有关。 3.空气污染指数y与汽车保有量x之间的关系,一般来说,汽车保有量增加,空气污染指数会上升,但汽车保有量并不是造成空气污染的唯一因素,气象条件、工业生产排放、居民生活和取暖、垃圾焚烧等都是影响空气污染指数的因素。 4.粮食亩产量y与施肥量x之间的关系,在一定范围内,施肥量越大,粮食亩产量就越高,但施肥量并不是决定粮食亩产量的唯一因索,粮食亩产量还要受到土壤质量、降水量、田间管理水平等因素的影响。 变量的相关关系 相关关系是一种不确定性关系;相关关系是相对于函数关系而言的. 像这样,两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系. 相关关系与函数关系的异同点 关系 项目函数关系相关关系相同点都是两个变量间的关系不同点 是一种确定关系是一种非确定关系是一种因果关系不一定是因果关系,也可能是伴随关系
1.下列关系是相关关系的是________.(填序号) ①曲线上的点与该点的坐标之间的关系; ②苹果的产量与气候之间的关系; ③森林中同一种树木,其断面直径与高度之间的关系; ④学生与其学号之间的关系. ②③ 解析:利用相关关系的概念进行判断.①④中两个变量之间的关系是一种确定性关系,而②③中的两个变量之间的关系是不确定的,所以它们具有相关关系. 探究1:在对人体的脂肪的含量和年龄之间关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据,如表所示,表中每个编号下的年龄和脂肪含量数据都是对同一个体的观测结果,它们构成了成对数据。 编号1234567年龄23273941454950脂肪9.517.821.225.927.526.328.2
编号891011121314年龄53545657586061脂肪29.630.231.430.833.535.234.6
根据以上数据,你能推新人体的脂肪含量与年龄之间存在怎样的关系吗 成对样本数据都可用直角坐标系中的点表示出来,由这些点组成了统计图.我们我们把这样的统计图叫做散点图 由散点图可以发现,这些散点大致落在一条从左下角到右上角的直线附近,表明随年龄值的增加,相应的脂肪含量值呈现增高的趋势.这样,由成对样本数据的分布规律,我们可以推断脂肪含量变量和年龄变量之间存在着相关关系. 变量相关关系的分类 (1)正相关和负相关 如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势, 我们就称这两个变量正相关. 当一个变量的值增加时, 另一个变量的相应值也呈现减少的趋势,称这两个变量负相关. 正相关:根据样本数据所作得散点图中,若点散布在从左下角到右上角的区域。对于两个变量的这种相关关系,我们称之为正相关。 负相关:根据样本数据所作得散点图中,若点散布在从左上角到右下角的区域。对于两个变量的这种相关关系,我们称之为负相关。 ①线性相关:散点图是描述成对数据之间关系的一种直观方法.一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一一条直线附近,我们就称这两个变量线性相关; ②非线性相关:一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关. 探究2.通过观察散点图中成对样本数据的分布规律,我们可以大致推断两个变量是否存在相关关系、是正相关还是负相关、是线性相关还是非线性相关等,散点图虽然直观,但无法确切地反映成对样本数据的相关程度,也就无法量化两个变量之间相关程度的大小.能否像引入平均值、方差等数字特征对单个变量数据进行分析那样,引入一个适当的“数字特征”,对成对样本数据的相关程度进行定量分析呢 对于变量 和变量 ,设经过随机抽样得到的成对数据为( 1, 1),( 2, 2), ,( , ), 将数据以为零点进行平移,得到平移后的成对数据为: 绘制散点图为 平移 这时的散点大多数分布在第一象限、第三象限,大多数散点的横、纵坐标同号,显然,这样的规律是由人体脂肪含量与年龄正相关所决定的。 探究3:根据上述分析,你能利用正相关变量和负相关变量的成对样本数据平移后星现的规律,构造一个度量成对样本数据是正相关还是负相关的数字特征吗 根据散点图特征,初步构造统计量.利用散点的 横纵坐标是否同号,可以构造一个量 一般情形下,Lxy>0表明成对样本数据正相关; Lxy <0表明成对样本数据负相关. 问题1: Lxy的大小一定能度量出成对样本数据的相关程度吗 我们发现, Lxy的大小与数据的度量单位有关,所以不能直接用它度量成对样本数据相关程度的大小. 在研究体重与身高之间的相关程度时,如果体重的单位不变,把身高单位由米改为厘米,单位的改变不会改变体重与身高之间的相关程度. 为了消除单位的影响,进一步做“标准化”处理为简单起见,把上述“标准化”处理后的成对数据分别记为 仿照Lxy的构造,可以得到 分别 样本相关系数r是一个描述成对样本数据的数字特征, 它的正负和绝对值的大小可以反映成对样本数据的变化特征: 当r>0时,称成对样本数据正相关;当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大。 当r<0时,称成对样本数据负相关;当其中一个数据的值变小时,另一个数据的值通常会变大:当其中一个数据的值变大时,另一个数据的值通常会变小。 样本相关系数 我们称r为变量x和变量y的样本相关系数. 样本相关系数r的取值范围为[-1,1],样本相关系数r的绝对值大小可以反映成对样本数据之间线性相关的程度: 当|r|越接近1时,成对样本数据的线性相关程度越强; 当|r|越接近0时,成对样本数据的线性相关程度越弱. 样本相关系数r有时也称样本线性相关系数,|r|刻画了样本点集中于某条直线的程度.当r=0 时,只表明成对样本数据间没有线性相关关系,但不排除它们之间有其他相关关系. 典例解析 例1.根据下表中脂肪含量和年龄的样本数据,推断两个变量是否线性相关,计算样本相关系数,并推断它们的相关程度. 年龄23273941454950脂肪9.517.821.225.927.526.328.2
年龄53545657586061脂肪29.630.231.430.833.535.234.6
参考数据: 解:先画出散点图,如右图所示观察散点图, 可以看出样本点都集中在一条直线附近, 由此推断脂肪含量和年龄线性相关. 由样本相关系数 ≈0.97,可以推断脂肪含量和年龄这两个变量正线性相关,且相关程度很强。脂肪含量与年龄变化趋势相同. 归纳总结 1.线性相关系数是从数值上来判断变量间的线性相关程度,是定量的方法.与散点图相比较,线性相关系数要精细得多,需要注意的是线性相关系数r的绝对值小,只是说明线性相关程度低,但不一定不相关,可能是非线性相关. 2.利用相关系数r来检验线性相关显著性水平时,通常与0.75作比较,若|r|>0.75,则线性相关较为显著,否则不显著. 例2. 有人收集了某城市居民年收入(所有居民在一年内收入的总和)与A商品销售额的10年数据,如表所示.画出散点图,判断成对样本数据是否线性相关,并通过样本相关系数推断居民年收入与A商品销售额的相关程度和变化趋势的异同. 第n年12345678910居民年收入/亿元32.231.132.935.837.138394344.646A商品销售额/万元25.030.034.037.039.041.042.044.048.051.0
解:从散点图看,A商品销售额与居民年收入的样本数据呈现线性相关关系. 例3.在某校高一年级中随机抽取25名男生,测得他们的身高、体重、臂展等数据,如下表所示. 解:通过计算得到体重与身高、臂展与身高的样本相关系数分别约为0.34和0.78,都为正相关.其中,臂展与身高的相关程度更高. 体重与身高、臂展与身高分别具有怎样的相关性 跟踪训练1.由于往届高三年级数学学科的学习方式大都是“刷题——讲题——再刷题”的模式,效果不理想.某市一中的数学课堂教改采用了“记题型——刷题——检测效果”的模式,并记录了某学生的记题型时间t(单位:h)与检测效果y的数据如表所示. t1234567y2.93.33.64.44.85.25.9
据统计表明,y与t之间具有线性相关关系,请用相关系数r加以说明(若|r|≥0.75,则认为y与t有很强的线性相关关系,否则认为没有很强的线性相关关系). 参考公式及数据:相关系数r=,=4.3, (yi-)2=7.08,(ti-)(yi-)=14,≈14.08. 解:由题得==4, (ti-)2=9+4+1+0+1+4+9=28, 所以r==≈0.99>0.75,所以y与t有很强的线性相关关系. 通过具体的问题情境,引发学生思考积极参与互动,说出自己见解。从而引入相关关系的概念,发展学生逻辑推理、数学运算、数学抽象和数学建模的核心素养。 通过问题分析,让学生掌握判断相关关系与函数关系的区别与联系。发展学生逻辑推理,直观想象、数学抽象和数学运算的核心素养。 通过具体的问题情境中的分析,深化对相关系数的理解。发展学生逻辑推理,直观想象、数学抽象和数学运算的核心素养。 通过典型例题的分析解决,提升学生对相关系数的理解和运用。发展 学生逻辑推理,直观想象、数学抽象和数学运算的核心素养。
三、达标检测 1.判断(正确的打“√”,错误的打“×”). (1)变量之间只有函数关系,不存在相关关系.( ) (2)两个变量之间产生相关关系的原因受许多不确定的随机因素的影响.( ) (3)两个变量的相关系数越大,它们的相关程度越强.( ) (4)若相关系数r=0,则两变量x,y之间没有关系.( ) 答案 :(1)(3)(4)错;(2)对 当堂达标 2.下列各图中所示的两个变量具有相关关系的是( ) A.(1)(2) B.(1)(3) C.(2)(4) D.(2)(3) D 解析:(1)为函数关系;(2)(3)为相关关系;(4)中,因为点分布得比较分散,两者之间无相关关系. 3.对变量x,y有观测数据(xi,yi)(i=1,2,3,…,10),得散点图1;对变量u,v有观测数据(ui,vi)(i=1,2,3,…,10),得散点图2,由这两个散点图可以断定( ) A.x与y正相关,u与v正相关 B.x与y正相关,u与v负相关 C.x与y负相关,u与v正相关 D.x与y负相关,u与v负相关 C 解析:由题图1可知,点散布在从左上角到右下角的区域,各点整体呈递减趋势,故x与y负相关; 由题图2可知,点散布在从左下角到右上角的区域,各点整体呈递增趋势,故u与v正相关. 4.在建立两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关系数r有如下四个选项,其中拟合得最好的模型为( ) A.模型1的相关系数r为0.75 B.模型2的相关系数r为0.55 C.模型3的相关系数r为0.25 D.模型4的相关系数r为0.90 D 解析:D中相关系数r的绝对值最接近1,相关性最强,故选D. 5.假设关于某种设备的使用年限x(单位:年)与所支出的维修费用y(单位:万元)有如下统计资料: x23456y2.23.85.56.57.0
已知=90,≈140.8,iyi=112.3,≈8.9,≈1.4. (1)求,; (2)对x,y进行线性相关性检验. 解:(1)==4, ==5. (2)iyi-5 =112.3-5×4×5=12.3, -52=90-5×42=10, -52=140.8-125=15.8, 所以r===≈0.987. 所以有把握认为x与y之间具有线性相关关系,去求回归直线方程是有意义的. 通过练习巩固本节所学知识,通过学生解决问题,发展学生的数学运算、逻辑推理、直观想象、数学建模的核心素养。
四、小结 判断变量的相关性通常有两种方式: 1.散点图; 2.相关系数r, 前者只能粗略地说明变量间具有相关性,而后者可以从定量的角度分析变量相关性的强弱. 五、课时练 通过总结,让学生进一步巩固本节所学内容,提高概括能力。
教学反思
课后通过对教学过程的反思与研究, 才能不断完善教学设计中的不足, 才能提升教材分析的能力和课堂教学实效.
1. 多元展示, 多方评价. 在教学过程中我借问题牵引,保证了课堂教学的顺利实施;而在整个过程中,我对学生所作练习、疑问及时解析评价;学生之间、小组之间的互相评价补充,使学生共享成果分享喜悦,坚定了学好数学的信念,实现了预期目标.
2. 创造性的使用教材. 有别于教材,我在教学中,让学生考察了分别考察了两类题型之后再引导学生进行归纳, 这样更贴近学生的认知水平, 学生课后反馈,效果较为理想.
1