(共53张PPT)
第八章 成对数据的统计分析
8.1 成对数据的统计相关性
学习任务 1.了解变量间的相关关系.(数学抽象)
2.能根据散点图,判断两个变量是否具有相关关系.(直观想象)
3.了解相关系数的概念及公式,会判断相关性的强弱.(数据分析、数学运算)
必备知识·情境导学探新知
01
在校园里,有这样一种说法:“如果你的数学成绩好,那么你的物理学习就不会有什么大问题.”按照这种说法,似乎学生的物理成绩与数学成绩之间存在着某种关系.我们把数学成绩和物理成绩看成是两个变量,那么这两个变量之间的关系是函数关系吗?
知识点1 变量间的相关关系
相关关系的定义:两个变量有关系,但又没有确切到可由其中的一个去______决定另一个的程度,这种关系称为相关关系.两个变量之间的关系分为函数关系和相关关系.
精确地
思考 1.相关关系与函数关系有什么异同点?
[提示] 相同点:两者均是指两个变量间的关系.
不同点:①函数关系是一种确定的关系,如圆的面积S与半径r的关系,它可以用函数关系式S=πr2来表示;相关关系是一种非确定的关系,如人的体重y与身高x有关,一般来说,身高越高,体重越重,但不能用一个函数关系式来严格地表示它们之间的关系.函数关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量之间的关系.②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
知识点2 散点图、线性相关
(1)散点图:为直观地描述成对样本数据中两个变量间的关系,用横轴表示其中的一个变量,纵轴表示另一个变量,则成对样本数据都可以用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
(2)散点图的作用
如果散点图中变量的对应点分布在某条曲线的周围,我们就可以得出结论:这两个变量具有相关性,如图(1)(2).如果变量的对应点分布没有规律,我们就可以得出结论:这两个变量不具有相关性,如图(3).
(3)正相关与负相关
从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现____的趋势,我们就称这两个变量正相关;当一个变量的值增加时,另一个变量的相应值呈现减小的趋势,则称这两个变量______.
(4)线性相关与曲线相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在________附近,我们就称这两个变量____相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
增加
负相关
一条直线
线性
思考 2.相关性可以如何分类?
[提示] (1)按变量间的增减性分为正相关和负相关.
(2)按变量间是否有线性特征分为线性相关和非线性相关(曲线相关).
知识点3 样本相关系数
(1)正相关与负相关的特点
一般地,如果变量x和y正相关,那么关于均值平移后的大多数散点将分布在____象限、____象限,对应的成对数据同号的居多;如果变量x和y______,那么关于均值平移后的大多数散点将分布在第二象限、第四象限,对应的成对数据异号的居多.
第一
第三
负相关
,我们称r为变量x和变量y的____________.
①当r>0时,称成对样本数据______.这时,当其中一个数据的值变小时,另一个数据的值通常也____;当其中一个数据的值变大时,另一个数据的值通常也____.
②当r<0时,称成对样本数据______.这时,当其中一个数据的值变小时,另一个数据的值通常会____;当其中一个数据的值变大时,另一个数据的值通常会____.
(2)样本相关系数
样本相关系数
正相关
变小
变大
负相关
变大
变小
(3)相关系数与相关程度
|r|的大小可以反映成对样本数据之间线性相关的程度,|r|≤1.
当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.
当|r|越接近1时,成对样本数据的线性相关程度____;
当|r|越接近0时,成对样本数据的线性相关程度____.
当|r|=1时,表明成对样本数据都落在一条直线上;当r=0时,只表明成对样本数据间没有线性相关关系,但不排除它们之间有其他相关关系.
越强
越弱
思考 3.能否说“r越大,两个变量间的相关程度越强;r越小,两个变量间的相关程度越弱”?
[提示] 不能.|r|越大,两个变量间的相关程度越强;|r|越小,两个变量间的相关程度越弱.
1.下列图中的两个变量是相关关系的是________.
②③ [散点图①中,所有的散点都在曲线上,所以①具有函数关系;散点图②中,所有的散点都分布在一条直线的附近,所以②具有相关关系;散点图③中,所有的散点都分布在一条曲线的附近,所以③具有相关关系;散点图④中,所有的散点杂乱无章,没有分布在一条曲线的附近,所以④没有相关关系.]
②③
2.若对甲、乙、丙3组不同的成对数据作线性相关性检验,得到这3组成对数据的样本相关系数依次为0.83,0.72,-0.90,则线性相关程度最强的组是________(填“甲”“乙”或“丙”).
丙 [样本相关系数|r|越接近1,成对数据的线性相关程度就越强,结合题中所给的3组成对数据的样本相关系数知,-0.90的绝对值最接近1,所以丙组成对数据的线性相关程度最强.]
丙
3.某公司欲知诗词日历费用x(十万元)与诗词日历销售量y(千本)之间的关系,从其所发行的诗词日历中随机抽取了10张,得到如下的资料:
0.3 [由题中数据可知r==0.3.]
则y与x的相关系数r为________.
0.3
关键能力·合作探究释疑难
02
类型1 相关关系
类型2 散点图及其应用
类型3 样本相关系数及其应用
【例1】 (1)(2023·兰州高二检测)有下列关系:
①人的年龄与他(她)拥有的财富之间的关系;②曲线上的点与该点的坐标之间的关系;③苹果的产量与气候之间的关系;④森林中的同一种树木,其横断面直径与高度之间的关系,其中有相关关系的是( )
A.①②③ B.①②
C.②③ D.①③④
◆ 类型1 相关关系
D 因为相关关系是一种不确定的关系,是非随机变量与随机变量之间的关系,②是一种函数关系,所以具有相关关系的有①③④.
√
(2)(多选)某中学的兴趣小组将在某座山测得海拔高度、气压和沸点的六组数据绘制成散点图如图所示,则下列说法正确的是( )
A.沸点与海拔高度呈正相关
B.沸点与气压呈正相关
C.沸点与海拔高度呈负相关
D.气压与海拔高度呈负相关
BCD 由图1知气压随海拔高度的增加而减小,由图2知沸点随气压的升高而升高,所以气压与海拔高度呈负相关,D正确;沸点与气压呈正相关,B正确;沸点与海拔高度呈负相关,A错误,C正确.
√
√
√
反思领悟 (1)根据直观感觉判断,这时要用到已有的知识或生活、学习中的经验等.
(2)根据散点图判断,这时要由两个变量相应值的对应关系,作出散点图,通过观察散点图中各点是否分布在某条曲线的周围,从而判断变量之间是否具有相关关系.
[跟进训练]
1.5位学生的数学成绩和物理成绩如下表:
则数学成绩与物理成绩之间( )
A.是函数关系
B.是相关关系,但相关性很弱
C.具有较好的相关关系,且是正相关
D.具有较好的相关关系,且是负相关
学生 A B C D E
数学 80 75 70 65 60
物理 70 66 68 64 62
√
C [数学成绩x和物理成绩y的散点图如图所示.
从图上可以看出数学成绩和物理成绩具有较好的相关关系,且成正相关.]
◆类型2 散点图及其应用
【例2】 下面是水稻产量与施化肥量的一组观测数据:
施化肥量 15 20 25 30 35 40 45
水稻产量 320 330 360 410 460 470 480
(1)将上述数据制成散点图;
[解] 散点图如图.
(2)你能从散点图中发现施化肥量与水稻产量近似呈什么关系吗?水稻产量会一直随施化肥量的增加而增加吗?
[解] 从图中可以发现,当施化肥量由小到大变化时,水稻产量也由小变大,图中的散点大致分布在一条直线的附近,因此施化肥量和水稻产量近似呈线性相关关系,但水稻产量只是在一定范围内随着化肥施用量的增加而增加,不会一直随施化肥量的增加而增加.
反思领悟 (1)画散点图时应注意合理选择单位长度,避免图形过大或偏小,或者是点的坐标在坐标系中画不准,使图形失真,导致得出错误结论.
(2)在这里利用散点图直观感知事物的形态与变化,理解事物间的关联及变化规律,是数学核心素养直观想象的具体体现.
[跟进训练]
2.某种树木体积与树木的树龄之间有如下的对应关系:
(1)请作出这些数据的散点图;
树龄 2 3 4 5 6 7 8
体积 30 34 40 60 55 62 70
[解] 以x轴表示树木的树龄,y轴表示树木的体积,可得相应的散点图如图所示.
(2)你能由散点图发现树木体积与树木的树龄近似呈什么关系吗?
[解] 由散点图发现树木体积随着树龄的增加呈现增加的趋势,且散点大致落在一条直线附近,所以树木的体积与树龄近似呈线性相关关系.
◆ 类型3 样本相关系数及其应用
角度1 判断线性相关的强弱
【例3】 某厂的生产原料耗费x(单位:百万元)与销售额y(单位:百万元)之间有如下的对应关系:
(1)画出(x,y)的散点图;
x 2 4 6 8
y 30 40 50 70
[解] 画出(x,y)的散点图如图所示,
(2)计算x与y之间的样本相关系数,并刻画它们的相关程度.
[解] =47.5,
故样本相关系数
=≈0.982 7.
由样本相关系数r≈0.982 7,可以推断出生产原料耗费与销售额这两个变量正线性相关,且相关程度很强.
反思领悟 线性相关强弱的判断方法
(1)散点图:散点图只是粗略作出判断,其图象越接近直线,相关性越强.
(2)样本相关系数:样本相关系数能够较准确地判断相关的程度,其绝对值越大,相关性越强.
[跟进训练]
3.现随机抽取某中学高一10名在校学生,他们入学时的数学成绩x与入学后第一次考试的数学成绩y如表所示.
学生号 1 2 3 4 5 6 7 8 9 10
x 120 108 117 104 103 110 104 105 99 108
y 84 64 84 68 69 68 69 46 57 71
请问:这10名学生的两次数学成绩是否具有较强的线性相关关系?
附:若|r|>0.75,则我们可以认为y与x之间具有较强的线性相关关系.
[解] 由题意知,=×(120+108+117+104+103+110+104+105+99+108)=107.8,
=×(84+64+84+68+69+68+69+46+57+71)=68,
所以样本相关系数
r=≈0.750 6.
|r|>0.75,故我们可以认为y与x之间具有较强的线性相关关系.
即这10名学生的两次数学成绩具有较强的线性相关关系.
角度2 样本相关系数的应用
【例4】 以下是收集到的新房屋的销售价格y(单位:万元)和房屋的大小x(单位:m2)的数据.
房屋大小x/m2 115 110 80 135 105
销售价格y/万元 24.8 21.6 18.4 29.2 22
(1)画出数据的散点图;
[解] 画出散点图如图所示.
==≈0.96,
由此可知,新房屋的销售价格和房屋的大小这两个变量正线性相关,且相关程度很强.
(2)求样本相关系数r,并作出评价.(精确到0.01,已知
[解] ==23.2,
反思领悟 (1)当相关系数|r|越接近1时,两个变量的相关关系越强,当相关系数|r|越接近0时,两个变量的相关关系越弱.
(2)样本相关系数r有时也称样本线性相关系数,|r|刻画了样本点集中于某条直线的程度.当r=0时,只表明成对数据间没有线性相关关系,但不排除它们之间有其他相关关系.
[跟进训练]
4.我国北方广大农村地区、一些城镇以及部分大中型城市的周边区域,还在大量采用分散燃煤和散烧煤取暖,既影响了居民基本生活的改善,也加重了北方地区冬季的雾霾天气.推进北方地区冬季清洁取暖,是重大民生工程、民心工程,关系北方地区广大群众温暖过冬,关系雾霾天能不能减少,是能源生产和消费革命、农村生活方式革命的重要内容.国家发改委制定了煤改气、煤改电价格扶持新政策,从而使得煤改气、煤改电用户大幅度增加,下面条形图反映了某省连续7个月的煤改气、煤改电的用户数量.
在给定坐标系中作出煤改气、煤改电用户数量y随月份t变化的散点图,并用散点图和样本相关系数说明y与t之间具有线性相关性.
参考公式:样本相关系数
[解] 作出散点图如图所示,由散点图可得y与t有较强的线性相关性.
由条形图数据和参考数据得,
∴r≈≈0.99.
∵y与t的样本相关系数近似为0.99,
∴y与t的线性相关性相当高.
学习效果·课堂评估夯基础
03
1.下列选项中,两变量间具有相关关系的是( )
A.正方体的体积与棱长 B.匀速行驶的汽车的行驶距离与时间
C.人的身高与视力 D.某人每日吸烟量与其身体健康情况
1
2
3
4
√
D [对于A,正方体的体积与棱长是函数关系,不满足题意;
对于B,匀速行驶的汽车的行驶距离与时间是函数关系,不满足题意;
对于C,人的身高与视力没有明显的关系,不满足题意;
对于D,某人每日吸烟量与其身体健康情况有相关关系,满足题意.]
D [对于图(1),图中的点成带状分布,且从左下角到右上角上升,两个变量正相关;对于图(2),图中的点杂乱无章,没有明显的规律,两个变量不相关;对于图(3),图中的点成带状分布,且从左上角到右下角下降,两个变量负相关.故选D.]
2.如图所示的散点图分别反映的变量间的相关关系是( )
A.正相关,负相关,不相关
B.负相关,不相关,正相关
C.负相关,正相关,不相关
D.正相关,不相关,负相关
1
2
3
4
√
3.两个变量x,y的样本相关系数r1=0.785 9,两个变量u,v的样本相关系数r2=-0.956 8,则下列判断正确的是( )
A.变量x与y正相关,变量u与v负相关,变量x与y的线性相关性较强
B.变量x与y负相关,变量u与v正相关,变量x与y的线性相关性较强
C.变量x与y正相关,变量u与v负相关,变量u与v的线性相关性较强
D.变量x与y负相关,变量u与v正相关,变量u与v的线性相关性较强
1
2
3
4
√
C [由样本相关系数r1=0.785 9>0知x与y正相关,
由样本相关系数r2=-0.956 8<0知u,v负相关.
又|r1|<|r2|,
∴变量u与v的线性相关性比x与y的线性相关性强.]
1
2
3
4
1
2
3
4
0.849
约为________.(精确到0.001)
0.849 [ ,
故r=≈0.849.]
1
2
3
4
回顾本节知识,自主完成以下问题:
1.怎样画散点图?
[提示] (1)建立平面直角坐标系,两轴的单位长度可以不一致;
(2)将n个样本点(xi,yi)(i=1,2,3,…,n)描在平面直角坐标系中.
2.怎样判断两个变量具有相关关系?
[提示] (1)根据直观感觉或生活经验等判断;
(2)根据成对数据的变化趋势判断;
(3)根据散点图判断:若散点图中各点分布在一条直线或曲线附近,则变量具有相关关系.
3.样本相关系数r的大小与两个变量的相关程度有何关系?
[提示] |r|越接近1,两个变量间线性相关程度越大;|r|越接近0,两个变量间线性相关程度越小.
阅读材料·拓展数学大视野
04
相关系数与向量夹角的余弦
当n=2时,相关系数的计算公式可改写为
r=.
此时,如果令a=(x1-,x2-),b=(y1-,y2-),则相关系数r等于向量a与b的夹角的余弦,即
r=cos 〈a,b〉=.
类似地,当n=3时,相关系数r仍等于两个向量夹角的余弦,只不过此时两个向量分别为
a=(x1-,x2-,x3-),b=(y1-,y2-,y3-).
一般地,a=(x1-,x2-,…,xn-),b=(y1-,y2-,…,yn-)都称为n维向量,如果按照类似2维与3维的情况定义向量的内积和模,则相关系数r总是等于两个向量夹角的余弦.(共46张PPT)
第八章 成对数据的统计分析
8.2 一元线性回归模型及其应用
8.2.1 一元线性回归模型
8.2.2 一元线性回归模型参数的最小二乘估计
第2课时 回归分析及非线性回归模型
学习任务 1.了解残差、残差图的概念.(数学抽象)
2.会通过分析残差和利用R2判断回归模型的拟合效果.(数学运算、数据分析)
3.了解非线性回归模型,掌握对数函数模型、指数函数模型和幂函数模型的求解过程.(数学运算、数学建模)
必备知识·情境导学探新知
01
设某幼苗从观察之日起,第x天的高度为y cm,测得的一些数据如表所示:
第x天 1 4 9 16 25 36 49
高度y/cm 0 4 7 9 11 12 13
作出这组数的散点图近似描述y与x的关系,
很显然,这些散点不在一条直线附近.
你能求出这个函数模型吗?
知识点1 残差及残差图
(1)对于响应变量Y,通过观测得到的数据称为______.通过经验回归方程得到的称为______,观测值减去预测值称为____.残差是随机误差的估计结果.通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等.
观测值
预测值
残差
(2)作图时纵坐标为残差,横坐标可以选为样本编号,或解释变量的观测值等,这样作出的图形称为______.在残差图中,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度____,说明模型拟合精度越高.
(3)残差分析:____是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为________.
残差图
越窄
残差
残差分析
知识点2 对模型刻画数据效果的分析
(1)残差图法:在残差图中,如果残差比较均匀地集中在以________
_____________________,则说明经验回归方程较好地刻画了两个变量的关系.
横轴为对
称轴的水平带状区域内
(3)决定系数R2法:可以用R2= 来比较两个模型的拟合效果,R2越__,模型拟合效果越差,R2越__,模型拟合效果越好.
小
大
思考 决定系数R2的取值范围是什么?
[提示] 0≤R2≤1.
知识点3 非线性回归方程
(1)非线性回归分析的思想
研究两个变量的关系时,依据样本点画出散点图,从整体上看,如果样本点没有分布在某个带状区域内,就称这两个变量之间不具有线性相关关系,此时不能直接利用经验回归方程来建立两个变量之间的关系.
(2)非线性经验回归方程
当回归方程不是形如=x+(,∈R)时,称之为非线性经验回归方程.当两个变量不呈线性相关关系时,依据样本点的分布选择合适的曲线方程来拟合数据,可通过变量代换,利用线性回归模型建立两个变量间的非线性经验回归方程.
1.思考辨析(正确的画“√”,错误的画“×”)
(1)残差平方和越接近0,线性回归模型的拟合效果越好. ( )
(2)在画两个变量的散点图时,响应变量在x轴上,解释变量在y轴上. ( )
(3)R2越小,线性回归模型的拟合效果越好. ( )
(4)在残差图中,纵坐标为残差,横坐标可以选为样本编号. ( )
√
×
×
√
2.在两个变量y与x的回归模型中,分别选择了4个不同的模型,它们的决定系数R2如下,其中拟合效果最好的模型是( )
A.模型1的决定系数R2为0.98
B.模型2的决定系数R2为0.80
C.模型3的决定系数R2为0.50
D.模型4的决定系数R2为0.25
√
A [R2越大拟合效果越好.]
3.从某省“双一流”大学中随机选出8名女大学生,得到其身高x(单位:cm)与体重y(单位:kg)的数据如下表:
若已知y与x的经验回归方程为=0.85x-85.71,则选取的女大学生身高为175 cm时,相应的残差为________kg.
x 165 165 157 170 175 165 155 170
y 48 57 50 54 64 61 43 59
0.96 [当x=175 cm时,=0.85×175-85.71=63.04(kg),
∴相应的残差=64-63.04=0.96(kg).]
0.96
关键能力·合作探究释疑难
02
类型1 残差与残差分析
类型2 残差平方和与决定系数R2
类型3 非线性回归分析
【例1】 (1)对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是( )
◆ 类型1 残差与残差分析
A B
C D
A 用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高.
√
(2)已知一系列样本点(xi,yi)(i=1,2,3,…,n)的经验回归方程为=2x+,若样本点(r,1)与(1,s)的残差相同,则有( )
A.r=s B.s=2r
C.s=-2r+3 D.s=2r+1
C 样本点(r,1)的残差为1-2r-,
样本点(1,s)的残差为s--2.
依题意得1-2r--2,
故s=-2r+3.
√
反思领悟 (1)残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型拟合精度越高,经验回归方程的预报精度越高.
(2)残差是随机误差的估计值,i=yi-i.
[跟进训练]
1.两个线性相关变量x与y的统计数据如表所示:
x 9 9.5 10 10.5 11
y 11 10 8 6 5
其经验回归方程是=x+40,则相对应于点(11,5)的残差为( )
A.0.1 B.0.2 C.0.3 D.0.4
√
B [由于x+40过样本中心点(10,8),
所以8=10=-3.2,
因此=-3.2x+40.
当x=11时,=-3.2×11+40=4.8,
所以残差=5-4.8=0.2.]
2.已知某成对样本数据的残差图如图,则样本点数据中可能不准确的是从左到右第________个.
6 [原始数据中的可疑数据往往是残差绝对值过大的那个数据,即偏离平衡位置过大.]
6
◆类型2 残差平方和与决定系数R2
【例2】 已知某种商品的价格x(单位:元)与需求量y(单位:件)之间的关系有如下一组数据:
(1)求y关于x的经验回归方程;
x 14 16 18 20 22
y 12 10 7 5 3
[解] =×(14+16+18+20+22)=18=×(12+10+7+5+3)=7.4,
所以= ==-1.15,
=7.4+1.15×18=28.1,
所以所求经验回归方程是=-1.15x+28.1.
(2)借助残差平方和与R2说明回归模型拟合效果的好坏.
[解] 列出残差表为
0 0.3 -0.4 -0.1 0.2
4.6 2.6 -0.4 -2.4 -4.4
所以回归模型的拟合效果很好.
反思领悟 刻画回归效果的三种方法
(1)残差图法:残差点比较均匀地落在水平带状区域内说明选用的模型比较合适.
(3)决定系数R2法:R2=1- 越接近1,表明模型的拟合效果越好.
[跟进训练]
3.为研究质量x(单位:g)对弹簧长度y(单位:cm)的影响,对不同质量的6个物体进行测量,数据如表所示:
x 5 10 15 20 25 30
y 7.25 8.12 8.95 9.90 10.9 11.8
(1)作出散点图并求经验回归方程;
[解] 散点图如图所示.
样本点分布在一条直线附近,y与x具有线性相关关系.
由表中数据,得=×(5+10+15+20+25+30)=17.5,
=×(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487
计算得≈6.285.
故所求经验回归方程为=6.285+0.183x.
(2)求出R2并说明回归模型拟合的程度;
[解] 列表如下:
0.05 0.005 -0.08 -0.045 0.04 0.025
-2.237 -1.367 -0.537 0.413 1.413 2.313
所以R2=1-≈0.999 1,回归模型的拟合效果较好.
(3)进行残差分析.
[解] 由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在宽度不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与所挂物体的质量成线性关系.
◆ 类型3 非线性回归分析
【例3】 为了研究某种细菌随时间x变化,繁殖的个数y的变化,收集数据如表所示:
天数x/天 1 2 3 4 5 6
繁殖个数y/个 6 12 25 49 95 190
(1)用天数作解释变量,繁殖个数作响应变量,作出这些数据的散点图,根据散点图判断:=+x与y=c1哪一个作为繁殖的个数y关于时间x变化的回归方程类型为最佳?(给出判断即可,不必说明理由)
3.5 62.83 3.53 17.5 596.505 12.04
[解] 作出散点图,如图1所示.
由散点图看出样本点分布在一条指数函数y=c1
.
(2)根据(1)的判断最佳结果及表中的数据,建立y关于x的回归方程.
[解] 令z=ln y,则x+.
x 1 2 3 4 5 6
z 1.79 2.48 3.22 3.89 4.55 5.25
相应的散点图如图2.
从图2可以看出,变换后的样本点分布在一条直线附近,因此可以用经验回归方程来拟合.
a==0.69x+1.115,
则有y=e0.69x+1.115.
[母题探究]
(变设问)在本例条件不变的情况下,试估计第7天细菌繁殖个数.
[解] ∵=e0.69x+1.115,
∴当x=7时,≈382(个),
即第7天细菌繁殖个数约为382个.
反思领悟 解决非线性回归问题的方法及步骤
(1)确定变量:确定解释变量为x,响应变量为y.
(2)画散点图:通过观察散点图并与学过的函数(幂、指数、对数函数、二次函数)作比较,选取拟合效果好的函数模型.
(3)变量置换:通过变量置换把非线性回归问题转化为线性回归问题.
(4)分析拟合效果:通过计算决定系数等来判断拟合效果.
(5)写出非线性回归方程.
提醒:当数据量较大时,可采用计算器或者数学软件来求回归方程.
[跟进训练]
4.(源自湘教版教材)实验中获得了某化学品的化学反应时间和转化率的数据如表,试建立转化率y关于反应时间x的回归方程(结果保留三位小数).
时间x/min 60 80 100 120 140 150 160 170
转化率y/% 6.13 9.99 15.02 20.92 31.11 38.85 47.25 55.05
[解] 根据收集的数据作散点图(图1).
观察散点图可知,样本点并没有分布在某条直线附近,因而变量y与x之间没有明显的线性相关关系,所以不能直接利用线性回归模型来刻画这两个变量之间的关系.根据已有的数学知识,可以认为样本点分布在指数曲线y=c1的附近,其中c1和c2是待定参数.
为估计参数c1和c2,在y=c1的两端取对数,得到ln y=ln c1+c2x.
再令z=ln y,a=ln c1,b=c2,则得到直线方程z=bx+a.
将题表中的数据进行代换,得到的数据见下表.
x 60 80 100 120 140 150 160 170
z (=ln y) 1.813 2.302 2.709 3.041 3.438 3.660 3.855 4.008
图2是根据上表中数据作出的散点图.
从图2中可以看出,变换后的样本点分布在一条直线的附近,说明z和x之间具有线性相关关系,因此可以用线性回归方程来拟合.对上表中的数据,用最小二乘法可得线性回归方程为=0.019x+0.686.
再利用y=ez可得到转化率y关于反应时间x的非线性回归方程为=e0.686·e0.019x≈1.986e0.019x.
学习效果·课堂评估夯基础
03
1.下面四个残差图中,可以满足一元线性回归模型中对随机误差的假定的是( )
1
2
3
4
√
A [由残差图显示的分布情况即可看出,图A显示的残差分布比较集中,且成带状分布,满足一元线性回归模型中对随机误差的假定.]
A B
C D
2.下列说法错误的是( )
A.残差点分布的带状区域越窄,回归方程的拟合效果越好
B.残差平方和越小,决定系数R2越大
C.决定系数R2可以大于1
D.通过经验回归方程得到的预报值是响应变量的可能取值的平均值,不一定是响应变量的精确值
1
2
3
4
√
C [由R2的计算公式,知B正确,C错误;A,D均正确.]
3.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性作试验,并用回归分析的方法分别求得相关系数r与残差平方和m如表:
则________同学的试验结果体现了A,B两变量更强的线性相关性.
1
2
3
4
丁 [由题表可知,丁同学的相关系数r最大且残差平方和m最小,故丁同学的试验结果体现了A,B两变量更强的线性相关性.]
甲 乙 丙 丁
r 0.82 0.78 0.69 0.85
m 106 115 124 103
丁
4.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条曲线y=ebx+a的周围,令z=ln y,求得经验回归方程为=0.25x-2.58,则该模型的经验回归方程为_________________.
1
2
3
4
=e0.25x-2.58 [由=e0.25x-2.58.]
=e0.25x-2.58
回顾本节知识,自主完成以下问题:
1.对模型刻画数据效果的分析有哪些常见方法?
[提示] 残差图法,残差平方和法和R2法.
2.决定系数R2与相关系数r一样吗?
[提示] 在含有一个解释变量的线性回归模型中,决定系数R2恰好等于相关系数r的平方.在线性回归模型中有0≤R2≤1,因此R2和两个变量的相关系数r都能刻画用线性回归模型拟合数据的效果.|r|越大,R2就越大,线性回归模型拟合数据的效果就越好.(共56张PPT)
第八章 成对数据的统计分析
8.3 列联表与独立性检验
8.3.1 分类变量与列联表
8.3.2 独立性检验
学习 任务 1.了解2×2列联表、随机变量χ2的意义.(数学抽象)
2.理解独立性检验中P(χ2≥xα)的具体含义.(数学抽象)
3.掌握独立性检验的方法和步骤.(数据分析)
4.通过典型案例,学习统计方法,并能用这些方法解决一些实际问题.(数学建模、数据分析)
必备知识·情境导学探新知
01
任意抽取某市的一名学生,记A:喜欢长跑;B:是女生.
(1)你能得出P(A),P(B),P(AB)这三者的准确值吗?
(2)如果要判断A与B是否独立,该怎么办?
知识点1 数值变量与分类变量
数值变量:数值变量的取值为____,其大小和运算都有实际含义.
分类变量:这里所说的变量和值不一定是具体的数值,例如:性别变量,其取值为男和女两种,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为________,分类变量的取值可以用____表示.
实数
分类变量
实数
知识点2 列联表与等高堆积条形图
(1)2×2列联表
①定义:列出的两个分类变量的______,称为列联表.
②2×2列联表,一般地,假设有两个分类变量X和Y,它们的取值分别为{0,1},其样本频数列联表为:
X Y 合计
Y=0 Y=1 X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
频数表
最后一行的前两个数分别是事件{Y=0}和{Y=1}的频数;最后一列的前两个数分别是事件{X=0}和{X=1}的频数;中间的四个数a,b,c,d是事件{X=x,Y=y}(x,y=0,1)的频数;右下角格中的数n为样本容量.
(2)等高堆积条形图
等高堆积条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高堆积条形图展示列联表数据的____特征,依据______________的原理,我们可以推断结果.
频率
频率稳定于概率
提醒 2×2列联表用于研究两类变量之间是否相互独立,它适用于分析两类变量之间的关系,是对两类变量进行独立性检验的基础.
知识点3 独立性检验
(1)零假设:设X和Y为定义在Ω上,取值于{0,1}的成对分类变量.
由于{X=0}和{X=1},{Y=0}和{Y=1}都是互为对立事件,故要判断事件{X=1}和{Y=1)之间是否有关联,需要判断假定关系H0:___________________________是否成立.
P(Y=1|X=0)=P(Y=1|X=1)
(2)独立性检验的公式
χ2=,其中n=__________,用随机变量χ2取值的大小作为判断零假设H0是否成立的依据,当它比较大时推断H0不成立,否则认为H0成立.
(3)临界值:对任何小概率值α,可以找到相应的正实数xα,使P(χ2≥xα)=α.称xα为α的临界值.临界值可作为判断χ2大小的标准.概率值α越小,临界值xα越大.
a+b+c+d
(4)小概率值α的检验规则:当χ2≥xα时,推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α.
当χ2
(5)χ2独立性检验中几个常用的小概率值和相应的临界值.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
1.思考辨析(正确的画“√”,错误的画“×”)
(1)分类变量中的变量与函数中的变量是同一概念. ( )
(2)列联表中的数据是两个分类变量的频数. ( )
(3)列联表、频率分析法、等高堆积条形图都可初步分析两个分类变量是否有关系. ( )
(4)在独立性检验中,若χ2越大,则两个分类变量有关系的可能性越大. ( )
(5)2×2列联表是借助两个分类变量之间频率大小差异说明两个变量之间是否有关联关系. ( )
(6)应用独立性检验的基本思想对两个变量间的关系作出的推断一定是正确的.
( )
√
×
√
√
√
×
2.某校为了检验高中数学新课程改革的成果,在两个班进行教学方式的对比试验,两个月后进行了一次检测,试验班与对照班的成绩统计如2×2列联表所示(单位:人),则其中m=________,n=________.
班级 成绩 合计
80分及80分以上 80分以下 试验班 32 18 50
对照班 24 m 50
合计 56 44 n
26 100 [由题意得解得m=26,n=100.]
26
100
3.根据表格计算:
χ2≈________(保留3位小数).
性别 不看电视 看电视
男 37 85
女 35 143
4.514 [χ2=≈4.514.]
4.514
关键能力·合作探究释疑难
02
类型1 列联表与等高堆积条形图
类型2 由χ2进行独立性检验
类型3 独立性检验的综合应用
【例1】 (1)根据如图所示的等高堆积条形图可知喝酒与患胃病________关系.(填“有”或“没有”)
◆ 类型1 列联表与等高堆积条形图
有 [从等高堆积条形图上可以明显地看出喝酒患胃病的频率远远大于不喝酒患胃病的频率,所以由所给等高堆积条形图可知,喝酒与患胃病有关系.]
有
(2)网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1 000人调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人不及格.利用等高堆积条形图判断,学生学习成绩与经常上网有关吗?
[解] 根据题目所给的数据得到如下2×2列联表:
学习 成绩 上网 合计
经常 不经常 不及格 80 120 200
及格 120 680 800
合计 200 800 1 000
得出等高堆积条形图如图所示:
比较图中阴影部分高可以发现经常上网不及格的频率明显高于经常上网及格的频率,因此可以认为学习成绩与经常上网有关.
反思领悟 1.利用2×2列联表分析两变量间关系的步骤
(1)根据题中数据获得2×2列联表;
(2)根据频率特征,即将与的值相比,直观地反映出两个分类变量间是否相互影响.
2.利用等高堆积条形图判断两个分类变量是否相关的步骤:
[跟进训练]
1.某学校对高三学生作了一项调查,发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张.作出等高堆积条形图,利用图形判断考前心情紧张与性格类别是否有关系.
[解] 作列联表如下:
考前 心情 性格 合计
内向 外内 紧张 332 213 545
不紧张 94 381 475
合计 426 594 1 020
相应的等高堆积条形图如图所示.
图中阴影部分表示考前心情紧张与
考前心情不紧张中性格内向的比例.
从图中可以看出考前心情紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前心情紧张与性格类别有关.
◆类型2 由χ2进行独立性检验
角度1 分类变量“相关的检验”
【例2】 (源自湘教版教材)为了考察某种新疫苗预防疾病的作用,科学家对动物进行试验,所得数据(单位:只)如下表所示:
是否接种疫苗 发病 没发病 合计
接种疫苗 8 15 23
没接种疫苗 18 9 27
合计 26 24 50
能否作出接种疫苗与预防疾病有关的结论?
[解] 提出统计假设H0:接种疫苗与预防疾病无关.
根据列联表中的数据,可以求得
χ2=≈5.059,
由于5.024<5.059<6.635,查临界值表可知,我们至少有97.5%的把握认为接种疫苗与预防疾病有关,即疫苗有效.
反思领悟 用χ2进行“相关的检验”步骤
(1)零假设:即先假设两变量间没关系.
(2)计算χ2:套用χ2的公式求得χ2值.
(3)查临界值:结合所给小概率值α查得相应的临界值xα.
(4)下结论:比较χ2与xα的大小,并作出结论.
[跟进训练]
2.在某医院,因为患心脏病而住院的600名男性病人中,有200人秃顶,而另外750名不是因为患心脏病而住院的男性病人中有150人秃顶.
(1)填写下列秃顶与患心脏病列联表:
是否 秃顶 患病 合计
患心脏病 患其他病 秃顶
不秃顶
合计
据表中数据估计秃顶病患中患心脏病的概率P1和不秃顶病患中患心脏病的概率P2,并用两个估计概率判断秃顶与患心脏病是否有关;
[解]
是否 秃顶 患病 合计
患心脏病 患其他病 秃顶 200 150 350
不秃顶 400 600 1 000
合计 600 750 1 350
P1==,P2==.
由于P1远大于P2,所以判断秃顶与患心脏病有关.
(2)依据α=0.001的独立性检验,分析秃顶与患心脏病有关吗?请说明理由.
注:χ2=.
α 0.10 0.05 0.025 0.010 0.005 0.001
xα 2.706 3.841 5.024 6.635 7.879 10.828
[解] 零假设为H0:秃顶与患心脏病无关.
由题可知
χ2=≈30.86>10.828=x0.001,
所以依据小概率值α=0.001的独立性检验,我们推断H0不成立,即认为秃顶与患心脏病有关.
角度2 分类变量“无关的检验”
【例3】 某省进行高中新课程改革,为了解教师对新课程教学模式的使用情况,某教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.
(1)根据以上数据建立一个2×2列联表;
[解] 2×2列联表如表所示:
教师年龄 对新课程教学模式 合计
赞同 不赞同 老教师 10 10 20
青年教师 24 6 30
合计 34 16 50
(2)试根据小概率值α=0.01的独立性检验,分析对新课程教学模式的赞同情况与教师年龄是否有关系.
附:
χ2=
α 0.025 0.01 0.005
xα 5.024 6.635 7.879
[解] 零假设为H0:对新课程教学模式的赞同情况与教师年龄无关.
由题可知
χ2=≈4.963<6.635=x0.01,
根据小概率值α=0.01的独立性检验,没有充分证据推断H0不成立,因此可以以为H0成立,即认为对新课程教学模式的赞同情况与教师年龄无关.
反思领悟 独立性检验的关注点
(1)χ2计算公式较复杂,一是公式要清楚;二是代入数值时不能张冠李戴;三是计算时要细心.
(2)判断时把计算结果与临界值比较,其值越大,有关的可信度越高.
[跟进训练]
3.为了解某挑战赛中是否接受挑战与受邀者的性别是否有关系(假设每个人是否接受挑战互不影响),某机构进行了随机抽样调查,得到如下调查数据(单位:人):
性别 挑战 合计
接受挑战 不接受挑战 男性 45 15 60
女性 25 15 40
合计 70 30 100
试根据小概率值α=0.1的独立性检验,分析比赛中是否接受挑战与受邀者的性别是否有关.
附:χ2=.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
[解] 零假设H0:是否接受挑战与受邀者的性别无关.
根据列联表中的数据,可以求得
χ2=≈1.786.
因为1.786<2.706,所以没有充分的证据显示比赛中是否接受挑战与受邀者的性别有关.
◆ 类型3 独立性检验的综合应用
【例4】 第24届冬奥会已于2022年2月4日至2月22日在北京市和河北省张家口市联合举行,这是中国历史上第一次举办冬季奥运会.为了宣传冬奥会,让更多的人了解喜爱冰雪项目,某校高三年级举办了冬奥会知识竞赛(总分:100分),并随机抽取了n名中学生的成绩,绘制成如图所示的频率分布
直方图.已知前三组的频率成等差数
列,第一组和第五组的频率相同.
(1)求实数a,b的值,并估计这n名中学生的成绩的平均值;(同一组中的数据用该组区间的中点值作代表)
(2)已知抽取的n名中学生中,男、女生人数相等,男生喜欢花样滑冰的人数占男生人数的,女生喜欢花样滑冰的人数占女生人数的,且在犯错误的概率不大于0.05的前提下,认为中学生喜欢花样滑冰与性别有关,求n的最小值.
参考数据及公式如下:
χ2=,n=a+b+c+d.
α 0.05 0.01 0.001
xα 3.841 6.635 10.828
[思路导引] (1)
(2)—
[解] (1)由题意知得
则各组频率依次为0.05,0.25,0.45,0.2,0.05.
∴=0.05×50+0.25×60+0.45×70+0.2×80+0.05×90=69.5(分).
(2)设男生人数为x,依题意可得2×2列联表如下:
χ2==x>3.841,
∴x≥29.
又x=4k,k∈N*,且各组的频数为正整数,
故xmin=32,nmin=64.
性别 花样滑冰 合计
喜欢 不喜欢 男 x
女 x
合计 2x
反思领悟 独立性检验综合应用的方法策略
(1)独立性检验在实际中有着广泛的应用,是对实际生活中数据进行分析的一种方法,通过这种分析得出的结论对实际生活有着重要的指导作用.
(2)近几年高考中较少单独考查独立性检验,经常与统计、概率、频率分布表、频率分布直方图等知识融合在一起考查.一般需要根据条件列出2×2列联表,计算χ2值,从而解决问题.
[跟进训练]
4.某学校研究性学习小组对该校高三学生视力情况进行调查,在高三的全体1 000名学生中随机抽取了100名学生的体检表,并得到如图所示的频率分布直方图.
(1)若频率分布直方图中后四组的频数成等差数列,试估计全年级视力在5.0以下的人数;
[解] 由图可知第一组有3人,第二组有7人,第三组有27人.
因为后四组的频数成等差数列,且它们的和为90,公差小于0,
所以后四组的频数依次为27,24,21,18.
所以视力在5.0以下的人数为3+7+27+24+21=82(或者100-18=82),故全年级视力在5.0以下的人数约为1 000×=820.
(2)学习小组成员发现,学习成绩突出的学生,近视的比较多,为了研究学生的视力与学习成绩是否有关系,对年级名次在1~50名和951~1 000名的学生进行了调查,得到下面的2×2列联表,根据小概率值α=0.05的独立性检验,能否认为视力与学习成绩有关联?
视力 学习成绩 合计
名次在1~50名 名次在951~1 000名 近视 41 32 73
不近视 9 18 27
合计 50 50 100
[解] 零假设H0:视力与学习成绩相互独立,即视力与学习成绩无关.
根据2×2列联表中的数据可得
χ2=≈4.110>3.841=x0.05.
根据小概率值α=0.05的独立性检验,我们推断H0不成立,即认为视力与学习成绩有关系,此推断犯错误的概率不大于0.05.
(3)在(2)中调查的100名学生中,按照分层抽样在不近视的学生中抽取了6人,进一步调查他们良好的护眼习惯,并且在这6人中任取2人,求抽取的2人中,恰有1人年级名次在1~50名的概率.
附:χ2=.
α 0.05 0.01 0.005 0.001
xα 3.841 6.635 7.879 10.828
[解] 依题意得,6人中年级名次在1~50名的有2人,年级名次在951~1 000名的有4人,则从6人中任取2人的情况有=15种,
恰有1人年级名次在1~50名的有=8种,所以所求概率为.
学习效果·课堂评估夯基础
03
1.下列不是分类变量的是( )
A.近视 B.成绩 C.血压 D.饮酒
1
2
3
4
√
B [近视变量有近视与不近视两种类别,血压变量有异常、正常两种类别,
饮酒变量有饮酒与不饮酒两种类别,
成绩不是分类变量,它的取值不一定有两种.]
2.假设有两个分类变量X与Y,它们的可
能取值分别为{0,1},其2×2列联表为
当m取下面何值时,X与Y的关系最弱( )
A.8 B.9
C.14 D.19
1
2
3
4
√
C [由10×26=18m,解得m≈14.4,所以当m=14时,X与Y的关系最弱.]
X Y 合计
Y=0 Y=1 X=0 10 18 28
X=1 m 26 m+26
合计 10+m 44 54+m
3.某校期中考试后,按照甲、乙两个班学生的数学成绩优秀和良好统计人数后,得到如右列联表:
则χ2约为( )
A.0.600 B.0.828
C.2.712 D.6.004
1
2
3
4
√
A [根据列联表中的数据,
可得χ2=≈0.600.]
班级 成绩 合计
优秀 良好 甲班 11 34 45
乙班 8 37 45
合计 19 71 90
4.下表是某校某届本科志愿报名时,对其中304名学生进入高校时是否知道想学专业的调查表:
根据表中数据,则下列说法正确的是_________.
(填序号)
①性别与知道想学专业有关;
②性别与知道想学专业无关;
③女生比男生更易知道想学专业.
1
2
3
4
性别 想学专业 合计
知道想学专业 不知道 想学专业 男生 63 117 180
女生 42 82 124
合计 105 199 304
②
② [零假设为H0:性别与知道想学专业无关,由表中数据得χ2=≈0.041<2.706=x0.1,依据α=0.1的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为性别与知道想学专业无关.]
1
2
3
4
回顾本节知识,自主完成以下问题:
1.在χ2运算后,得到χ2的值为29.78,在判断变量相关时,P(χ2≥6.635)≈0.01和P(χ2≥7.879)≈0.005,哪种说法是正确的?
[提示] 两种说法均正确.P(χ2≥6.635)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两个变量相关;而P(χ2≥7.879)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两个变量相关.
2.利用小概率值α独立性检验的依据是什么?
[提示] 如果χ2≥xα我们推断H0不成立.即认为两个分类变量不独立,且该推断犯错误的概率不超过α.如果χ2<xα就认为两个分类变量独立.(共29张PPT)
第八章 成对数据的统计分析
章末综合提升
巩固层·知识整合
01
提升层·题型探究
02
类型1 线性回归分析
类型2 独立性检验
类型3 概率与统计的综合应用
类型4 化归与转化思想在非线性回归分析中的应用
◆类型1 线性回归分析
1.回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.其基本步骤为通过散点图和经验选择经验回归方程的类型,然后通过一定的规则确定出相应的经验回归方程,通过一定的方法进行检验,最后应用于实际或对预报变量进行预测.
2.主要培养数学建模和数据分析的素养.
【例1】 下面给出了根据我国2016~2022年水果人均占有量y(单位:kg)和年份代码x绘制的散点图和经验回归方程的残差图(2016~2022年的年份代码x分别为1~7).
(1)根据散点图分析y与x之间的相关关系;
[解] 根据散点图可知,散点均匀分布在一条直线附近,且随着x的增大,y增大,故y与x成线性相关,且为正相关.
[解] 依题意=(1+2+3+4+5+6+7)=4,
= ≈7.89,
=≈153.43-7.89×4=121.87,
所以y关于x的经验回归方程为=7.89x+121.87.
求y关于x的经验回归方程;
(3)根据经验回归方程的残差图,分析经验回归方程的拟合效果.(精确到0.01)
[解] 由残差图可以看出,残差对应点分布在水平带状区域内,且宽度较窄,说明拟合效果较好,经验回归方程的预测精度较高.
◆类型2 独立性检验
1.独立性检验研究的问题是有多大把握认为两个分类变量之间有关系.为此需先列出2×2 列联表,从表格中可以直观地得到两个分类变量是否有关系.另外等高堆积条形图能更直观地反映两个分类变量之间的情况.独立性检验的思想是可以先假设二者无关系,求随机变量χ2的值,若χ2大于临界值,则拒绝假设,否则,接受假设.
2.通过计算χ2的值,进而分析相关性结论的可信程度,提升数学运算、数据分析的素养.
【例2】 某校鼓励即将毕业的大学生到西部偏远地区去支教,该校学生就业部针对即将毕业的男、女生是否愿意到西部支教进行问卷调查,得到的情况如表所示:
性别 支教 合计
愿意去支教 不愿意去支教 女生 20
男生 40
合计 70 100
(1)完成上述2×2列联表;
[解] 2×2列联表如下:
性别 支教 合计
愿意去支教 不愿意去支教 女生 30 20 50
男生 40 10 50
合计 70 30 100
(2)根据表中的数据,试根据小概率值α=0.05的独立性检验,分析愿意去西部支教是否与性别有关.
[解] 零假设H0:支教与性别相互独立,即是否愿意去西部支教与性别无关.根据2×2列联表中的数据,
可得χ2=≈4.762>3.841=x0.05,
根据小概率值α=0.05的独立性检验,我们推断H0不成立,
即认为是否愿意去西部支教与性别有关联,因此推断犯错误的概率不大于0.05.
根据2×2列联表中的数据计算,
女生愿意去支教与不愿意去支教的频率分别为=0.6=0.4;
男生愿意去支教与不愿意去支教的频率分别为=0.8=0.2.
由=2可见,女生不愿意去支教的频率是男生不愿意去支教的频率的2倍.
于是,根据频率稳定于概率的原理,我们可以认为女生不愿意去支教的概率明显大于男生不愿意去支教的概率,即是否愿意去西部支教明显与性别有关.
◆类型3 概率与统计的综合应用
1.概率与统计作为考查学生应用意识的重要载体,已成为近几年高考的一大亮点和热点,它与其他知识融合、渗透,情境新颖,充分体现了概率与统计的工具性和交汇性.
2.主要培养数据分析和数学运算学科素养.
【例3】 某公司对40名试用员工进行业务水平测试,根据测试成绩评定是否正式录用以及正式录用后的岗位等级,测试分笔试和面试两个环节.笔试环节所有40名试用员工全部参加;参加面试环节的员工由公司按规则确定.公司对40名试用员工的笔试得分(笔试得分都在[75,100]内)进行了统计分析,得到如下频率分布直方图和2×2列联表.
业务水平 性别 合计
男 女 优(得分不低于90分) 8
良(得分低于90分) 12
合计 40
(1)请完成上面的2×2列联表,并依据α=0.10的独立性检验,分析“试用员工的业务水平优良与否”与性别是否有关;
[解] 由题图可知,得分不低于90分的人数为40×(0.04+0.02)×5=12,所以补充完整的2×2列联表如下:
业务水平 性别 合计
男 女 优(得分不低于90分) 8 4 12
良(得分低于90分) 16 12 28
合计 24 16 40
零假设为H0:“试用员工的业务水平优良与否”与性别无关.
计算得χ2=≈0.317<2.706=x0.10,
根据小概率值α=0.10的独立性检验,没有充分证据推断H0不成立,即认为“试用员工的业务水平优良与否”与性别无关.
(2)公司决定:在笔试环节中得分低于85分的试用员工直接淘汰,得分不低于85分的试用员工都正式录用.笔试得分在[95,100]内的岗位等级直接定为一级(不必参加面试环节);笔试得分在[90,95)内的岗位等级初定为二级,但有的概率在面试环节将二级晋升为一级;笔试得分在[85,90)内的岗位等级初定为三级,但有的概率在面试环节将三级晋升为二级.规定所有被正式录用且岗位等级初定为二级和三级的员工都需参加面试.已知甲、乙为该公司的两名试用员工,将频率视为概率.
①若甲已被公司正式录用,求甲的最终岗位等级为一级的概率;
②若乙在笔试环节的岗位等级初定为二级,求甲的最终岗位等级不低于乙的最终岗位等级的概率.
参考公式:χ2=n=a+b+c+d.
α 0.15 0.10 0.05 0.010
xα 2.072 2.706 3.841 6.635
[解] 由题图可知,不低于85分的试用员工的人数为40×(0.06+0.04+0.02)×5=24,
岗位等级直接定为一级的概率为=
岗位等级初定为二级的概率为=
岗位等级初定为三级的概率为=.
①甲的最终岗位等级为一级的概率为=.
②若乙的最终岗位等级为二级,则甲的最终岗位等级为一级或二级,其概率为1-=;
若乙的最终岗位等级为一级,则甲的最终岗位等级为一级,其概率为.
故甲的最终岗位等级不低于乙的最终岗位等级的概率为=.
◆类型4 化归与转化思想在非线性回归分析中的应用
1.转化与化归思想主要体现在非线性回归分析中.在实际问题中,并非所有的变量关系均满足线性关系,故要选择适当的函数模型去拟合样本数据,再通过代数变换,把非线性问题线性化.
2.主要培养数学建模和数学运算的素养.
【例4】 (2023·江西上饶期末)某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每件产品的非原料成本y(元)与生产该产品的数量x(千件)有关,经统计得到如下数据:
x 1 2 3 4
y 56.5 31 22.75 17.8
x 5 6 7 8
y 15.95 14.5 13 12.5
对以上数据进行分析后,考虑用反比例函数模型y=a+和指数型函数模型y=cedx也分别对两个变量的关系进行拟合.已求得用指数型函数模型拟合的经验回归方程为y=48.376×e-0.195x,ln y与x的样本相关系数r1=-0.929.
(1)求用反比例函数模型拟合的y关于x的经验回归方程(系数保留整数);
[解] 令u=,则y=a+可转化为y=a+bu.
易得=23,
所以= =50,
所以==23-50×0.34=6,
所以=6+50u,
所以y关于x的经验回归方程为=6+.
(2)用样本相关系数判断这两个模型中哪一个的拟合效果更好(精确到0.001),并用其估计产量为10千件时每件产品的非原料成本;
[解] 设y与的样本相关系数为r2,
==≈0.993.
因为|r1|<|r2|,所以这两个模型中反比例函数模型的拟合效果更好.
把x=10代入回归方程=6+中得=6+=11,
所以产量为10千件时每件产品的非原料成本约为11元.
(3)根据企业长期研究表明,非原料成本y服从正态分布N(μ,σ2),用样本平均数作为μ的估计值,用样本标准差s作为σ的估计值,若非原料成本y在[μ-σ,μ+σ]之外,说明该成本异常,并称落在[μ-σ,μ+σ]之外的成本为异样成本,此时需要寻找出现异样成本的原因.试判断上述非原料成本数据是否需要寻找出现异样成本的原因.
参考数据:
0.34 0.115 1.53 184 5 777.555
93.06 30.705 13.9 参考公式:在经验回归方程中,= ,
,
样本相关系数r = .
[解] 因为=23,所以μ=23,
易得样本标准差s=
=≈13.9,
所以σ=13.9,所以非原料成本y服从正态分布N(23,13.92),
所以[μ-σ,μ+σ]=[23-13.9,23+13.9]=[9.1,36.9].
因为56.5在[μ-σ,μ+σ]之外,所以此非原料成本数据需要寻找出现异样成本的原因.(共24张PPT)
全书要点速记
第六章 计数原理
01
要点1 两个计数原理
分类加法计数原理 完成一件事有两类不同方案,在第1类方案中有m种不同的方法,在第2类方案中有n种不同的方法,那么完成这件事共有N=m+n种不同的方法
分步乘法计数原理 完成一件事需要两个步骤,做第1步有m种不同的方法,做第2步有n种不同的方法,那么完成这件事共有N=m×n种不同的方法
要点2 排列与组合
项目 排列 组合
概念 一般地,从n个不同元素中取出m(m≤n)个元素,并按照一定的顺序排成一列,叫做从n个不同元素中取出m个元素的一个排列 一般地,从n个不同元素中取出m(m≤n)个元素作为一组,叫做从n个不同元素中取出m个元素的一个组合
相同点 从n个不同元素中取出m(m≤n)个元素
项目 排列数 组合数
符号
公式
性质
要点3 二项式定理
二项式 定理
通项公式
二项式 系数
二项式系数的性质
第七章 随机变量及其分布
02
要点1 条件概率与全概率公式
条件概率 的计算公式
乘法 公式 由条件概率的定义,对任意两个事件A与B,若P(A)>0,则P(AB)=P(A)P(B|A).此式称为概率的乘法公式
全概率 公式 一般地,设A1,A2,…,An是一组两两互斥的事件,A1∪A2∪…∪An=Ω,且P(Ai)>0,i=1,2,…,n,则对任意的事件B Ω,有P(B)=
定义 一般地,设离散型随机变量X的可能取值为x1,x2,…,xn,我们称X取每一个值xi的概率P(X=xi)=pi,i=1,2,…,n为X的概率分布列,简称分布列.分布列的另外两种表示方法如下.
要点2 离散型随机变量的分布列及其数字特征
X x1 x2 … xk … xn
P p1 p2 … pk … pn
性质
均值
方差 D(X)=(x1-E(X))2p1+(x2-E(X))2p2+…+(xn-E(X))2pn=
方差公式的变形:D(X)=E(X2)-(E(X))2
线性关系下的均值与方差 若X与Y都是离散型随机变量,且Y=aX+b(a≠0),则E(Y)=aE(X)+b,D(Y)=a2D(X)
定义 若随机变量X的分布列如下表所示,
则称随机变量X服从两点分布或0—1分布
均值 E(X)=p
方差 D(X)=p(1-p)
要点3 常见分布
1.两点分布
X 0 1
P 1-p p
2.二项分布
定义 一般地,在n重伯努利试验中,设每次试验中事件A发生的概率为p(0如果随机变量X的分布列具有上式的形式,则称随机变量X服从二项分布
记法 X~B(n,p)
均值 E(X)=np
方差 D(X)=np(1-p)
3.超几何分布
定义
分布列
均值
X 0 1 … k … r
P … …
4.正态分布
正态 曲线
图示
特点
正态 分布
记法 X~N(μ,σ2)
均值 E(X)=μ
方差 D(X)=σ2
值四个概率 如果X~N(μ,σ2),那么P(X≤μ)=P(X≥μ)=0.5,
P(μ-σ≤X≤μ+σ)≈0.682 7,P(μ-2σ≤X≤μ+2σ)≈0.954 5,
P(μ-3σ≤X≤μ+3σ)≈0.997 3.
3σ 原则 尽管正态变量的取值范围是(-∞,+∞),但在一次试验中,X的取值几乎总是落在区间[μ-3σ,μ+3σ]内,而在此区间以外取值的概率大约只有0.002 7,通常认为这种情况几乎不可能发生.
在实际应用中,通常认为服从于正态分布N(μ,σ2)的随机变量X只取[μ-3σ,μ+3σ]中的值,这在统计学中称为3σ原则
第八章 成对数据的统计分析
03
要点1 成对数据的统计相关性及一元线性回归模型
经验回 归方程
经验 回归 方程 的性质
样本相关 系数公式
统计学里一般用样本相关系数r来衡量y与x的线性相关性强弱
2×2 列联表
χ2统计量
要点2 独立性检验
X Y 合计
Y=0 Y=1 X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
独立性检 验的步骤 (1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.
(2)根据抽样数据整理出2×2列联表,利用公式计算χ2的值.
(3)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值xα.
(4)当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2第八章 成对数据的统计分析
8.2 一元线性回归模型及其应用
8.2.1 一元线性回归模型
8.2.2 一元线性回归模型参数的最小二乘估计
第1课时 一元线性回归模型及参数的最小二乘估计
学习任务 1.了解一元线性回归模型的含义,了解模型参数的统计意义.(数学抽象)
2.了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法.(数学抽象)
3.针对实际问题,会用一元线性回归模型进行预测.(数据分析、数学运算)
必备知识·情境导学探新知
01
某地区从某一年开始进行了环境污染整治,得到了如下数据:
作出这些成对数据的散点图,判断污染指数y与x是否线性相关?在知道y与x线性相关的前提下,你能找出近似描述y与x之间关系的一次函数表达式吗?根据所得到的关系式,你能估计出该地区第8年的污染指数吗?
第x年 1 2 3 4 5 6 7
污染指数y 6.1 5.2 4.5 4.7 3.8 3.4 3.1
知识点1 一元线性回归模型
为Y关于x的一元线性回归模型.其中,Y称为______或________,x称为______或________.a和b为模型的未知参数,a称为____参数,b称为____参数;_是Y与bx+a之间的随机误差.
因变量
响应变量
自变量
解释变量
截距
斜率
e
思考 1.具有相关关系的两个变量,其样本点散布在某一条直线y=bx+a的附近,可以用一次函数y=bx+a来描述两个变量之间的关系吗?
[提示] 不能.
知识点2 经验回归方程
(1)有关概念
称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为____________,求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计.
经验回归直线
(2)计算公式
= = ,________.
____________________
提醒 (1)经验回归直线过点(),不一定过成对样本数据(x1,y1),(x2,y2),…,(xn,yn)中的某一点.
(2)经验回归直线的截距和斜率都是通过样本估计而得的,存在着误差,这种误差可能导致预报结果的偏差.
(3)经验回归方程中的表示x增加1个单位时,y的平均变化量为,而表示y不随x的变化而变化的部分.
思考 2.正相关、负相关与的符号有何关系?
[提示] Y与X正相关的充要条件是>0,Y与X负相关的充要条件是<0.
1.思考辨析(正确的画“√”,错误的画“×”)
(1)随机误差是一个随机变量. ( )
(2)经验回归方程最能代表观测值x,y之间的线性关系,且回归直线过样本点的中心(). ( )
(3)求经验回归方程前可以不进行相关性检验. ( )
(4)利用经验回归方程求出的值是准确值. ( )
√
×
√
×
2.下列有关经验回归方程叙述正确的是______(填序号).
①反映与x之间的函数关系;
②反映与x之间的函数关系;
③表示与x之间不确定关系;
④表示最接近与x之间真实关系的一条直线.
①④ [表示与x之间的函数关系,而不是y与x之间的函数关系,但它反映的关系最接近y与x之间的真实关系,故①④正确.]
①④
3.某地区近十年居民的年收入x与支出y之间的关系大致符合=0.8x+0.1(单位:亿元),预计今年该地区居民收入为15亿元,则年支出估计是________亿元.
12.1 [∵=0.8x+0.1,∴=0.8×15+0.1=12.1(亿元).]
12.1
关键能力·合作探究释疑难
02
类型1 一元线性回归模型的理解
类型2 求经验回归方程
类型3 利用经验回归方程进行预测
【例1】 在一元线性回归模型Y=bx+a+e中,下列说法正确的是( )
A.Y=bx+a+e是一次函数
B.响应变量Y是由解释变量x唯一确定的
C.响应变量Y除了受解释变量x的影响外,可能还受到其他因素的影响,这些因素会导致随机误差e的产生
D.随机误差e是由于计算不准确造成的,可通过精确计算避免随机误差e的产生
◆ 类型1 一元线性回归模型的理解
√
C [对于A中,一元线性回归模型Y=bx+a+e中,方程表示的不是确定性关系,因此不是一次函数,所以A说法错误;对于B中,响应变量Y不是由解释变量x唯一确定的,所以B错误;对于C中,响应变量Y除了受解释变量x的影响外,可能还受到其他因素的影响,这些因素会导致随机误差e的产生,所以C正确;对于D中,随机误差是不能避免的,只能将误差缩小,所以D错误.故选C.]
反思领悟 明确一元线性回归模型的含义是解题的关键,其中a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
[跟进训练]
1.关于一元线性回归模型给出下列说法:
①表达式Y=bx+a+e刻画的是变量Y与变量x之间的线性相关关系;
②bx+a反映了由于x的变化而引起的Y的线性变化;
③误差项e是一个期望值为0的随机变量,即E(e)=0;
④对于所有的x值,e的方差σ2都相同.
其中正确的是______________(填序号).
①②③④ [根据一元线性回归模型的含义可知,以上说法均正确.]
①②③④
◆类型2 求经验回归方程
【例2】 随着网络的普及,网上购物的方式已经受到越来越多年轻人的青睐,某家网络店铺商品的成交量x(单位:件)与店铺的浏览量y(单位:次)之间的对应数据如表所示:
x/件 2 4 5 6 8
y/次 30 40 50 60 70
(1)根据表中数据画出散点图;
[解] 散点图如图所示.
[解] 根据散点图可得,变量x与y之间具有线性相关关系.
代入公式得= =50-7×5=15.
故所求的经验回归方程是=7x+15.
(2)根据表中的数据,求出y关于x的经验回归方程;
(3)当这种商品的成交量突破100件(含100件)时,预测这家店铺的浏览量至少为多少.
[解] 根据上面求出的经验回归方程,
当成交量突破100件(含 100件),即x=≥100时,≥715,所以预测这家店铺的浏览量至少为715次.
反思领悟 求经验回归方程的基本步骤
(1)画出散点图,从直观上分析数据间是否存在线性相关关系;
(3)代入公式求出中参数,的值;
(4)写出经验回归方程并对实际问题作出估计.
提醒:只有在散点图大致呈线性时,求出的经验回归方程才有实际意义.
[跟进训练]
2.某地随着经济的发展,居民收入逐年增长,该地一银行连续五年年底的储蓄存款情况如表所示.
年份x 2018 2019 2020 2021 2022
储蓄存款额y/千亿元 5 6 7 8 10
为了计算方便,工作人员将上表的数据进行了处理,令t=x-2 017,z=y-5,得到下表.
t 1 2 3 4 5
z 0 1 2 3 5
[解] 作散点图,直观看z与t具有线性相关关系.
根据z关于t的表格数据,得
=(1+2+3+4+5)=3,=(0+1+2+3+5)=2.2,
∴==1.2,==2.2-1.2×3=-1.4.
所以z关于t的经验回归方程为=1.2t-1.4.
(1)作z关于t的散点图,求z关于t的经验回归方程;
(2)通过(1)中的方程,求出y关于x的回归方程.
[解] =1.2t-1.4,代入t=x-2017,z=y-5,
得-5=1.2(x-2017)-1.4,
即=1.2x-2416.8.
故y关于x的经验回归方程为=1.2x-2416.8.
◆ 类型3 利用经验回归方程进行预测
【例3】 (源自湘教版教材)一个车间为了估计加工某种新型零件所花费的时间,进行了10次试验,测得的数据如表所示:
零件个数x 10 20 30 40 50 60 70 80 90 100
加工时间y/min 62 68 75 81 89 95 102 108 115 122
=≈0.9998,
因此y与x之间具有显著的正相关关系.
(1)y与x之间是否具有相关关系?
[解] ==55,
==91.7.
[解] 设所求的经验回归方程为,
则= ≈0.668,
==91.7-0.668×55=54.96,
即所求的经验回归方程为=0.668x+54.96.
(2)如果y与x之间具有相关关系,求经验回归方程(结果保留三位小数).
(3)据此估计加工110个零件所用的时间.
[解] 当x=110时,y的估计值=0.668×110+54.96=128.44.
因此,估计加工110个零件所用的时间为128.44min.
反思领悟 (1)判断两个变量是否线性相关:可以利用经验,也可以画散点图.
(2)求经验回归方程,注意运算的正确性.
(3)根据经验回归方程进行预测估计:估计值不是实际值,两者会有一定的误差.
[跟进训练]
3.某研究机构对高三学生的记忆力x和判断力y进行统计分析,得如表数据:
x 6 8 10 12
y 2 3 5 6
(1)请画出上表数据的散点图;
[解] 散点图如图所示.
(2)请根据上表提供的数据,用最小二乘法求出y关于x的经验回归方程;
[解] ==9,==4,
==0.7,==4-0.7×9=-2.3,
故经验回归方程为=0.7x-2.3.
(3)试根据求出的经验回归方程,预测记忆力为9的同学的判断力.
参考公式:= ,=-.
[解] 由(2)中经验回归方程可知,
当x=9时,=0.7×9-2.3=4,
即预测记忆力为9的同学的判断力为4.
学习效果·课堂评估夯基础
03
1.某样本点(xi,yi)(i=1,2,…,n)的经验回归方程为=0.5x+0.7,当x=8时,y的实际值为4.5,则当x=8时,预测值与实际值的差值为( )
A.0.1 B.0.2 C.0.3 D.0.4
1
2
3
4
√
B [当x=8时,y的预测值=4.7,4.7-4.5=0.2.故选B.]
D [===,由于经验回归直线方程过样本中心点,将代入经验回归方程,解得=1.]
2.对具有线性相关关系的变量x,y,有一组观测数据(xi,yi)(i=1,2,3,…,8),其经验回归方程为=x+,且x1+x2+x3+…+x8=6,y1+y2+y3+…+y8=9,则a的值为( )
A.-2 B.2
C.-1 D.1
1
2
3
4
√
3.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的经验回归方程:=0.254x+0.321.由经验回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.
1
2
3
4
0.254 [由于=0.254x+0.321知,当x增加1万元时,年饮食支出y增加0.254万元.]
0.254
4.如图是一组数据(x,y)的散点图,经最小二乘估计公式计算,y与x之间的经验回归方程为=x+1,则=________.
1
2
3
4
0.8 [由题图知==2.6,将(2,2.6)代入=x+1中,解得=0.8.]
0.8
回顾本节知识,自主完成以下问题:
1.经验回归直线一定过哪个点?
提示:经验回归直线一定过样本中心点().
2.y与x正、负相关的充要条件各是什么?
提示:y与x正相关的充要条件是b>0,y与x负相关的充要条件是b<0.
3.b的实际意义是什么?
提示:当x增大一个单位时,y增大b个单位.
阅读材料·拓展数学大视野
04
“回归”一词的由来
统计学中的“回归”一词,是统计学家高尔顿引入的.早在19世纪80年代,高尔顿就开始了亲代与子代(即父母亲与子女)之间相似特征(身高、性格等)的研究.他收集了一些亲代的身高x与子代的身高y的成对数据,并作出了散点图,发现y与x的关系可以借助一次函数来近似表示,而且总体上亲代的身高增加时,子代的身高也增加.
但是,高尔顿在研究过程中,发现了一个有趣的现象.他收集的数据显示,总体上亲代的平均身高为68英寸(约为172.72 cm),子代的平均身高为69英寸,子代的平均身高比亲代的平均身高大1英寸(约为2.54 cm).于是,一个自然的推想是:平均身高为63英寸的亲代,其子代的平均身高应约为64英寸;平均身高为72英寸的亲代,其子代的平均身高应约为73英寸.但实际数据显示:平均身高为63英寸的亲代,其子代的平均身高为67英寸,增加量为4英寸;平均身高为72英寸的亲代,其子代的平均身高为71英寸,增加量为-1英寸.也就是说,平均身高不同的亲代,其子代的平均身高增加量并不相等,但子代的平均身高有回归于中心(即总体平均值)的趋势.
正是由于这种现象的存在,高尔顿引入了“回归”一词.虽然不是所有相关关系中都会发生类似的现象,但从那以后,“回归”就成了相关关系讨论中一个约定俗成的词了.