(共49张PPT)
8.1 成对数据的统计相关性
课前·基础认知
课堂·重难突破
素养·目标定位
随堂训练
素养 目标定位
目 标 素 养
1.了解变量的相关关系,会画散点图.
2.根据散点图能判断两个变量是否具有相关关系.
3.了解样本相关系数的概念及公式,会判断成对样本数据的线性相关程度的强弱.
4.通过学习,提升数学抽象、直观想象和数学运算的核心素养.
知 识 概 览
课前·基础认知
1.变量的相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为 相关关系 .
微思考 两个变量间的关系有几类
提示:两个变量间的关系分为三类:第一类是确定性的函数关系,如正方形边长与面积的关系;第二类是变量间确实存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有随机性的,这种关系就是相关关系,如某名同学的“物理成绩”与“数学成绩”之间的关系;第三类是不相关,即两变量没有任何关系.
微训练1下列变量之间的关系是相关关系的是( )
A.正方体的棱长与体积
B.光照时间与果树产量
C.匀速行驶车辆的行驶距离与时间
D.中国羽毛球队的比赛成绩与中国乒乓球队的比赛成绩
答案:B
解析:A,C中的两个变量是函数关系,D中的两个变量无相关关系.
2.散点图、线性相关
(1)散点图
每个编号下的成对样本数据都可用直角坐标系中的点表示出来,由这些点组成统计图,我们把这样的统计图叫做 散点图 .
注:点不连成线.
(2)正相关与负相关
从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量 正相关 ;当一个变量的值增加时,另一个变量的相应值呈现减小的趋势,则称这两个变量 负相关 .
(3)线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量 线性相关 .
微训练2对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
答案:C
(1) (2)
解析:由题图可知,图(1)中的数据y随着x的增大而呈现减小的趋势,因此变量x与变量y负相关;图(2)中的数据v随着u的增大而呈现增加的趋势,因此变量u与变量v正相关.
3.样本相关系数
(1)一般地,如果变量x和y正相关,那么关于均值平移后的大多数散点将分布在 第一 象限、 第三 象限,对应的成对数据同号的居多;如果变量x和y 负相关 ,那么关于均值平移后的大多数散点将分布在第二象限、第四象限,对应的成对数据异号的居多.
(2)样本相关系数
(3)样本相关系数与正相关和负相关的关系
当r>0时,称成对样本数据 正相关 .这时,当其中一个数据的值变小时,另一个数据的值通常也 变小 ;当其中一个数据的值变大时,另一个数据的值通常也 变大 .
当r<0时,称成对样本数据 负相关 .这时,当其中一个数据的值变小时,另一个数据的值通常会 变大 ;当其中一个数据的值变大时,另一个数据的值通常会 变小 .
(4)样本相关系数r的取值范围为[-1,1].样本相关系数r的绝对值大小可以反映成对样本数据之间线性相关的程度:当|r|越接近1时,成对样本数据的线性相关程度越 强 ;当|r|越接近0时,成对样本数据的线性相关程度越 弱 .
微训练3(1)在研究两个变量y与x的相关关系时,分别选择了四组不同的数据,这四组不同的数据得到的样本相关系数r分别为0.25,0.50,0.98,0.80,则其中相关程度最强的样本相关系数是( )
A.0.25 B.0.50 C.0.98 D.0.80
答案:C
解析:线性相关关系的判断中,样本相关系数为r,
|r|越接近1时,成对样本数据的线性相关程度越强;
|r|越接近0时,成对样本数据的线性相关程度越弱.故选C.
(2)对两个变量x,y进行线性相关检验,得样本相关系数r1=0.785 9,对两个变量u,v进行线性相关检验,得样本相关系数r2=-0.956 8,则下列判断正确的是( )
A.变量x与y正相关,变量u与v负相关,变量x与y的线性相关程度较强
B.变量x与y负相关,变量u与v正相关,变量x与y的线性相关程度较强
C.变量x与y正相关,变量u与v负相关,变量u与v的线性相关程度较强
D.变量x与y负相关,变量u与v正相关,变量u与v的线性相关程度较强
答案:C
解析:由样本相关系数r1=0.785 9>0知变量x与y正相关,由样本相关系数r2=-0.956 8<0知变量u与v负相关,又|r1|<|r2|,故变量u与v的线性相关程度较强.
课堂·重难突破
一 变量的相关关系
典例剖析
1.(多选题)下列关系中,属于相关关系的是( )
A.正方形的边长与面积
B.农作物的产量与施肥量
C.出租车费与行驶的里程
D.降雪量与交通事故的发生率
答案:BD
解析:A中,正方形的边长与面积之间的关系是函数关系;B中,农作物的产量与施肥量之间不具有严格的函数关系,但具有相关关系;C为确定的函数关系;D中,降雪量与交通事故的发生率之间具有相关关系.
规律总结 函数关系是一种确定的关系,而相关关系是一种不确定的关系.函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系,具有一定的随机性.
学以致用
1.下列两个变量间的关系不是函数关系的是( )
A.球的半径与体积
B.角的度数与它的正切值
C.单产为常数时,土地面积与粮食总产量
D.作文水平与课外阅读量
答案:D
解析:因为A项V=πR3,B项y=tan α,C项y=ax(a>0,且a为常数),所以这三项均是函数关系.D项中的两个变量是相关关系.
二 散点图的应用
典例剖析
2.5名学生的化学和物理成绩(单位:分)如下表:
画出散点图,并判断它们是否具有线性相关关系.
学生 A B C D E
化学成绩 80 75 70 65 60
物理成绩 70 66 68 64 62
解:以x轴表示化学成绩,y轴表示物理成绩,得相应的散点图如图所示.
由散点图可知,各点落在一条直线附近,故两个变量线性相关.
规律总结 两个随机变量是否具有相关关系的判断方法
(1)散点图法:通过画散点图,观察点的分布是否存在一定规律,直观地判断.
(2)表格、关系式法:结合表格或关系式进行判断.
(3)经验法:借助积累的经验进行分析判断.
学以致用
2.下列图形中两个变量具有线性相关关系的是( )
答案:C
解析:A是一种函数关系;B也是一种函数关系;C中从散点图可看出所有点看上去都在某条直线附近波动,具有相关关系,而且两个变量线性相关;D中的散点杂乱无章,看不出两个变量具有相关关系.
三 利用样本相关系数判断相关性
典例剖析
3.为分析肥胖程度对总胆固醇与空腹血糖的影响,在肥胖人群中随机抽出8人,他们的肥胖指数BMI值、总胆固醇TC指标值(单位:mmol/L)、空腹血糖GLU指标值(单位:mmol/L)如表所示.
人员编号 1 2 3 4 5 6 7 8
BMI值x 25 27 30 32 33 35 40 42
TC指标值y 5.3 5.4 5.5 5.6 5.7 6.5 6.9 7.1
GLU指标值z 6.7 7.2 7.3 8.0 8.1 8.6 9.0 9.1
用变量y与x,z与x的样本相关系数,分别说明TC指标值与BMI值、GLU指标值与BMI值的相关程度.
可以看出TC指标值与BMI值、GLU指标值与BMI值都是正线性相关,且相关程度很强.
互动探究
(变问法)请问变量y与x,z与x,谁的相关程度更强
解:∵变量y与x的样本相关系数r≈0.95,变量z与x的样本相关系数r'≈0.99,
又|r'|>|r|,
∴变量z与x的相关程度更强.
规律总结 样本相关系数大小对相关程度强弱的影响:
|r|≤1,|r|越接近1时,成对样本数据的线性相关程度越强;|r|越接近0,成对样本数据的线性相关程度越弱.
学以致用
3.在一组成对样本数据为(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若这组成对样本数据的样本相关系数为-1,则所有的样本点(xi,yi)(i=1,2,…,n)满足的方程可以是( )
A.y=- x+1 B.y=x-1
C.y=x+1 D.y=-x2
答案:A
解析:∵这组成对样本数据的样本相关系数为-1,
∴这一组成对样本数据(x1,y1),(x2,y2),…,(xn,yn)线性相关,且是负相关.故选A.
随堂训练
1.下列各图中,两个变量具有较强正相关关系的散点图是( )
答案:B
解析:A中两个变量是函数关系,B中两个变量具有较强的正相关关系,C中两个变量具有较强的负相关关系,D中两个变量不具有任何关系.
2.恩格尔系数是食品支出总额占个人消费支出总额的比重.居民可支配收入是居民可用于最终消费支出和储蓄的总和,即居民可用于自由支配的收入.某地区2016年至2022年恩格尔系数和居民人均可支配收入的折线图如图所示.
给出三种说法:
①恩格尔系数与居民人均可支配收入之间存在负相关关系;
②一个地区的恩格尔系数越小,说明这个地区越富裕;
③若家庭收入越少,则家庭收入中用来购买食品的支出所占的比重就越小.
其中说法正确的是( )
A.① B.②
C.①② D.②③
答案:C
解析:由题中折线图可知,恩格尔系数在逐年下降,居民人均可支配收入在逐年增加,
故两者之间存在负相关关系,说法①正确;
恩格尔系数越小,居民人均可支配收入越多,说明这个地区越富裕,说法②正确;
家庭收入越少,人们为解决温饱问题,收入的大部分用来购买食品,说法③错误.
3.试从各散点图中点的分布状况,直观上判断两个量之间有线性相关关系的是( )
答案:C
解析:在A中,点的分布毫无规律,横轴、纵轴表示的两个量之间的相关程度很小.
在C中,点的分布基本上集中在一个带状区域内,横轴、纵轴表示的两个变量之间有线性相关关系.
在BD中,点的分布基本上集中在由某条曲线两侧组成的带状区域内,因此横轴、纵轴表示的两个变量也有相关关系,但不是线性相关关系.
4.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,3,…,n)都在直线2x+y-1=0上,则这组样本数据的样本相关系数r为 .
答案:-1
解析:因为直线2x+y-1=0的斜率k=-2,且所有样本点(xi,yi)(i=1,2,3,…,n)都在直线2x+y-1=0上,所以说明这组样本的数据完全负相关,则样本相关系数达到最小值-1.
5.某地区践行“绿水青山就是金山银山”的绿色发展理念,2018年初至2022年初,该地区绿化面积y(单位:平方千米)的数据如下表:
年份 2018 2019 2020 2021 2022
年份代号x 1 2 3 4 5
绿化面积y 2.8 3.5 4.3 4.7 5.2
(1)请根据上表提供的数据,画出散点图;
(2)判断绿化面积y与年份代号x是否线性相关,并用样本相关系数r说明.
解:(1)根据表中数据,画出散点图如下:
(2)由散点图知,这些点都集中在一条直线附近,由此可判断绿化面积y与年份代号x具有线性相关关系.
由于|r|≈0.99很接近1,因此绿化面积y与年份代号x具有很强的线性相关关系,且是正相关关系.(共52张PPT)
8.2 一元线性回归模型及其应用
课前·基础认知
课堂·重难突破
素养·目标定位
随堂训练
素养 目标定位
目 标 素 养
1.结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘法的原理,掌握一元线性回归模型参数的最小二乘法估计方法,会使用相关的统计软件.
2.针对实际问题,会用一元线性回归模型进行预测.
3.通过学习,提升数学抽象、数学运算和数学建模的核心素养.
知 识 概 览
课前·基础认知
1.一元线性回归模型
一元线性回归模型的完整表达式为
其中Y称为 因变量 或 响应变量 ,x称为自变量或 解释变量 ; a,b为模型的未知参数,e是Y与bx+a之间的 随机误差 .
2.一元线性回归模型参数的最小二乘估计
(2)对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的 称为预测值,观测值减去预测值称为
残差 .
(4)经验回归方程的性质:
微训练(1)若y与x之间的一组数据为
则y关于x的经验回归直线一定经过的点是 .
答案:(2,4)
所以y关于x的经验回归直线一定经过的点是(2,4).
(2)若一组观测值(x1,y1),(x2,y2),…,(xn,yn)之间满足yi=bxi+a+ei (i=1,2,…,n),且ei恒为0,则R2为 .
答案:1
课堂·重难突破
一 线性回归分析
典例剖析
1.某种产品的广告费用支出x(单位:百万元)与销售额y(单位:百万元)之间有如下的对应数据:
(1)画出散点图;
(2)求经验回归方程;
(3)试预测广告费用支出为10百万元时的销售额.
解:(1)散点图如图所示:
(2)列出下表:
(3)根据(2)中求得的经验回归方程,当广告费用支出为10百万元时, =6.5×10+17.5=82.5(百万元),即广告费用支出为10百万元时,销售额大约为82.5百万元.
规律总结 1.求经验回归方程前必须判断两个变量是否线性相关,如果两个变量本身不具备相关关系,或者它们之间的相关关系不显著,那么即使求出经验回归方程也是毫无意义的.
学以致用
1.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(单位:吨)与相应的生产能耗y(单位:吨标准煤)的几组对照数据:
(1)请画出散点图;
(2)请根据表中的数据,用最小二乘法求出y关于x的经验回归方程 ;
(3)已知该厂技术改造前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的经验回归方程,预测生产100吨甲产品的生产能耗比技术改造前降低多少吨标准煤
(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)
解:(1)由题设所给数据,可得散点图如图所示.
(3)由(2)的经验回归方程及技术改造前生产100吨甲产品的生产能耗,得降低的生产能耗为90-(0.7×100+0.35)=19.65(吨标准煤).
二 残差分析
典例剖析
2.已知某种商品的价格x(单位:元)与需求量y(单位:件)之间的关系有如下一组数据:
求y关于x的经验回归方程,并说明模型拟合效果的好坏.
规律总结 刻画拟合效果的三个方法
(1)残差图法:残差点比较均匀地落在水平带状区域内说明选用的模型比较合适.
学以致用
2.为了研究黏虫孵化的平均温度x(单位:℃)与孵化天数y之间的关系,某课外兴趣小组通过试验得到如下6组数据:
组号 1 2 3 4 5 6
平均温度 15.3 16.8 17.4 18 19.5 21
孵化天数 16.7 14.8 13.9 13.5 8.4 6.2
他们分别用两种模型①y=bx+a,②y=cedx进行拟合,得到相应的经验回归方程并进行残差分析,得到残差图如图所示:
(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型 (给出判断即可,不必说明理由)
(2)残差绝对值大于1的数据被认为是异常数据,需要剔除,剔除后应用最小二乘法并根据(1)的判断结果及表中数据建立y关于x的经验回归方程.(系数精确到0.1)
解:(1)根据题意知,应该选择模型①.
(2)剔除异常数据,即组号为4的数据,
三 非线性回归分析
典例剖析
3.某公司为确定下一年度投
入某种产品的宣传费,需了解
年宣传费x(单位:千元)对年销
售量y(单位:t)和年利润z(单位:
千元)的影响.对近8年的年宣
传费xi和年销售量yi(i=1,2,…,8)的数据作了初步处理,得到下面的散点图及一些统计量的值.
(1)根据散点图判断,y=a+bx与y=c+d 哪一个适宜作为年销售量y关于年宣传费x的经验回归方程类型 (给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的经验回归方程.
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①当年宣传费x=49时,年销售量及年利润的预测值是多少
②当年宣传费x为何值时,年利润的预测值最大
解:(1)由散点图可以判断,y=c+d 适宜作为年销售量y关于年宣传费x的经验回归方程类型.
(3)①由(2)知,当x=49时,年销售量y的预测值
故年宣传费为46.24(单位:千元)时,年利润的预测值最大.
规律总结 求非线性经验回归方程的步骤
(1)确定变量,作出散点图.
(2)根据散点图,选择恰当的拟合函数.
(3)变量置换,通过变量置换把非线性经验回归问题转化为经验回归问题,并求出经验回归方程.
(4)分析拟合效果,通过计算R2或画残差图来判断拟合效果.
(5)根据相应的变换,写出非线性经验回归方程.
学以致用
3.若一函数模型为y=ax2+bx+c(a≠0),将y转化为关于t的线性经验回归方程,需作变换t=( )
答案:C
随堂训练
1.相关变量x,y的样本数据如表所示.
x 1 2 3 4 5
y 20 21 m 26 27
经回归分析可得y与x呈线性相关,并由最小二乘法求得相应的经验回归方程为 =1.9x+17.9,则表中的m=( )
A.23.6 B.23
C.24.6 D.24
答案:D
2.甲、乙、丙、丁四名学生在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的决定系数R2分别如下表:
学生 甲 乙 丙 丁
R2 0.98 0.78 0.50 0.85
则建立回归模型拟合效果最好的同学是( )
A.甲 B.乙 C.丙 D.丁
答案:A
解析:决定系数R2越大,表示回归模型的拟合效果越好.
元,那么年支出预计不会超过( )
A.10亿元 B.9亿元
C.10.5亿元 D.9.5亿元
答案:C
4.已知某产品的销售额y(单位:万元)与广告费用x(单位:万元)之间的关系如表:
x 0 1 2 3 4
y 10 15 20 30 35
若求得其经验回归方程为 ,则预计当广告费用为6万元时的销售额为( )
A.42万元 B.45万元
C.48万元 D.51万元
答案:C
5.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x/元 8 8.2 8.4 8.6 8.8 9
销量y/件 90 84 83 80 75 68
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元 (利润=销售收入-成本)(共51张PPT)
8.3 列联表与独立性检验
课前·基础认知
课堂·重难突破
素养·目标定位
随堂训练
素养 目标定位
目 标 素 养
1.通过实例,了解分类变量、2×2列联表的统计意义.
2.通过实例,了解独立性检验及其应用.
3.通过学习,提升数学抽象、数学运算和数学建模的核心素养.
知 识 概 览
课前·基础认知
1.分类变量与列联表
(1)分类变量
用来区别不同的现象或性质的随机变量称为 分类变量 .分类变量的取值可以用实数表示.
(2)列联表
按研究问题的需要,将数据分类统计,并做成表格加以保存.我们将下表这种形式的数据统计表称为 2×2列联表 . 2×2列联表给出了成对分类变量数据的交叉分类频数.
注:运用古典概型和条件
概率的思路,用2×2列联
表去研究所关心对象的
全体.
X Y 合计
Y=0 Y=1 X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
2.独立性检验
(1)利用随机变量χ2的取值推断分类变量X和Y是否独立的方法称为 χ2独立性检验 ,读作“ 卡方独立性检验 ”,简称独立性检验.
(2)独立性检验公式
(3)基于小概率值α的检验规则
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2(4)χ2独立性检验中几个常用的小概率值和相应的临界值
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
微思考独立性检验的基本思想与反证法的思想有何相似之处
提示:
反证法 假设检验
要证明结论A 要确认“两个变量有关系”
在A不成立的前提下进行推理 假设该结论不成立,即假设结论“两个变量没有关系”成立,在该假设下计算χ2
推出矛盾,意味着结论A成立 由观测数据计算得到的χ2很大,则在一定可信程度上说明假设不合理
没有找到矛盾,不能对A下任何结论,即反证不成立 根据随机变量χ2的含义,可以通过χ2的大小来判断“两个变量有关系”这一结论成立有多大把握
微训练下面是一个2×2列联表:
则表中a,b处的值分别为( )
A.94,96 B.52,50
C.52,54 D.54,52
答案:C
解析:a=73-21=52,b=100-46=54.
X Y 合计
Y=0 Y=1 X=0 a 21 73
X=1 2 25 27
合计 b 46 100
(5)应用独立性检验解决实际问题大致应包括以下几个主要环节:
①提出零假设H0:X和Y相互独立,并给出在问题中的解释.
②根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.
③根据检验规则得出推断结论.
④在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
注意,上述几个环节的内容可以根据不同情况进行调整.
课堂·重难突破
一 列联表与等高堆积条形图的应用
典例剖析
1.为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:
单位:人
组别 阳性、阴性数 合计
阳性数 阴性数 铅中毒病人 29 7 36
对照组 9 28 37
合计 38 35 73
试画出列联表的等高堆积条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否存在差异
解:等高堆积条形图如图所示:
其中两个白色条的高度分别代表
铅中毒病人和对照组样本中尿棕色
素为阳性的概率.
由图可以直观地看出铅中毒病人
与对照组相比,尿棕色素为阳性的频率差异明显,根据频率稳定于概率的原理,知铅中毒病人与尿棕色素为阳性存在差异.
规律总结 判断两个分类变量是否有差异的两种常用方法
(1)利用数形结合思想,借助等高堆积条形图来判断两个分类变量是否存在差异.
(2)一般地,在等高堆积条形图中, 相差越大,两个分类变量存在差异的可能性就越大.
学以致用
1.网络对现代人的生活影响较大,尤其是对青少年.为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1 000人调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人不及格.利用等高堆积条形图判断学生学习成绩与经常上网和不经常上网是否有关.
解:根据题目所给的数据得到如下2×2列联表:
单位:人
得出等高堆积条形图如图所示:
比较图中阴影部分的高度可以发现经常上网不及格的频率明显高于经常上网及格的频率,根据频率稳定于概率的原理,可以认为学习成绩与经常上网和不经常上网有关.
二 独立性检验
典例剖析
2.甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表: 单位:件
机床 产品质量 合计
一级品 二级品 甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少
(2)依据小概率值α=0.01的独立性检验,分析甲机床的产品质量与乙机床的产品质量是否有差异.
α 0.05 0.01 0.001
xα 3.841 6.635 10.828
(2)零假设为H0:甲机床的产品质量与乙机床的产品质量之间无差异.
根据列联表中的数据,
依据小概率值α=0.01的独立性检验,推断H0不成立,即认为甲机床的产品质量与乙机床的产品质量有差异,此推断犯错误的概率不大于0.01.
互动探究
(变问法)依据小概率值α=0.001的独立性检验,分析甲机床的产品质量与乙机床的产品质量是否有差异.
解:零假设为H0:甲机床的产品质量与乙机床的产品质量之间无差异.
根据列联表中的数据,经计算得到
所以根据小概率值α=0.001的独立性检验,没有充分证据推断H0不成立,
因此可以认为H0成立,即甲机床的产品质量与乙机床的产品质量无差异.
规律总结 1.利用χ2进行独立性检验的步骤
(1)零假设:即先假设两变量没有关系.
(2)列表:列出2×2列联表.
(3)求值:求出χ2.
(4)判断:与临界值比较,作出判断.
2.独立性检验的必要性
列联表中的数据是样本数据,它只是总体的代表,它具有随机性,因此只能利用列联表的数据和等高堆积条形图粗略判断两个分类变量是否有关系.而χ2给出了不同样本容量的数据的统一评判标准.利用它能精确判断两个分类变量是否有关系.
学以致用
2.某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示: 单位:人
学生 是否喜欢甜品 合计
喜欢甜品 不喜欢甜品 南方学生 60 20 80
北方学生 10 10 20
合计 70 30 100
根据表中数据,根据小概率值α=0.05的独立性检验,分析南方学生和北方学生在选用甜品的饮食习惯方面是否有差异.
解:零假设为H0:南方学生和北方学生在选用甜品的饮食习惯方面无差异.根据列联表中的数据,经计算,得
根据小概率值α=0.05的独立性检验,推断H0不成立,即认为南方学生和北方学生在选用甜品的饮食习惯方面有差异,此推断犯错误的概率不大于0.05.
三 独立性检验的综合应用
典例剖析
3.某生物疫苗研究所加紧对某种疫苗进行研究,将某一型号的疫苗用在动物小白鼠身上进行科研和临床实验,得到统计数据如下: 单位:只
是否注射疫苗 是否感染病毒 合计
未感染病毒 感染病毒 未注射疫苗 20 x m
注射疫苗 30 y n
合计 50 50 100
现从所有感染病毒的小白鼠中随机抽取一只,抽到注射疫苗的小白鼠的概率为 .
(1)完成下面的2×2列联表:
单位:只
是否注 射疫苗 是否感染病毒 合计
未感染病毒 感染病毒 未注射疫苗 20
注射疫苗 30
合计 50 50 100
(2)依据小概率值α=0.01的独立性检验,分析注射疫苗是否对预防该病毒有效.
α 0.1 0.05 0.01
xα 2.706 3.841 6.635
解:(1)所有感染病毒的小白鼠共有50只,其中注射疫苗的有y只,所以P= ,所以y=10,x=50-10=40,m=40+20=60, n=30+10=40,
所以2×2列联表为 单位:只
是否注射疫苗 是否感染病毒 合计
未感染病毒 感染病毒 未注射疫苗 20 40 60
注射疫苗 30 10 40
合计 50 50 100
(2)零假设为H0:注射疫苗对预防该病毒无效.
根据列联表中的数据,
根据小概率值α=0.01的独立性检验,推断H0不成立,即认为注射疫苗对预防该病毒有效,此推断犯错误的概率不大于0.01.
规律总结 独立性检验综合应用的方法策略
(1)独立性检验在实际中有着广泛的应用,是对实际生活中数据进行分析的一种方法,通过这种分析得出的结论对实际生活或者生产都有一定的指导作用.
(2)近几年高考中较少单独考查独立性检验,与统计、概率等知识综合,频率分布表、频率分布直方图与独立性检验融合在一起是常见的考查形式,一般需要根据条件列出2×2列联表,计算χ2的值,从而解决问题.
学以致用
3.为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查,得到2×2列联表如下表所示:
单位:人
性别 是否喜爱打篮球 合计
喜爱打篮球 不喜爱打篮球 男生 6
女生 10
合计 48
已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为 .
(1)请将上面的2×2列联表补充完整(不用写计算过程);
(2)根据小概率值α=0.05的独立性检验分析喜爱打篮球与性别是否有关,说明你的理由;
(3)现从女生中抽取2人进一步调查,设其中喜爱打篮球的女生人数为X,求X的分布列与均值.
解:(1)列联表补充如下:
单位:人
(2)零假设为H0:喜爱打篮球与性别无关联.
根据列联表中的数据,经计算得到
根据小概率值α=0.05的独立性检验,推断H0不成立,即认为喜爱打篮球与性别有关,此推断犯错误的概率不大于0.05.
(3)喜爱打篮球的女生人数X的可能取值为0,1,2.
其概率分别为
随堂训练
1.(多选题)在研究肥胖与高血压的关系时,通过收集、整理、分析数据得到“高血压与肥胖有关”的结论,并且依据小概率值α=0.01的χ2独立性检验,推断这个结论是成立的,下列说法中错误的是( )
A.在100个肥胖的人中至少有99人患有高血压
B.肥胖的人至少有99%的概率患有高血压
C.在100个高血压患者中一定有肥胖的人
D.在100个高血压患者中可能没有肥胖的人
答案:ABC
2.通过对χ2的统计量的研究得到了若干个临界值,当χ2<2.706时,我们认为( )
A.X与Y有差异,犯错误的概率不超过0.05
B.X与Y有差异,犯错误的概率不超过0.01
C.依据小概率值α=0.1的χ2独立性检验,没有充分理由认为X与Y有差异
D.不能确定
答案:C
解析:χ2<2.706=x0.1,根据小概率值α=0.1的χ2独立性检验没有充分理由认为X与Y有差异.
3.(多选题)下面是某地区男、女学生喜欢物理情况的等高堆积条形图,阴影部分表示喜欢物理的百分比.下列说法错误的是( )
A.性别与喜欢物理无关
B.女生喜欢物理的百分比为80%
C.男生喜欢物理比女生喜欢物理
的可能性大些
D.男生不喜欢物理的百分比为60%
答案:ABD
解析:由题图知女生中喜欢物理的百分比为20%,男生不喜欢物理的百分比为40%,故A,B,D错误,C正确.男生比女生喜欢物理的可能性大些.
4.对某小学的学生进行是否吃零食的调查中,得到如下表数据:
单位:人
性别 零食 合计
吃零食 不吃零食 男生 27 34 61
女生 12 29 41
合计 39 63 102
根据上述数据分析,我们得出的χ2约为 .(精确到0.001)
答案:2.334
5.下表是高三学生数学成绩和总成绩的调查数据. 单位:人
数学成绩 总成绩 合计
优秀 不优秀 优秀 478 a 490
不优秀 399 24 423
合计 b c 913
(1)计算a,b,c的值;
(2)依据小概率值α=0.05的独立性检验,分析高三学生总成绩不优秀是否与数学成绩不优秀有关系.
解:(1)由478+a=490,得a=12.
由a+24=c,得c=12+24=36.
由b+c=913,得b=913-36=877.
(2)零假设为H0:高三学生总成绩不优秀与数学成绩不优秀无关联.
根据列联表中的数据,经计算得到
根据小概率值α=0.05的χ2独立性检验,我们推断H0不成立,即认为高三学生总成绩不优秀与数学成绩不优秀有关系,此推断犯错误的概率不大于0.05.(共31张PPT)
章末核心素养整合
专题归纳突破
知识体系构建
知识体系构建
专题归纳突破
专题一 成对数据的统计分析
根据两个变量的一组观测值,可以画出散点图或利用样本相关系数r,判断两个变量是否具有线性相关关系.
(2)经验回归方程中的截距 和斜率 都是通过样本估计得来的,存在误差,这种误差可能导致预测结果的偏差.
(3)对于建立的回归模型,可从以下两方面对模型的拟合效果进行分析,从而对利用回归模型解决实际问题的效果进行评价.①对比残差或残差平方和的大小,同时观察残差图,进行残差分析;②研究数据的R2或样本相关系数r.对模型拟合效果的分析能够帮助我们利用最优化的模型来解决实际问题.
【典型例题1】对于x与y有如下观测数据:
x 18 25 30 39 41 42 49 52
y 3 5 6 7 8 8 9 10
(1)作出散点图;
(2)对x与y作回归分析;
(3)求出y关于x的经验回归方程;
解:(1)散点图如图所示.
规律总结 建立线性回归模型的基本步骤
(1)确定研究对象,明确解释变量和响应变量;
(2)画出解释变量和响应变量的散点图,观察它们之间的关系(如是否存在线性关系等);
(3)由经验确定回归方程的类型;
(4)按一定的规则计算回归方程的参数;
(5)对所建立的模型进行残差分析,判断拟合效果.
专题二 列联表与独立性检验
1.列联表
2×2列联表:将分类变量X和Y的抽样数据做成如下表格.这种形式的数据统计表称为2×2列联表.
X Y 合计
Y=0 Y=1 X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
2.独立性检验
(2)基于小概率值α的检验规则是:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2(3)χ2独立性检验中常用的小概率值和相应的临界值
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
【典型例题2】为了调查胃病是否与生活规律有关,在某地对540名40岁以上的人进行了调查,结果是:患胃病者生活不规律的共60人,患胃病者生活规律的共20人,未患胃病者生活不规律的共260人,未患胃病者生活规律的共200人.
(1)根据以上数据列出2×2列联表;
(2)试根据小概率值α=0.005的独立性检验,分析40岁以上的人患胃病与生活规律是否有关.
解:(1)由已知可列2×2列联表如下:
单位:人
生活是否规律 是否患胃病 合计
患胃病 未患胃病 规律 20 200 220
不规律 60 260 320
合计 80 460 540
(2)零假设为H0:40岁以上的人患胃病与生活规律无关.
根据小概率值α=0.005的独立性检验,有充分证据推断H0不成立,即40岁以上的人患胃病与生活规律有关,此判断犯错误的概率不大于0.005.
规律总结 1.独立性检验的思想:首先提出零假设“两个分类变量无关”,但这种假设会犯错误,然后通过计算随机变量χ2的值并与临界值α比较,得出犯错误的概率,从而判断两个分类变量是否相关.
2.独立性检验是对两个分类变量进行相关性检验,其结果是一种相关关系,而不是确定性关系,是反映有关和无关的概率.
专题三 思想方法专题
1.转化与化归思想
在统计学的实际应用中,除了有线性回归问题,还常常遇到一些非线性回归问题,此时两个变量之间不呈现线性相关关系.对于这类问题,我们应用等价转化思想,采用适当的变量代换,把非线性回归模型转化为线性回归模型,求出经验回归方程后回代到非经验回归方程即可.
【典型例题3】为提高某作物产量,种植基地对单位面积播种数x与每棵作物的产量y之间的关系进行了研究,收集了10块试验田的数据,得到下表:
试验田编号 1 2 3 4 5 6 7 8 9 10
x(棵/m2) 3.5 4 5.1 5.7 6.1 6.9 7.5 8 9.1 11.2
y(斤/棵) 0.33 0.32 0.3 0.28 0.27 0.25 0.25 0.24 0.22 0.15
(2)利用(1)得到的结果,
结合条件知单位面积的总产量W的预测值为
即x≈9.13时,单位面积的总产量W=xy的预测值最大,最大值是1.83.
规律总结 非线性回归模型
(1)当两个变量已明显呈线性相关关系时,则无需作散点图,就可直接求经验回归方程,否则要先判定相关性再求经验回归方程.
(2)非线性经验回归方程的求法.
①根据原始数据(x,y)画出散点图;
②根据散点图,选择恰当的拟合函数;
③作恰当变换,将其转化成线性函数;
④求经验回归方程;
⑤在④的基础上通过相应的变换,即可得非线性经验回归方程.
2.数形结合思想
“数形结合”是根据数量与图形之间的关系,认识研究对象的数学特征,寻找解决问题方法的一种数学思想.通常包括“以数解形”和“以形助数”两方面.通过“以数解形”或“以形助数”,可以使复杂问题简单化,抽象问题具体化,数形结合兼数的严谨与形的直观之长,是优化解题过程的重要途径之一,是基本的数学方法.
【典型例题4】某研究机构对某校高二学生的记忆力x和判断力y进行统计分析,得下表数据.
x 6 8 10 12
y 2 3 5 6
(1)请画出散点图,并判断记忆力x和判断力y是否具有相关关系;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的经验回归方程.
解:(1)散点图如图所示.
由散点图可知,各点位于一条直线附近,所以判断记忆力x和判断力y具有相关关系.
规律总结 判断变量之间的线性相关关系,一般用散点图,但在作图中,由于存在误差,有时很难判断这些点是否分布在一条直线的附近,从而就很难判断两个变量之间是否具有线性相关关系,此时就必须利用样本相关系数来判断.(共28张PPT)
数学建模建立统计模型进行预测
课前·基础认知
课堂·重难突破
素养·目标定位
随堂训练
素养 目标定位
目 标 素 养
1.通过实例能从实际问题中建立统计模型,利用数学模型解决实际问题.
2.建立统计模型进行随机现象的分析和决策.
3.通过学习,提升数学建模和数学运算的核心素养.
知 识 概 览
课前·基础认知
1.建立统计模型进行预测的步骤
微思考建立统计模型进行预测的方法是什么
提示:研究随机现象,就是要在明确研究对象和问题的基础上,通过收集数据、整理数据、提取信息、构建数学模型,再利用模型进行推断,得出结论.通过这样的研究所得出的结论,可以为我们作出决策提供有力的依据.
2.数学建模活动:建立统计模型进行预测
(1)问题背景分析.
(2)建立统计模型.
①绘制散点图;
②建立线性回归方程;
③回归结果分析.
(3)模型的应用.
课堂·重难突破
建立统计模型进行预测
典例剖析
某学生为了测试煤气灶烧水如何节省煤气的问题设计了一个实验,并获得了煤气开关旋钮旋转的弧度数x与烧开一壶水所用时间y的一组数据,且作了一定的数据处理(如下表),得到了散点图(如右图).
(1)根据散点图判断,y=a+bx与y=c+ 哪一个更适宜作烧水时间y关于开关旋钮旋转的弧度数x的经验回归方程类型 (不必说明理由)
(2)根据判断结果和表中数据,建立y关于x的经验回归方程.
(3)若旋转的弧度数x与单位时间内煤气输出量t成正比,则当x为多少时,烧开一壶水最省煤气
(3)设t=kx(k>0),煤气用量为S,若烧开一壶水最省煤气,则S取最小值,
学以致用
某医学院欲研究昼夜温差大小与患感冒人数多少之间的关系,该院派出研究小组分别到气象局与某医院抄录了1月份到6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到数据资料见下表:
月份 1 2 3 4 5 6
昼夜温差/℃ 10 11 13 12 8 6
就诊人数/个 22 25 29 26 16 12
该研究小组确定的研究方案是:先从这6组数据中选取2组,用剩下的4组数据求经验回归方程,再用被选取的2组数据进行检验.
(1)求选取的2组数据恰好是不相邻的两个月的概率;
(2)已知选取的是1月与6月的两组数据.
①请根据2到5月份的数据,求出就诊人数y关于昼夜温差x的经验回归方程;
②若由经验回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的经验回归方程是理想的,试问该研究小组所得经验回归方程是否理想
11×25+13×29+12×26+8×16=1 092,112+132+122+82=498.
解:(1)设“抽到相邻两个月的数据”为事件A,因为从6组数据中选取2组数据共有15种情况,所有结果分别为(1,2),(1,3),(1,4),(1,5),(1,6),(2,3),(2,4),(2,5),(2,6),(3,4),(3,5),(3,6),(4,5),(4,6),(5,6),每种情况都是等可能出现的.
其中,抽到相邻两个月的数据的情况有5种,
随堂训练
1.已知某车间加工零件的个数x与花费时间y(单位:h)之间的经验回归方程为 =0.01x+0.5,则加工600个零件大约需要
h.
答案:6.5
解析:因为 =0.01×600+0.5=6.5,
所以加工600个零件大约需要6.5 h.
2.在一段时间内,分5次测得某种商品的价格x(单位:万元)和需求量y(单位:吨)之间的一组数据为
次数 1 2 3 4 5
价格x 1.4 1.6 1.8 2 2.2
需求量y 12 10 7 5 3
(1)求出y关于x的经验回归方程;
(2)如价格定为1.9万元,预测需求量大约是多少吨
3.假设一个人从出生到死亡,在每个生日那天都测量身高,并作出这些数据散点图,则这些点将不会落在一条直线上,但在一段时间内的增长数据有时可以用经验回归方程来分析.下表是一位母亲给儿子作的成长记录:
年龄x/周岁 3 4 5 6 7 8 9
身高y/cm 90.8 97.6 104.2 110.9 115.7 122.0 128.5
年龄x/周岁 10 11 12 13 14 15 16
身高y/cm 134.2 140.8 147.6 154.2 160.9 167.6 173.0
(1)作出这些数据的散点图;
(2)求出这些数据的经验回归方程;
解:(1)数据的散点图如下: