10756900118872002635251529715知识点1-----变量的相关关系
知识点1-----变量的相关关系
3619500775335综合复习
综合复习
404495-55880第八章 成对数据的统计分析
第八章 成对数据的统计分析
1.相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
20193088900知识点2-----相关关系的分类
知识点2-----相关关系的分类
1.线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
2.非线性相关:一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
23177563500知识点3-----一元线性回归模型
知识点3-----一元线性回归模型
false我们称该式为Y关于x的一元线性回归模型.其中,Y 称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.如果e=0,那么Y与x之间的关系就可用一元线性函数模型来描述.
177800107315知识点4-----一元线性回归模型参数的最小二乘估计
知识点4-----一元线性回归模型参数的最小二乘估计
1.线性回归方程与最小二乘法
回归直线方程过样本点的中心(x,y),是回归直线方程最常用的一个特征
我们将false称为Y关于x的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线。这种求经验回归方程的方法叫做最小二乘法,求得的false,叫做b,a的最小二乘估计(lastsqures estimate),
其中false
2.残差的概念
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差,残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
3.残差与残差分析
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的false称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分差.
4.刻画回归效果的方式
⑴残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.
(2)残差平方和法
残差平方和false,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.
(3)利用R2刻画回归效果
决定系数R是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.false,R2越大,即拟合效果越好,R2越小,模型拟合效果越差
144780-167005知识点5------分类变量与列联表
知识点5------分类变量与列联表
1.分类变量
为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示.
2.两个分类变量之间关联关系的定性分析方法
(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大小进行
比较来分析分类变量之间是否有关联关系.通常通过列联表列出两个分类变量的
频数表来进行分析.
(2)图形分析法:与表格相比,图形更能直观地反映两个分类变量间是否互相影响,常
用等高堆积条形图展示列联表数据的频率特征.
229870-120650重难点探究
重难点探究
应用独立性检验解决实际问题大致应包括以下几个主要环节:
(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释;
(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值Xa比较;
(3)根据检验规则得出推断结论;
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规
律.
注意,上述几个环节的内容可以根据不同情况进行调整.例如,在有些时候,分类变量
的抽样数据列联表是问题中给定的.
残差图
是以残差为纵坐标,以其他有关量为横坐标的散点图.根据一元线性回归模型中对随机误差的假定,残差应是均值为0、方差为σ?的随机变量的观测值,其残差图中的点应大致均匀地分布在某一水平带状区域内,没有任何明显的趋势.
样本相关系数r的性质
(1)当r>0时,称成对数据正相关;当r<0时,称成对数据负相关.
(2)当|r|越接近1时,成对数据的线性相关程度越强;当|r|越接近0时,成对数据的线性相关程度越弱.
(3)样本相关系数r的取值范围为[-1,1].
047625经典例题
经典例题
例题1.2020年是决胜全面建成小康社会、决战脱贫攻坚之年,面对新冠肺炎疫情和严重洪涝灾害的考验.党中央坚定如期完成脱贫攻坚目标决心不动摇,全党全社会戮力同心真抓实干,取得了积极成效.某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,已知土地的使用面积 x 与相应的管理时间 y 的关系如下表所示:
土地使用面积 x (单位:亩)
1
2
3
4
5
管理时间 y (单位:月)
8
11
14
24
23
并调查了某村300名村民参与管理的意愿,得到的部分数据如下表所示;
愿意参与管理
不愿意参与管理
男性村民
140
60
女性村民
40
参考公式: r=i=1n(xi?x)i=1n(xi?x)2i=1n(yi?y)2
参考数据: y=16,∑(y?y)2=206,515≈22.7
(1)做出散点图,判断土地使用面积 x 与管理时间 y 是否线性相关;并根据相关系数 r 说明相关关系的强弱.(若 |r|≥0.75 ,认为两个变量有很强的线性相关性, r 值精确到0.001) .
(2)若以该村的村民的性别与参与管理意风的情况估计贫困县的情况,且每位村民参与管理的意互不影响,则从该贫困县村民中任取3人,记取到不愿意参与管理的女性村民的人数为 X ,求 X 的分布列及数学期望.
【答案】 (1)解:散点图如下图.
由散点图可知,管理时间 y 与土地使用面积 x 线性相关
依题意: x=1+2+3+4+55=3 ,又 y=16 ,
i=15(xi?x)(yi?y)=(?2)×8+(?1)×(?5)+0×(?2)+1×8+2×7=43 ,
i=15(xi?x)=(?2)+(?1)2+02+12+22=10 , i=15(yi?y)2=206 ,
则 r=i=1n(xi?x)(yi?y)i=1n(xi?x)i=1n(yi?y)=4310×206=432515≈4345.4≈0.947 ,
由于 0.947>0.75,
故管理时间 y 与土地使用面积 x 线性相关性较强
(2)解:由题知调查的300名村名中有不愿意参与管理的女性村民人数为 300?(140+40+60)=60 ,
该贫困县中任选一人,取到不愿意参与管理的女性树民的概率 p=60300=15 ,
则 X 可取 0,1,2,3 ,
P(X=0)=C310×(45)3=64125 ,
P(X=1)=C31×(45)2=48125 ,
P(X=2)=C32×(15)2×45=12125 ,
P(X=3)=C33×(15)3=1125 ,
即: X?B(3,15) , P(X=K)=C3k×(15)k×(45)3?k,k=0,1,2,3
X 的分布列
X
0
1
2
3
P
64125
48125
12125
1125
E(X)=0×64125+1×48125+2×12125+3×1125=35 ,即 E(X)=nP=3×15=35
【解析】(1)利用已知条件画出散点图,再利用相关系数判断出管理时间 y 与土地使用面积 x 线性相关性较强。
(2)利用已知条件结合古典概型求概率公式,进而求出该贫困县中任选一人,取到不愿意参与管理的女性树民的概率,进而求出随机变量X的取值,再利用二项分布求概率公式,进而求出随机变量X的分布列,再利用随机变量X的分布列结合数学期望公式,进而求出随机变量X的数学期望。
?
?
例题2.垃圾是人类日常生活和生产中产生的废弃物,由于排出量大,成分复杂多样,且具有污染性,所以需要无害化?减量化处理.某市为调查产生的垃圾数量,采用简单随机抽样的方法抽取20个县城进行了分析,得到样本数据 (xi,yi)(i=1,2,???,20) ,其中 xi 和 yi 分别表示第 i 个县城的人口(单位:万人)和该县年垃圾产生总量(单位:吨),并计算得 i=120xi=80 , i=120yi=4000 , i=120(xi?x)2=80 , i=120(yi?y)2=8000 , i=120(xi?x)(yi?y)=700 .
参考公式:相关系数 r=i=1n(xi?x)(yi?y)i=1n(xi?x)2i=1n(yi?y)2 ,对于一组具有线性相关关系的数据 (xi,yi)(i=1,2,3,???,n) ,其回归直线 y=bx+a 的斜率和截距的最小二乘估计分别为 b=i=1n(xi?x)(yi?y)i=1n(xi?x)2 , a=y?bx .
(1)请用相关系数说明该组数据中 y 与 x 之间的关系可用线性回归模型进行拟合;
(2)求 y 关于 x 的线性回归方程,用所求回归方程预测该市10万人口的县城年垃圾产生总量约为多少吨?
【答案】 (1)解:由题意知,相关系数 r=i=120(xi?x)(yi?y)i=120(xi?x)2i=120(yi?y)2=70080×8000=78=0.875 .
因为 y 与 x 的相关系数接近1,
所以 y 与 x 之间具有较强的线性相关关系,可用线性回归模型进行拟合
(2)解:由题意可得, b=i=120(xi?x)(yi?y)i=120(xi?x)2=70080=8.75 ,
a=y?bx=400020?8.75×8020=200?8.75×4=165 ,
所以 y=8.75x+165 .
当 x=10 时, y=8.75×10+165=252.5 ,
所以该市10万人口的县城年垃圾产生总量约为252.5吨
【解析】 (1)首相计算相关系数r,根据|r|与1的接近程度,即可判断;
(2)由参考公式求得a^和b^的值,即可得线性回归方程,再把x=10代入回归方程即可得解.
例题3.某线上学习平台为保证老学员在此平台持续报名学习,以便吸引更多学员报名,从用户系统中随机选出200名学员,对该学习平台的教学成效评价和课后跟踪辅导评价进行了统计,并用以估计所有学员对该学习平台的满意度.其中对教学成效满意率为0.9,课后跟踪辅导的满意率为0.8,对教学成效和课后跟踪辅导都不满意的有10人.
附: 2×2 列联表参考公式: k2=n(ad?bc)2(a+b)(c+d)(a+c)(b+d) , n=a+b+c+d .
临界值:
P(K2?k0)
0.100
0.050
0.025
0.010
0.001
k0
2.706
3.814
50.24
6.635
10.828
(1)完成下面 2×2 列联表,并分析是否有99.9%把握认为教学成效满意度与跟踪辅导满意度有关.
对教学成效满意
对教学成效不满意
合计
对课后跟踪辅导满意
对课后跟踪辅导不满意
合计
(2)若用频率代替概率,假设在学习服务协议终止时对教学成效和课后跟踪辅导都满意学员的续签率为90%,只对其中一项不满意的学员续签率为60%,对两项都不满意的续签率为10%.从该学习平台中任选10名学员,估计在学习服务终止时续签学员人数.
【答案】 (1)解:依题意有
对教学成效满意
对教学成效不满意
合计
对课后跟踪辅导满意
150
10
160
对课后跟踪辅导不满意
30
10
40
合计
180
20
200
算得 k2 的观测值为 k2=200×(150×10?30×10)2180×20×160×40=12.5>10.828
故有99.9%把握认为教学成效满意度与跟踪辅导满意度有关
(2)解:在200人中对平台的双满意的续签人数为 150×90%=135 ,仅一项满意的续签人数为 40×60%=24 ,都不满意的续签人数为 10×10%=1 ,所以该平台的续签率为 135+24+1200=0.8 依题意有 X~B(10,0.8) ,所以任选10人,该平台续签人数为8人
【解析】(1)由已知条件的图表中的数据结合观测值的公式计算出结果,再与标准值进行比较即可得出结果。
(2)结合已知条件代入数值计算出结果再由二项分布的性质计算出结果即可。
?
-876308890随堂练习
随堂练习
练习1.2020年10月1日既是中华人民共和国第71个国庆日,又是农历中秋节,双节同庆,很多人通过短视频 APP 或微信、微博表达了对祖国的祝福.某调查机构为了解通过短视频 APP 或微信、微博表达对祖国祝福的人们是否存在年龄差异,通过不同途径调查了数千个通过短视频 APP 或微信、微博表达对祖国祝福的人,并从参与者中随机选出200人,经统计这200人中通过微信或微博表达对祖国祝福的有160人.将这160人按年龄分组:第1组 [15,25) ,第2组 [25,35) ,第3组 [35,45) ,第4组 [45,55) ,第5组 [55,65] ,得到的频率分布直方图如图所示:
附:
P(K2>k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
K2=n(ad?bc)2(a+b)(c+d)(a+c)(b+d)
(1)求 a 的值并估计这160人的平均年龄;
(2)20×10×0.01+30×10×0.015+40×10×0.035+50×10×0.03+60×10×0.01=41.5把年龄在第1,2,3组的居民称为青少年组,年龄在第4,5组的居民称为中老年组,选出的200人中通过短视频 APP 表达对祖国祝福的中老年人有26人,问是否有 99% 的把握认为是否通过微信或微博表达对祖国的祝福与年龄有关?
练习2.某公司对项目进 A 行生产投资,所获得的利润有如下统计数据表:
项目 A 投资金额 x (单位:百万元)
1
2
3
4
5
所获利润 y (单位:百万元)
0.3
0.3
0.5
0.9
1
附:①对于一组数据 (x1,y1) 、 (x2,y2) 、 ?? 、 (xn,yn) ,其回归直线方程 y=bx+a 的斜率和截距的最小二乘法估计公式分别为: b=i=1nxiyi?nx?yi=1nxi2?nx2 , a=y?bx .
②线性相关系数 r=i=1nxiyi?nx?y(i=1nxi2?nx2)(i=1nyi2?ny2) .一般地,相关系数 r 的绝对值在0.95以上(含0.95)认为线性相关性较强;否则,线性相关性较弱.
参考数据:对项目 A 投资的统计数据表中 i=1nxiyi=11 , i=1nyi2=2.24 , 4.4≈2.1 .
(1)请用线性回归模型拟合 y 与 x 的关系,并用相关系数加以说明;
(2)该公司计划用 7 百万元对 A 、 B 两个项目进行投资.若公司对项目 B 投资 x(1≤x≤6) 百万元所获得的利润 y 近似满足: y=0.16x?0.49x+1+0.49 ,求 A 、 B 两个项目投资金额分别为多少时,获得的总利润最大?
练习3.2020年是脱贫攻坚的收官之年,国务院扶贫办确定的贫困县全部脱贫摘帽,脱贫攻坚取得重大胜利,为确保我国如期全面建成小康社会,实现第一个百年奋斗目标打下了坚实的基础在产业扶贫政策的大力支持下,西部某县新建了甲?乙两家玩具加工厂,加工同一型号的玩具质监部门随机抽检了两个厂的各100件玩具,在抽取中的200件玩具中,根据检测结果将它们分成“A”?“B”?“C”三个等级,A?B等级都是合格品,C等级是次品,统计结果如下表所示:
等级
A
B
C
频数
20
120
60
(表一)
厂家
合格品
次品
合计
甲
75
乙
35
合计
(表二)
在相关政策扶持下,确保每件合格品都有对口销售渠道,但从安全起见,所有的次品必须由原厂家自行销.
附: x2=n(ad?bc)2(a+b)(c+d)(a+c)(b+d) ,其中 n=a+b+c+d .
P(x2≥x0)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
x0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
(1)请根据所提供的数据,完成上面的2×2列联表(表二),并判断是否有95%的把握认为产品的合格率与厂家有关?
(2)每件玩具的生产成本为30元,A?B等级产品的出厂单价分别为60元?40元.另外已知每件次品的销毁费用为4元.若甲厂抽检的玩具中有10件为A等级,用样本的频率估计概率,试判断甲?乙两厂能否都能盈利,并说明理由.
练习4.近期,某超市针对一款饮料推出刷脸支付活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用刷脸支付.该超市统计了活动刚推出一周内每一天使用刷脸支付的人次,用 x 表示活动推出的天数, y 表示每天使用刷脸支付的人次,统计数据如下表所示:
x
1
2
3
4
5
6
7
y
6
10
18
32
56
100
178
参考数据:其中 vi=1g?yi , v=17i=17vi
v
i=17xivi
100.5
1.5
49
3.2
参考公式:对于一组数据 (x1,v1),(x2,v2),?,(xn,vn) ,其回归直线 v=a+bx 的斜率和截距的最小二乘估计公式分别为: b=i=1nxivi?nxvi=1nxi2?nx2, a=v?bx .
(1)在推广期内, y=a+bx 与 y=c?dx ( c,d 均为大于零的常数)哪一个适宜作为刷脸支付的人次 y 关于活动推出天数 x 的回归方程类型?(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表 1 中的数据,求 y 关于 x 的回归方程,并预测活动推出第 8 天使用刷脸支付的人次;
(3)已知一瓶该饮料的售价为2元,顾客的支付方式有三种:现金支付、扫码支付和刷脸支付,其中有10%使用现金支付,使用现金支付的顾客无优惠;有40%使用扫码支付,使用扫码支付享受8折优惠;有50%使用刷脸支付,根据统计结果得知,使用刷脸支付的顾客,享受7折优惠的概率为 16 ,享受 8 折优惠的概率为 13 ,享受9折优惠的概率为 12 .根据所给数据估计购买一瓶该饮料的平均花费.
-4762540640参考答案
参考答案
练习1【答案】 (1)解:由 10×(0.01+0.015+a+0.03+0.01)=1 得, a=0.035 .
这160人的平均年龄为:
(2)解:前3组人数为 10×(0.010+0.015+0.035)×160=96 ,
由题意得 2×2 列联表:
通过短视频 APP 表达祝福
通过微信或微博表达祝福
合计
青少年
14
96
110
中老年
26
64
90
合计
40
160
200
K2=200×(14×64?26×96)240×160×110×90≈8.081>6.635 ,
所以是有 99% 的把握认为通过微信或微博表达对祖国的祝福与年龄有关.
【解析】(1)利用频率分布直方图中各小组矩形的面积等于各小组的频率,从而结合频率之和等于1,进而求出a的值,再利用频率分布直方图求平均数的公式,从而估计出这160人的平均年龄。
(2)利用已知条件结合独立性检验的方法,从而得出有 99% 的把握认为通过微信或微博表达对祖国的祝福与年龄有关。
练习2【答案】 (1)解:对项目 A 投资的统计数据进行计算,有 x=3 , y=0.6 , i=15xi2=55 ,
所以 b=i=15xiyi?5x?yi=15xi2?5x2=11?955?5×32=0.2 , a=y?bx=0.6?0.2×3=0 ,
所以回归直线方程为: y=0.2x .
线性相关系数 r=i=15xiyi?5x?y(i=15xi2?5x2)(i=15yi2?5y2)=11?9(55?5×32)×(2.24?5×0.62)
=24.4≈0.9534>0.95 ,
这说明投资金额 x 与所获利润 y 之间的线性相关关系较强,
用线性回归方程 y=0.2x 对该组数据进行拟合合理
(2)解:设对 B 项目投资 x(1≤x≤6) 百万元,则对 A 项目投资 (7?x) 百万元.
所获总利润 y=0.16x?0.49x+1+0.49+0.2(7?x)=1.93?[0.49x+1+0.04(x+1)]
≤1.93?20.49x+1?0.04(x+1)=1.65 ,
当且仅当 0.04(x+1)=0.49x+1 ,即 x=2.5 时取等号,
所以对 A 、 B 项目分别投资4.5百万元,2.5百万元时,获得总利润最大
【解析】(1)利用已知条件结合最小二乘法,进而求出线性回归方程,再利用相关系数推出投资金额 x 与所获利润 y 之间的线性相关关系较强,用线性回归方程 y=0.2x 对该组数据进行拟合合理。
(2)利用已知条件设对 B 项目投资 x(1≤x≤6) 百万元,则对 A 项目投资 (7?x) 百万元,所获总利润 y=0.16x?0.49x+1+0.49+0.2(7?x) ,再利用均值不等式求最值的方法,进而求出对A、B项目分别投资4.5百万元,2.5百万元时,获得总利润最大 。
练习3【答案】 (1)解:2×2列联表如下
厂家
合格品
次品
合计
甲
75
25
100
乙
65
35
100
合计
140
60
200
K2=200×(75×35?25×65)2100×100×140×60≈2.38<3.841 ,
∴ 没有95%的把握认为产品的合格率与厂家有关.
(2)解:甲厂10件A等级,65件B等级,25件次品,
对于甲厂,单件产品利润X的可能取值为30,10, ?34 .
X的分布列如下:
X
30
10
?34
P
110
1320
14
∴E(X)=30×110+10×1320?34×14=1>0 ,
∴ 甲厂能盈利,
对于乙厂有10件A等级,55件B等级,35件次品,
对于乙厂,单位产品利润Y的可能取值为30,10, ?34 ,
Y分布列如下:
Y
30
10
?34
P
110
1120
720
∴E(Y)=30×110+10×1120?34×720=?175<0 ,乙不能盈利.
【解析】(1)根据题目所给的数据可得2×2列联表,再由公式 K2=200×(75×35?25×65)2100×100×140×60≈2.38<3.841 , 计算k的值,从而查表即可;
(2)用样本的频率估计概率,分别计算甲、乙两厂的获利期望可判断是否都能盈利。
练习4【答案】 (1)解:直接根据统计数据表判断,
y=c?dx 适宜作为扫码支付的人数 y 关于活动推出天数 x 的回归方程类型;
(2)解:因为 y=c?dx ,两边同时取常用对数得: 1gy=1g(c?dx) =1gc+1gd?x ,
设 1gy=v, 所以 v=1gc+1gd?x ,
因为 x=4,v=1.5, i=17xi2=140 ,
所以 lgd=i=17xivi?7xvi=17xi2?7x2= 49?7×4×1.5140?7×42=728=0.25 ,
把样本中心点 (4,1.5) 代入 v=1gc+1gd?x ,得: lgc=0.5 ,
所以 v=0.5+0.25x , lgy=0.5+0.25x ,
所以 y 关于 x 的回归方程式: y=100.5+0.25x=100.5×(100.25x)=3.2×100.25x ,
把 x=8 代入上式, y=3.2×102=320 ,
所以活动推出第8天使用刷脸支付的人次为320;
(3)解:记购买一瓶该饮料的花费为 Z (元),则 Z 的取值可能为: 2,1.8,1.6,1.4 ,
P(Z=2)=110 ,
P(Z=1.8)=12×12=14 ,
P(Z=1.6)= 0.4+12×13=1730 ,
P(Z=1.4)=12×16=112 ,
分布列为:
Z
2
1.8
1.6
1.4
P
110
14
1730
112
因为 E(Z)=2×110+1.8×14+1.6×1730+1.4×112=251150 ,
所以估计购买一瓶该饮料的平均花费为 251150 (元).
【解析】(1)根据散点图判断, y=c?dx 适宜作为扫码支付的人数y关于活动推出天数x的回归方程类型;
(2)通过 y=c?dx ,得:1gy=1gc+1gd?x,设1gy=v,推出v=1gc+1gd?x,把样本中心点(4,1.5)代入v=1gc+1gd?x,求出回归直线方程,把x=8代入上式,求出活动推出第8天使用刷脸支付的人次;
(3)记购买一瓶该饮料的花费为Z(元),则Z的取值可能为:2,1.8,1.6,1.4;求出概率,得到分布列,然后求解期望.