第八章 成对数据的统计分析
第八章 成对数据的统计分析
知识点1.列联表
(1).2×2列联表给出了成对分类变量数据的交叉分类频数.
(2).定义一对分类变量X和Y,我们整理数据如下表所示:
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
像这种形式的数据统计表称为2×2列联表.
知识点2.独立性检验解决实际问题的主要环节
(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.
(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.
(3)根据检验规则得出推断结论.
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
知识点3.相关关系的分类
按变量间的增减性分为正相关和负相关.
①正相关:当一个变量的值增加时,另一个变量的相应值也增加
②负相关:当一个变量的值增加时,另一个变量的相应值也减少
按变量间是否有线性特征分为线性相关和非线性相关(曲线相关).
①线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关;
②非线性相关或曲线相关:如果两个变量具有相关性,但不是线性相关,我们称这两个变量非线性相关
知识点4.一元线性回归模型
称为Y关于x的一元线性回归模型.其中Y称为因变量或响应变量,x称为自变量或解释变量,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差,如e=0,那么Y与x之间的关系就可以用一元线性函数模型来描述.
知识点5.对模型刻画数据效果的分析
残差图法
残差图中,如残差比较均匀地集中在以横轴为对称轴的水平带状区域内,说明经验回归方程较好地刻画两个变量的关系.
残差平方和法
残差平方和(yi-i)2越小,模型的拟合效果越好.
题型探究
题型探究
例1.下面给出了根据我国2012年~2018年水果人均占有量false(单位:false)和年份代码false绘制的散点图和线性回归方程的残差图(2012年~2018年的年份代码false分别为1~7).
(1)根据散点图说明false与false之间的相关关系(线性正相关、线性负相关或无相关关系);
(2)根据散点图相应数据计算得false,false,求false关于false的线性回归方程;
(3)根据线性回归方程的残差图,分析线性回归方程的拟合效果.
附:回归方程false中斜率和截距的最小二乘计公式分别为:false.
【答案】(1)正相关;(2)false;(3)效果较好.
【详解】
(1)false与false之间线性正相关;
(2)false,false
false
false,false
所以false关于false的线性回归方程为false.
(3)由残差图知,残差的绝对值相对于false较小,残差图均匀分布在一个较窄的带形区域内,故线性回归方程的拟合效果较好.
例2.某机构为了了解不同年龄的人对一款智能家电的评价,随机选取了50名购买该家电的消费者,让他们根据实际使用体验进行评分.
(Ⅰ)设消费者的年龄为false,对该款智能家电的评分为false.若根据统计数据,用最小二乘法得到false关于false的线性回归方程为false,且年龄false的方差为false,评分false的方差为false.求false与false的相关系数false,并据此判断对该款智能家电的评分与年龄的相关性强弱.
(Ⅱ)按照一定的标准,将50名消费者的年龄划分为“青年”和“中老年”,评分划分为“好评”和“差评”,整理得到如下数据,请判断是否有false的把握认为对该智能家电的评价与年龄有关.
好评
差评
青年
8
16
中老年
20
6
附:线性回归直线false的斜率false;相关系数false,独立性检验中的false,其中false.
临界值表:
false
0.050
0.010
0.001
false
3.841
6.635
10.828
【答案】(Ⅰ)false,相关性较强;(Ⅱ)有false的把握认为对该智能家电的评价与年龄有关.
【详解】
(Ⅰ)相关系数false
false
false.
故对该款智能家电的评分与年龄的相关性较强.
(Ⅱ)由列联表可得
false.
故有false的把握认为对该智能家电的评价与年龄有关.
例3.false指数是用体重公斤数除以身高米数的平方得出的数字,是国际上常用的衡量人体胖瘦程度以及是否健康的一个标准.对于高中男体育特长生而言,当false数值大于或等于20.5时,我们说体重较重,当false数值小于20.5时,我们说体重较轻,身高大于或等于false我们说身高较高,身高小于170cm我们说身高较矮.
(1)已知某高中共有32名男体育特长生,其身高与false指数的数据如散点图,请根据所得信息,完成下述列联表,并判断是否有false的把握认为男生的身高对false指数有影响.
身高较矮
身高较高
合计
体重较轻
体重较重
合计
(2)①从上述32名男体育特长生中随机选取8名,其身高和体重的数据如表所示:
编号
1
2
3
4
5
6
7
8
身高false
166
167
160
173
178
169
158
173
体重false
57
58
53
61
66
57
50
66
根据最小二乘法的思想与公式求得线性回归方程为false.利用已经求得的线性回归方程,请完善下列残差表,并求解释变量(身高)对于预报变量(体重)变化的贡献值(保留两位有效数字)false;
编号
1
2
3
4
5
6
7
8
体重false
57
58
53
61
66
57
50
66
残差false
0.1
0.3
0.9
false
false
②通过残差分析,对于残差的最大(绝对值)的那组数据,需要确认在样本点的采集中是否有人为的错误,已知通过重新采集发现,该组数据的体重应该为false.请重新根据最最小二乘法的思想与公式,求出男体育特长生的身高与体重的线性回归方程.
(参考公式)
false,false,false,false,false.
(参考数据)
false,false,false,false,false.
false
0.10
0.05
0.01
0.005
false
2.706
3.811
6.635
7.879
【答案】(1)列联表见解析,没有;(2)①残差表见解析,0.91;②false
【详解】
(1)
身高较矮
身高较高
合计
体重较轻
6
15
21
体重较重
6
5
11
合计
12
20
32
由于false,
因此没有false的把握认为男生的身高对false指数有影响.
(2)①,对编号为6的数据:false,对编号为7的数据:false,对编号为8的数据false,完成残差表如下所示:
编号
1
2
3
4
5
6
7
8
体重false
57
58
53
61
66
57
50
66
残差false
0.1
0.3
0.9
false
false
false
false
3.5
falsefalse.
所以解释变量(身高)对于预报变量(体重)变化的贡献值false约为0.91.
②由①可知,第八组数据的体重应为58.
此时false,又false,false,false,
false,
false,
所以重新采集数据后,男体育特长生的身高与体重的线性回归方程为false.
例4.随着科学技术的飞速发展,网络也已经逐渐融入了人们的日常生活,网购作为一种新的消费方式,因其具有快捷、商品种类齐全、性价比高等优势而深受广大消费者认可.某网购公司统计了近五年在本公司网购的人数,得到如下的相关数据(其中“x=1”表示2015年,“x=2”表示2016年,依次类推;y表示人数):
x
1
2
3
4
5
y(万人)
20
50
100
150
180
(1)试根据表中的数据,求出y关于x的线性回归方程,并预测到哪一年该公司的网购人数能超过300万人;
(2)该公司为了吸引网购者,特别推出“玩网络游戏,送免费购物券”活动,网购者可根据抛掷骰子的结果,操控微型遥控车在方格图上行进. 若遥控车最终停在“胜利大本营”,则网购者可获得免费购物券500元;若遥控车最终停在“失败大本营”,则网购者可获得免费购物券200元. 已知骰子出现奇数与偶数的概率都是false,方格图上标有第0格、第1格、第2格、…、第20格。遥控车开始在第0格,网购者每抛掷一次骰子,遥控车向前移动一次.若掷出奇数,遥控车向前移动一格(从false到false)若掷出偶数遥控车向前移动两格(从false到false),直到遥控车移到第19格胜利大本营)或第20格(失败大本营)时,游戏结束。设遥控车移到第false格的概率为false,试证明false是等比数列,并求网购者参与游戏一次获得免费购物券金额的期望值.
附:在线性回归方程false中,false.
【答案】(1)false,预计到2022年该公司的网购人数能超过300万人;
(2)约400元.
【详解】
解:(1)false
false
false
false
故false 从而false
所以所求线性回归方程为false,
令false,解得false.
故预计到2022年该公司的网购人数能超过300万人
(2)遥控车开始在第0格为必然事件,false,第一次掷骰子出现奇数,遥控车移到第一格,其概率为false,即false.遥控车移到第false(false)格的情况是下列两种,而且也只有两种.
①遥控车先到第false格,又掷出奇数,其概率为false
②遥控车先到第false格,又掷出偶数,其概率为false
所以false,false
false当false时,数列false是公比为false的等比数列
false
以上各式相加,得falsefalse
false(false),
false获胜的概率false
失败的概率false
false设参与游戏一次的顾客获得优惠券金额为false元,false或false
falseX的期望false
false参与游戏一次的顾客获得优惠券金额的期望值为false,约400元.
课后小练
课后小练
1.某市消防部门对辖区企业员工进行了一次消防安全知识问卷调查,通过随机抽样,得到参加问卷调查的500人(其中300人为女性)的得分(满分100false数据,统计结果如表所示:
得分
false
false
false
false
false
false
男性人数
20
60
40
40
30
10
女性人数
10
70
60
75
50
35
(1)把员工分为对消防知识“比较熟悉”(不低于70分的)和“不太熟悉”(低于70分的)两类,请完成如下false列联表,并判断是否有false的把握认为该企业员工对消防知识的熟悉程度与性别有关?
不太熟悉
比较熟悉
合计
男性
女性
合计
(2)为增加员工消防安全知识及自救?自防能力,现将企业员工分成两人一组开展“消防安全技能趣味知识”竞赛.在每轮比赛中,小组两位成员各答两道题目,若他们答对题目个数和不少于3个,则小组积1分,否则积0分.已知false与false在同一小组,false答对每道题的概率为false答对每道题的概率为false,且false,理论上至少要进行多少轮比赛才能使false所在的小组的积分的期望值不少于5分?附:参考公式及false检验临界值表
false
false
false
false
false
false
false
false
false
false
false
false
false
false
false
false
false
2.2021年2月25日举行的全国脱贫攻坚总结表彰大会上,国家电网共有23名(个)先进个人、先进集体获得表彰.其中,国网西藏电力有限公司农电工作部从习近平总书记手中接过了“全国脱贫攻坚楷模”奖牌.过去8年,在党中央坚强领导下,经过世界规模最大、力度最强的脱贫攻坚战,近1亿人摆脱绝对贫困.长期以来贫困地区的农产品面临“种得出卖不出”“酒香也怕巷子深”的困境.深谙互联网思维的国家电网人,搭平台、建渠道,以一款APP让众多贫困地区的产品销售易如反掌.2020年“6.18”期间,带货主播和直播运营两大岗位高达去年同期的11.6倍.针对这一市场现象,为了加强监管,相关管理部门推出了针对电商的商品和服务的评价体系.现从评价系统中选出100次成功交易,并对其评价进行统计,对商品的好评率为0.6,对商品和服务都做出好评的交易为40次,对商品和服务部不满意的交易为5次.
(1)请完成关于商品和服务评价的false列联表,并判断能否在犯错误的概率不超过0.025的前提下,认为商品好与服务好评有关?
对服务好评
对服务不满意
合计
对商品好评
40
对商品不满意
5
合计
100
(2)从“对服务不满意”的评价中分层选出10个,再从这10个评价中随机选出6个,记其中“对商品不满意”的个数为false,求false的分布列及数学期望.
附:false,false.
false
0.15
0.10
0.05
0.025
0.010
0.005
0.001
false
2.072
2.706
3.841
5.024
6.635
7.879
10.828
3.2021年1月1日,新中国成立以来第一部以“法典”命名的法律《中华人民共和国民法典》颁布施行,我国将正式迈入“民法典”时代,为深入了解《民法典》,大力营造学法守法用法的良好氛围,高三年级从文科班和理科班的学生中随机抽取了100名同学参加学校举办的“民法典与你同行”知识竞赛,将他们的比赛成绩(满分为100分)分为6组:false,false,false,false,false,false,得到如图所示的频率分布直方图.
(1)求false的值;
(2)估计这100名学生的平均成绩(同一组中的数据用该组区间的中点值为代表);
(3)在抽取的100名学生中,规定:比赛成绩不低于80分为“优秀”,比赛成绩低于80分为“非优秀”,请将下面的false列联表补充完整,并判断是否有95%的把握认为“比赛成绩是否优秀与文理科别有关”?
优秀
非优秀
合计
文科生
30
理科生
55
合计
100
参考公式及数据:false,false
false(false)
0.10
0.05
0.025
0.010
0.005
0.001
false
2.706
3.841
5.024
6.635
7.879
10.828
4.2021年是“十四五”开局之年,是实施乡村振兴的重要一年.某县为振兴乡村经济,大力发展乡村生态旅游,激发乡村发展活力.该县为了解乡村生态旅游发展情况,现对全县乡村生态旅游进行调研,统计了近9个月来每月到该县乡村生态旅游的外地游客人数false(单位:万人),并绘制成下图所示散点图,其中月份代码1~9分别对应2020年7月至2021年3月.
(1)用模型①false,②false分别拟合false与false的关系,根据散点图判断,哪个模型的拟合效果最好?(不必说理由)
(2)根据(1)中选择的模型,求false关于false的回归方程(系数精确到0.01);
(3)据以往数据统计,每位外地游客可为该县带来100元左右的旅游收入,根据(2)中的回归模型,预测2021年10月,外地游客可为该县带来的生态旅游收入为多少万元?
参考数据:下表中false,false.
false
false
false
false
false
false
23
2.15
60
3.58
84.5
21.31
参考公式:对于一组数据false,false,…,false,回归方程false中的斜率和截距的最小二乘估计公式分别为false,false.
5.false年开始,小李在县城租房开了一间服装店,每年只卖甲品牌和乙品牌的服装.小李所租服装店每年的租金如下表:
年份
false
false
false
false
年份代号false
false
false
false
false
租金false(千元)
false
false
false
false
根据以往的统计可知,每年卖甲品牌服装的收入为false万元,卖乙品牌服装的收入为false万元.
(I)求false关于false的线性回归方程;
(II)由(I)求得的回归方程预测此服装店false年的利润为多少.(年利润false年收入false年租金)
参考公式:在线性回归方程false中,false,false.
参考答案
1.(1)填表见解析;有false的把握认为该企业员工对消防知识的了解程度与性别有关;(2)理论上至少要进行16轮比赛.
【详解】
(1)
不太熟悉
比较熟悉
合计
男性
120
80
200
女性
140
160
300
合计
260
240
500
false
false有false的把握认为该企业员工对消防知识的了解程度与性别有关.
(2)false在一轮比赛中积1分的概率为false
false,
又false,则false
false,且false
false,此时false,
设false所在的小组在false轮比赛中的积分为false,则false,
false,所以理论上至少要进行16轮比赛.
2.(1)列联表见解析,能;(2)分布列见解析,false.
【详解】
(1)由题意可得关于商品和服务评价的false列联表如下:
对服务好评
对服务不满意
合计
对商品好评
40
20
60
对商品不满意
35
5
40
合计
75
25
100
false,
故能在犯错误的概率不超过0.025的前提下,认为商品好评与服务好评有关.
(2)由(1)得从“对服务不满意”的评价中分层选出的10个评价中,“对商品好评”的有8个,“对商品不满意”的有2个,故false的所有可能取值为0,1,2,
false,false,false,
false
0
1
2
false
false
false
false
所以false.
3.(1)false;(2)false;(3)列联表答案见解析,没有95%的把握认为“比赛成绩是否优秀与科别有关”.
【详解】
解:(1)由题可得false,解得false;
(2)平均成绩为:false;
(3)由(2)知,在抽取的100名学生中,比赛成绩优秀的有false人,
由此可得完整的false列联表:
优秀
非优秀
合计
文科生
15
30
45
理科生
10
45
55
合计
25
75
100
∵false,
∴没有95%的把握认为“比赛成绩是否优秀与科别有关”.
4.(1)模型②false的拟合效果最好;(2)false;(3)3400万元.
【详解】
(1)模型②false的拟合效果最好.
(2)令false,知false与false可用线性方false拟合,则
false,false,
所以,false关于false的线性回归方程为false,
故false关于x的回归方程为false.
(3)2021年10月,即false时,false(万人),
此时,外地游客可为该县带来的生态旅游收入为3400万元.
5.(I)false;(II)14.45万元.
【详解】
命题意图 本题考查线性回归方程.
解析(I)根据表中数据,计算可得false,false,
false,
false
false,
false,
false关于false的线性回归方程为false
(II)将false代入回归方程得false(千元).
false预测第false年卖甲品牌服装的收入为false万元,卖乙品牌服装的收入为false万元,
false预测false年的利润为false(万元).