第八章 成对数据的统计分析
第八章 成对数据的统计分析
8.1成对数据的统计相关性
8.1成对数据的统计相关性
知识梳理
知识梳理
知识点1. 变量的相关关系
相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
相关关系的分类
按变量间的增减性分为正相关和负相关.
①正相关:当一个变量的值增加时,另一个变量的相应值也增加
②负相关:当一个变量的值增加时,另一个变量的相应值也减少
按变量间是否有线性特征分为线性相关和非线性相关(曲线相关).
①线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关;
②非线性相关或曲线相关:如果两个变量具有相关性,但不是线性相关,我们称这两个变量非线性相关
知识点2.相关关系的刻画
散点图::将样本中的每一个序号下的成对样本数据都用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
样本相关系数
(1)我们常用样本相关系数r来确切地反映成对样本数据(xi,yi)的相关程度,其中r=.
(2)样本相关系数r的取值范围为[-1,1].
①若r>0时,成对样本数据正相关;
②若r<0时,成对样本数据负相关;
③当|r|越接近1时,成对样本数据的线性相关程度越强;
④当|r|越接近0时,成对样本数据的线性相关程度越弱.
题型探究
题型探究
例1.中药藿香产业化种植已经成为某贫困山区农民脱贫攻坚的重要产业之一,藿香在环境温度为15~28℃时生长旺盛,环境温度高于28℃或低于15℃时生长缓慢或停止.藿香的株高false(单位:false)与生长期内环境温度false(单位:℃)中的false有关,现收集了13组藿香生长期内环境温度中的false和株高false(false,2,…,13)观测数据,得到如图所示的false散点图.
根据散点图判断,可以利用模型false或false建立false关于false的回归方程,令false,false,统计处理得到一些数据:false的线性相关系数false,false的线性相关系数false.false,false,false,false,false,false,false,false,false.用线性相关系数说明上面的两种模型哪种适宜作为false关于false的回归方程,并求这种模型的回归方程,由此预测这种中药藿香在生长期内的环境温度为20℃时的株高(株高精确到1).
附:对于一组数据false(false,2,3,…,false),其回归直线false的斜率和截距的最小二乘估计分别为false,false.
【答案】false适宜作为false与false的回归方程模型;false;预测这种中药藿香在生长期内的环境温度为20℃时的株高为false.
【详解】
因为false,false,所以false,所以false适宜作为false与false的回归方程模型.
因为false,false.
所以false关于false的回归方程为false.
当false时,false
因此预测这种中药藿香在生长期内的环境温度为20℃时的株高为false.
例2.某公司为了了解年研发资金投人量false(单位:亿元)对年销售额false(单位:亿元)的影响.对公司近false年的年研发资金投入量false和年销售额false的数据,进行了对比分析,建立了两个函数模型:①false,②false,其中false、false、false、false均为常数,false为自然对数的底数.并得到一些统计量的值.令false,false,经计算得如下数据:
false
false
false
false
false
false
false
false
false
2
false
false
false
false
false
false
false
false
false
false
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)①根据(1)的选择及表中数据,建立false关于false的回归方程;
②若下一年销售额false需达到false亿元,预测下一年的研发资金投入量false是多少亿元?
附:相关系数:false,回归直线false中公式分别为:false,false;
参考数据:false,false,false.
【答案】(1)模型false;(2)①false;②false亿元.
【详解】
(1)设false和false的相关系数为false,false和false的相关系数为false,由题意,
false,
false,
则false,因此从相关系数的角度,模型false的拟合程度更好;
(2)(ⅰ)先建立false关于false的线性回归方程,
由false,得false,即false;
由于false,false,
所以false关于false的线性回归方程为false,
所以false,则false;
(ⅱ)下一年销售额false需达到false亿元,即false,代入false,得false,
又false,所以false,所以false,
所以预测下一年的研发资金投入量约是false亿元.
例3.数独是源自18世纪瑞士的一种数学游戏,玩家需要根据false盘面上的已知数字,推理出所有剩余空格的数字,并满足每一行?每一列?每一个粗线宫(false)内的数字均含1-9,不重复.数独爱好者小明打算报名参加“丝路杯”全国数独大赛初级组的比赛,赛前小明在某数独APP上进行一段时间的训练,每天的解题平均速度false(秒)与训练天数false(天)有关,经统计得到如表的数据:
false(天)
1
2
3
4
5
6
7
false(秒)
990
990
450
320
300
240
210
(1)现用false作为回归方程模型,请利用表中数据,求出该回归方程;
(2)请用第(1)题的结论预测,小明经过100天训练后,每天解题的平均速度false约为多少秒?
参考数据(其中false)
false
false
false
1845
0.37
0.55
参考公式:对于一组数据false,false,…,false,其回归直线false的斜率和截距的最小二乘估计公式分别为:false,false.
【答案】(1)false;(2)140秒.
【详解】
(1)由题意false,
令false,设false关于false的线性回归方程为false,
则有false,
则false,
所以false,
又false,所以false关于false的回归方程为false;
(2)当false时,false,
所以经过100天训练后,小明每天解题的平均速度约为140秒.
例4.某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据.
x
6
8
10
12
y
2
3
5
6
(1)请根据上表提供的数据,求出y关于x的线性回归方程false;
(2)判断该高三学生的记忆力和判断力是正相关还是负相关;并预测判断力为11的同学的记忆力.
(参考公式:false)
【答案】(1)false;(2)是正相关,19.
【详解】
(1)由题意false,
false,false,false,
所以false,false,
故线性回归方程为false;
(2)由表中数据结合false,可判断高三学生的记忆力和判断力是正相关;
当false时,即false,解得false,
所以由回归直线方程预测,判断力为11的同学的记忆力约为19.
例5.某公司研发了一种帮助家长解决孩子早教问题的萌宠机器人.萌宠机器人语音功能让它就像孩子的小伙伴一样和孩子交流,记忆功能还可以记住宝宝的使用习惯,很快找到宝宝想听的内容.同时提供快乐儿歌、国学经典、启蒙英语等早期教育内容,且云端内容可以持续更新.萌宠机器人一投放市场就受到了很多家长欢迎.为了更好地服务广大家长,该公司研究部门从流水线上随机抽取100件萌宠机器人(以下简称产品),统计其性能指数并绘制频率分布直方图(如图1):
产品的性能指数在false的适合托班幼儿使用(简称A类产品),在false的适合小班和中班幼儿使用(简称B类产品),在false的适合大班幼儿使用(简称C类产品),A,B,C,三类产品的销售利润分别为每件1.5,3.5,5.5(单位:元).以这100件产品的性能指数位于各区间的频率代替产品的性能指数位于该区间的概率.
(1)求每件产品的平均销售利润;
(2)该公司为了解年营销费用false(单位:万元)对年销售量false(单位:万件)的影响,对近5年的年营销费用false,和年销售量false数据做了初步处理,得到的散点图(如图2)及一些统计量的值.
false
false
false
false
16.30
24.87
0.41
1.64
表中false,false,false,false.
根据散点图判断,false可以作为年销售量false(万件)关于年营销费用false(万元)的回归方程.
(i)建立false关于false的回归方程;
(ii)用所求的回归方程估计该公司应投入多少营销费,才能使得该产品一年的收益达到最大?
(收益=销售利润-营销费用,取false).
参考公式:对于一组数据false,其回归直线false的斜率和截距的最小二乘估计分别为false,false.
【答案】(1)每件产品的平均销售利润为4元(2)(i)false(ii)该厂应投入256万元营销费.
【详解】
(1)设每件产品的销售利润为false元,则false的所有可能取值为1.5,3.5,5.5,
由直方图可得,false,false,false三类产品的频率分别为0.15、0.45、0.4,
所以,false,false,false,
所以随机变量false的分布列为:
false
1.5
3.5
5.5
false
0.15
0.45
0.4
所以,false,
故每件产品的平均销售利润为4元;
(2)(i)由false得,false,
令false,false,false,则false,
由表中数据可得,false,
则false,
所以,false,
即false,
因为false,所以false,
故所求的回归方程为false;
(ii)设年收益为false万元,则false,
设false,false,
则false,
当false时,false,false在false单调递增,
当false时,false,false在false单调递减,
所以,当false,即false时,false有最大值为768,
即该厂应投入256万元营销费,能使得该产品一年的收益达到最大768万元.
课后小练
课后小练
1.2020年是我国全面建成小康社会和打赢脱贫攻坚战的收官之年,某省为了坚决打嬴脱贫攻坚战,在100个贫闲村中,用简单随机抽样的方法抽取15个进行脱贫验收调查,调查得到的样本数据 (xi,yi) (i=1,2,???,15) ,其中 xi 和 yi 分別表示第i个贫困村中贫闲户的年平均收入(单位:万元)和产业扶贫资金投入数量(单位:万元),并计算得到 i=115xi=15 , i=115yi=750 , i=115(xi?x)2=0.82 , i=115(yi?y)2=1670 , i=115(xi?x)(yi?y)=35.3 .
附:相关系数 r=i=1n(xi?x)(yi?y)i=1n(xi?x)2i=1n(yi?y)2 , 1369.4≈37 .
(1)试估计该省贫困村的贫困户年平均收入.
(2)根据样本数据,求该省贫困村中贫困户年平均收入与产业扶贫资金投入的相关系数.(精确到0.01)
2.?2018年反映社会现实的电影《我不是药神》引起了很大的轰动,治疗特种病的创新药研发成了当务之急.为此,某药企加大了研发投入,市场上治疗一类慢性病的特效药品 A 的研发费用 x (百万元)和销量 y (万盒)的统计数据如下:
研发费用 x (百万元)
2
3
6
10
13
15
18
21
销量 y (万盒)
1
1
2
2.5
3.5
3.5
4.5
6
(1)求 y 与 x 的相关系数 r 精确到0.01,并判断 y 与 x 的关系是否可用线性回归方程模型拟合?(规定: |r|≥0.75 时,可用线性回归方程模型拟合);
(2)该药企准备生产药品 A 的三类不同的剂型 A1 , A2 , A3 ,并对其进行两次检测,当第一次检测合格后,才能进行第二次检测.第一次检测时,三类剂型 A1 , A2 , A3 合格的概率分别为 12 , 45 , 35 ,第二次检测时,三类剂型 A1 , A2 , A3 合格的概率分别为 45 , 12 , 23 .两次检测过程相互独立,设经过两次检测后 A1 , A2 , A3 三类剂型合格的种类数为 X ,求 X 的数学期望.
附:(1)相关系数 r=i=1nxiyi?nxy(i=1nxi2?nx2)(i=1nyi2?ny2) ;(2) i=18xiyi=347 , i=18xi2=1308 , i=18yi2=93 , 1785≈42.25 .
3.为迎接 M,N 年北京冬季奥运会,普及冬奥知识,某校开展了“冰雪答题王”冬奥知识竞赛活动.现从参加冬奥知识竞赛活动的学生中随机抽取了 100 名学生,将他们的比赛成绩(满分为 100 分)分为 6 组: [40,50) , [50,60) , [60,70) , [70,80) , [80,90) , [90,100] ,得到如图所示的频率分布直方图.
(Ⅰ)求 a 的值;
(Ⅱ)记 A 表示事件“从参加冬奥知识竞赛活动的学生中随机抽取一名学生,该学生的比赛成绩不低于 80 分”,估计 A 的概率;
(Ⅲ)在抽取的 100 名学生中,规定:比赛成绩不低于 80 分为“优秀”,比赛成绩低于 80 分为“非优秀”.请将下面的 2×2 列联表补充完整,并判断是否有 99.9% 的把握认为“比赛成绩是否优秀与性别有关”?
优秀
非优秀
合计
男生
40
女生
50
合计
100
参考公式及数据: K2=n(ad?bc)2(a+b)(c+d)(a+c)(b+d) , n=a+b+c+d .
P(K2≥k0)
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.706
3.841
5.024
6.635
7.879
10.828
4.已知某地区中小学生人数和近视情况如图1和图2所示.为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生作为样本进行调查.
附: K2=n(ad?bc)2(a+b)(c+d)(a+c)(b+d) ,其中 n=a+b+c+d .
(1)求样本容量和抽取的高中生近视人数分别是多少?
(2)在抽取的 n 名高中生中,平均每天学习时间超过9小时的人数为 3n10 ,其中有12名学生近视,请完成高中生平均每天学习时间与近视的列联表:
平均学习时间不超过9小时
平均学习时间超过9小时
总计
不近视
近视
总计
(3)根据(2)中的列联表,判断是否有 95% 的把握认为高中生平均每天学习时间与近视有关?
5.为了监控某种零件的一条生产线的生产过程,检验员每隔30min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:(12分)
抽取次序
1
2
3
4
5
6
7
8
零件尺寸
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
经计算得 x = 116i=116 xi=9.97,s= 116i=116(xi?x)2 = 116(i=116xi2?16x2) =0.212, i=116(i?8.52) ≈18.439, i=116 (xi﹣ x )(i﹣8.5)=﹣2.78,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.
(1)求(xi , i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).
(2)一天内抽检零件中,如果出现了尺寸在( x ﹣3s, x +3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?
(ⅱ)在( x ﹣3s, x +3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
附:样本(xi , yi)(i=1,2,…,n)的相关系数r= i=1n(xi?x)(yi?y)i=1n(xi?x)2i=1n(yi?y)2 , 0.008 ≈0.09.
答案解析
1.【答案】 (1)解:该省贫困村的贫困户年平均收入的估计值为 115i=115xi=115×15=1 (万元),
(2)解:样本 (xi,yi)(i=1,2,???,15) 的相关系数为 r=i=115(xi?x)(yi?y)i=115(xi?x)2i=115(yi?y)2=35.30.82×1670 =35.31369.4≈35.337≈0.95 .(3)根据现有统计资料,各贫困村产业扶贫资金投入差异很大.为了确保完成脱贫攻坚战任务,准确地进行脱贫验收,请给出一种你认为更合理的抽样方法,并说明理由.
解:采用分层抽样,理由如下:由(2)知各地区贫困村的贫困户年平均收入与该村的产业投入资金有很强的正相关性,由于各贫困村产业扶贫资金投入差异很大,因此贫困村的贫困户年平均收入差异也很大,所以采用分层抽样的方法较好地保持了样本结构与总体结构得以执行,提高了样本的代表性,从而可以获得该省更准确的脱贫验收估计.
【解析】
(1)该省贫困村的贫困户年平均收入的估计值利用均值公式求解即可;
(2)样本 (xi,yi)(i=1,2,???,15)? 的相关系数利用公式求解即可;
(3)采用分层抽样,判断抽样个体的特点,判断说明即可.
2.【答案】
(1)解:由题意可知 x=2+3+6+10+21+13+15+188=11 ,
y=1+1+2+2.5+6+3.5+3.5+4.58=3 ,
由公式 r=347?8×11×3340×21=8321785≈0.98 ,
∵|r|≈0.98>0.75 ,∴ y 与 x 的关系可用线性回归模型拟合
(2)解:药品 A 的每类剂型经过两次检测后合格的概率分别为
PA1=12×45=25 , PA2=45×12=25 , PA3=35×23=25 ,
由题意, X?B(3,25) ,
∴E(X)=3×25=65 .
【解析】
根据题目提供的数据求出 x,y ,代入相关系数公式求出 r ,根据 r 的大小来确定结果;
(2)求出药品 A 的每类剂型经过两次检测后合格的概率,发现它们相同,那么经过两次检测后 A1 , A2 , A3 三类剂型合格的种类数为 X , X 服从二项分布 X?B(3,25) ,利用二项分布的期望公式求解即可.
3.【答案】 解:(Ⅰ)由题可得 (0.005+0.010+0.020+0.030+a+0.010)×10=1 ,
解得 a=0.025 .
(Ⅱ)由(Ⅰ)知 a=0.025 ,
则比赛成绩不低于 80 分的频率为 (0.025+0.010)×10=0.35 ,
故从参加冬奥知识竞赛活动的学生中随机抽取一名学生,该学生的比赛成绩不低于 80 分的概率约为 0.35 .
(Ⅲ)由(Ⅱ)知,在抽取的 100 名学生中,比赛成绩优秀的有 100×0.35=35 人,
由此可得完整的 2×2 列联表:
优秀
非优秀
合计
男生
10
40
50
女生
25
25
50
合计
35
65
100
所以 K2 的观测值 k=100×(10×25?25×40)235×65×50×50=90091≈9.890<10.828 ,
所以没有 99.9% 的把握认为“比赛成绩是否优秀与性别有关”.
【解析】 (Ⅰ) 由已知频率分布直方图,利用频率和等于1列式,即可求出a的值;
(Ⅱ) 由(Ⅰ)可证a的值,根据频率分布直方图列式,即可估计事件 A 的概率;
(Ⅲ) 先由(Ⅱ)得到抽取的 100 名学生中比赛成绩优秀的人数,完成 2×2 列联表 ,再求出观测值 k=90091≈9.890<10.828 , 即可判断相关关系.
4.【答案】 (1)解:由图1可知,高中生占学生总数的 20% ,
∴学生总数为 3000÷20%=15000 人,
∴样本容量为 15000×2%=300 .
∵抽取的高中生人数为 3000×2%=60 人,
由于近视率为 60% ,
∴抽取的高中生近视人数为 60×60%=36 人
(2)解:列联表如下:
平均学习时间不超过9小时
平均学习时间超过9小时
总计
不近视
18
6
24
近视
24
12
36
总计
42
18
60
(3)解:由列联表可知, K2=60×(18×12?24×6)224×36×42×18≈0.476 ,
∵ 0.476<3.841 ,
∴没有 95% 的把握认为高中生平均每天学习时间与近视有关
【解析】
(1)根据题干和频率分布图可直接求解。
(2)由(1)所得可间接求出表中其他数据。
(3)利用变量的相关关系求得。
5.【答案】
(1)解:r= i=116(xi?x)(i?8.5)i=116(xi?x)2i=116(i?8.5)2 = ?2.780.212×16×18.439 =﹣0.18.
∵|r|<0.25,∴可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.
(2)(i) x =9.97,s=0.212,∴合格零件尺寸范围是(9.334,10,606),
显然第13号零件尺寸不在此范围之内,
∴需要对当天的生产过程进行检查.
(ii)剔除离群值后,剩下的数据平均值为 115(16×9.97?9.22) =10.22,
i=116xi2 =16×0.2122+16×9.972=1591.134,
∴剔除离群值后样本方差为 115 (1591.134﹣9.222﹣15×10.022)=0.008,
∴剔除离群值后样本标准差为 0.008 ≈0.09.
【解析】
(1.)代入数据计算,比较|r|与0.25的大小作出结论;
(2.)(i)计算合格零件尺寸范围,得出结论;
(ii)代入公式计算即可.