第9章 统 计 章末复习课
一、变量的相关性
1.变量的相关关系与相关系数是学习线性回归模型的前提和基础,前者可借助散点图从直观上分析变量间的相关性,后者从数量上准确刻化了两个变量的相关程度.
2.在学习该部分知识时,体会直观想象和数学运算的素养.
例1 (1)某次考试,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩对应如下表:
学生编号 1 2 3 4 5 6 7 8
数学成绩x 60 65 70 75 80 85 90 95
物理成绩y 72 77 80 84 88 90 93 95
绘出散点图如下.
根据以上信息,判断下列结论:
①根据此散点图,可以判断数学成绩与物理成绩具有线性相关关系;
②根据此散点图,可以判断数学成绩与物理成绩具有一次函数关系;
③甲同学数学考了80分,那么,他的物理成绩一定比数学只考了60分的乙同学的物理成绩要高.
其中正确的个数为( )
A.0 B.3 C.2 D.1
答案 D
解析 对于①,根据此散点图知,各点都分布在一条直线附近,可以判断数学成绩与物理成绩具有较强的线性相关关系,①正确;
对于②,根据此散点图,可以判断数学成绩与物理成绩具有较强的线性相关关系,不是一次函数关系,②错误;
对于③,甲同学数学考了80分,他的物理成绩可能比数学只考了60分的乙同学的物理成绩要高,所以③错误.
综上,正确的命题是①,只有1个.
(2)在一次试验中,测得(x,y)的四组值分别为(1,2),(2,0),(4,-4),(-1,6),则y与x的相关系数为________.
答案 -1
相关系数r==-1.
方法二 观察四个点,发现其在一条单调递减的直线上,故y与x的相关系数为-1.
反思感悟 判断变量相关性的两种方法
(1)散点图法:直观形象.
(2)公式法:可用公式精确计算,需注意特殊情形的相关系数.如点在一条直线上,|r|=1,且当r=1时,正相关;r=-1时,负相关.
跟踪训练1 (1)(多选)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得线性回归方程,下列选项中,正确的是( )
A.y与x负相关且=2.347x-6.423
B.y与x负相关且=-3.476x+5.648
C.y与x正相关且=5.437x+8.493
D.y与x正相关且=-4.326x-4.578
答案 BC
解析 若y与x负相关,则=x+中<0,故A不正确,B正确;若y与x正相关,则=x+中>0,故C正确,D不正确.
(2)相关变量x,y的散点图如图所示,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归方程为=1x+1,相关系数为r1;方案二:剔除点(10,21),根据剩下数据得到线性回归方程为=2x+2,相关系数为r2.则( )
A.0B.0C.-1D.-1答案 D
解析 由散点图得两个变量呈负相关关系,所以r1<0,r2<0,因为剔除点(10,21)后,剩下点的数据更具有线性相关性,|r|更接近1,所以-1二、线性回归方程
1.主要考查两个变量线性相关的判定,以及利用最小二乘法求线性回归方程.
2.掌握求线性回归方程的方法和步骤,提升数学运算、数据分析素养.
例2 如图所示的是某企业2014年至2020年污水净化量(单位:吨)的折线图.
(1)由折线图看出,可用线性回归模型拟合y和t的关系,请用相关系数加以说明;
(2)建立y关于t的线性回归方程,预测2021年该企业污水净化量.
y与t之间存在较强的正相关关系.
=-=54-×4=51,
∴y关于t的线性回归方程为=t+51.
当t=8时,=×8+51=57,
预测2021年该企业污水净化量约为57吨.
反思感悟 解决回归分析问题的一般步骤
(1)画散点图.根据已知数据画出散点图.
(2)判断变量的相关性并求线性回归方程.通过观察散点图,直观感知两个变量是否具有相关关系;在此基础上,利用最小二乘法求回归系数,然后写出线性回归方程.
(3)实际应用.依据求得的线性回归方程解决实际问题.
跟踪训练2 二手车经销商小王对其所经营的A型号二手汽车的使用年数x与销售价格y(单位:万元/辆)进行整理,得到如下数据:
使用年数x 2 3 4 5 6 7
售价y 20 12 8 6.4 4.4 3
z=ln y 3.00 2.48 2.08 1.86 1.48 1.10
下面是z关于x的折线图:
(1)由折线图可以看出,可以用线性回归模型拟合z与x的关系,请用相关系数加以说明;
(2)求y关于x的回归方程并预测某辆A型号二手车当使用年数为9年时售价约为多少?(,小数点后保留两位有效数字)
(3)基于成本的考虑,该型号二手车的售价不得低于7 118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年?
参考公式:线性回归方程=x+中斜率和截距的最小二乘估计公式分别为
解 (1)由题意,计算
=×(2+3+4+5+6+7)=4.5,
=×(3+2.48+2.08+1.86+1.48+1.10)=2,
所以
==-≈-0.99.
所以z与x的相关系数大约为-0.99,说明z与x的线性相关程度很高.
(2)
=-≈-0.36,
所以=-=2+0.36×4.5=3.62,
所以z关于x的线性回归方程是=-0.36x+3.62,
又z=ln y,
所以y关于x的回归方程是=e-0.36x+3.62.
令x=9,
解得y=e-0.36×9+3.62≈1.46,即预测某辆A型号二手车当使用年数为9年时售价约1.46万元.
(3)当y≥0.711 8时,
e-0.36x+3.62≥0.711 8=eln 0.711 8=e-0.34,
所以-0.36x+3.62≥-0.34,解得x≤11,
因此预测在收购该型号二手车时车辆的使用年数不得超过11年.
三、独立性检验
1.主要考查根据样本制作2×2列联表,由2×2列联表计算χ2,查表分析并判断相关性结论的可信程度.
2.通过计算χ2的值,进而分析相关性结论的可信程度,提升数学运算、数据分析素养.
例3 海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如图:
(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关.
箱产量<50 kg 箱产量≥50 kg 合计
旧养殖法
新养殖法
合计
附:
P(χ2≥x0) 0.050 0.010 0.001
x0 3.841 6.635 10.828
χ2=.
解 (1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”,
由P(A)=P(BC)=P(B)P(C),
则旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62,
故P(B)的估计值为0.62,
新养殖法的箱产量不低于50 kg的频率为
(0.068+0.046+0.010+0.008)×5=0.66,
故P(C)的估计值为0.66,
则事件A的概率估计值为
P(A)=P(B)P(C)=0.62×0.66=0.409 2,
∴A发生的概率为0.409 2.
(2)根据箱产量的频率分布直方图得到列联表:
箱产量<50 kg 箱产量≥50 kg 合计
旧养殖法 62 38 100
新养殖法 34 66 100
合计 96 104 200
则χ2=≈15.705,
由15.705>6.635,
故有99%的把握认为箱产量与养殖方法有关.
反思感悟 独立性检验的一般步骤
①根据样本数据制成2×2列联表;
②根据公式χ2=计算χ2的值;
③查表比较χ2与临界值的大小关系,作出统计判断.
跟踪训练3 户外运动已经成为一种时尚运动,某单位为了了解员工喜欢户外运动是否与性别有关,决定从本单位全体650人中采用分层抽样的办法抽取50人进行问卷调查,得到了如下列联表:
喜欢户外运动 不喜欢户外运动 合计
男性 5
女性 10
合计 50
已知在这50人中随机抽取1人抽到喜欢户外运动的员工的概率是.
(1)请将上面的列联表补充完整;
(2)求该公司男、女员工各多少人;
(3)试问:喜欢户外运动与性别是否有关?
参考公式:χ2=,其中n=a+b+c+d.
解 (1)因为在全部50人中随机抽取1人抽到喜欢户外运动的员工的概率是,所以喜欢户外运动的男女员工共30人,其中男员工20人,列联表补充如下:
喜欢户外运动 不喜欢户外运动 合计
男性 20 5 25
女性 10 15 25
合计 30 20 50
(2)该公司男员工人数为
25÷50×650=325(人),则女员工有325人.
(3)χ2=≈8.333>6.635,
所以有99%的把握认为喜欢户外运动与性别有关.
1.下列两个量之间的关系是相关关系的为( )
A.匀速直线运动的物体时间与位移的关系
B.学生的成绩和体重
C.路上酒后驾驶的人数和交通事故发生的多少
D.水的体积和重量
答案 C
解析 A选项,匀速直线运动的物体时间与位移的关系是函数关系;B选项,成绩与体重之间不具有相关性;C选项,路上酒后驾驶的人数和交通事故发生的多少是相关关系;D选项,水的体积与重量是函数关系.
2.如图所示,给出了样本容量均为7的A,B两组样本数据的散点图,已知A组样本数据的相关系数为r1,B组样本数据的相关系数为r2,则( )
A.r1=r2 B.r1r2 D.无法判定
答案 C
解析 根据A,B两组样本数据的散点图知,A组样本数据几乎在一条直线上,且成正相关,∴相关系数r1应最接近1,B组样本数据分散在一条直线附近,也成正相关,∴相关系数r2满足r2r2,故选C.
3.某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到散点图如图所示.
由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A.y=a+bx B.y=a+bx2
C.y=a+bex D.y=a+bln x
答案 D
解析 由散点图可以看出,随着温度x的增加,发芽率y增加到一定程度后,变化率越来越慢,符合对数型函数的图象特征.
4.某销售部门为了研究具有相关大学学历和能按时完成销售任务的关系,对本部门200名销售人员进行调查,所得数据如下表所示:
能按时完成销售任务 不能按时完成销售任务 合计
具有相关大学学历 57 42 99
不具有相关大学学历 36 65 101
合计 93 107 200
根据上述数据能得出结论:有________以上的把握认为“销售人员具有相关大学学历与能按时完成销售任务是有关系的”.
答案 99%
解析 由公式χ2=,
得χ2=≈9.67.
因为9.67>6.635,所以有99%以上的把握认为“销售人员具有相关大学学历与能按时完成销售任务是有关系的”.