第八章 成对数据的统计分析 章末复习课
一、线性回归分析
1.回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.其基本步骤为通过散点图和经验选择经验回归方程的类型,然后通过一定的规则确定出相应的经验回归方程,通过一定的方法进行检验,最后应用于实际或对响应变量进行预测.
2.主要培养数学建模和数据分析的素养.
例1 某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的样本相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大,为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:样本相关系数
反思感悟 解决回归分析问题的一般步骤
(1)画散点图.根据已知数据画出散点图.
(2)判断变量的相关性并求经验回归方程.通过观察散点图,直观感知两个变量是否具有相关关系.在此基础上,利用最小二乘法求,,然后写出经验回归方程.
(3)回归分析.画残差图或计算R2,进行残差分析.
(4)实际应用.依据求得的经验回归方程解决实际问题.
跟踪训练1 下面给出了根据我国2016年~2022年水果人均占有量y(单位:kg)和年份代码x绘制的散点图和经验回归方程的残差图(2016年~2022年的年份代码x分别为1~7).
(1)根据散点图分析y与x之间的相关关系;
(3)根据经验回归方程的残差图,分析经验回归方程的拟合效果.
二、独立性检验
1.独立性检验研究的问题是有多大把握认为两个分类变量之间有关系.为此需先列出2×2列联表,从表格中可以直观地得到两个分类变量是否有关系.另外等高堆积条形图能更直观地反映两个分类变量之间的情况.独立性检验的思想是可以先假设二者无关系,求随机变量χ2的值,若χ2大于临界值,则拒绝假设,否则,接受假设.
2.通过计算χ2的值,进而分析相关性结论的可信程度,提升数学运算、数据分析的素养.
例2 某企业为提高服务质量留住客户,从运营系统中选出300名客户,对业务水平和服务水平的评价进行统计,其中业务水平的满意率为,服务水平的满意率为,对业务水平和服务水平都满意的客户有180人.
(1)完成2×2列联表;
业务水平 服务水平 合计
对服务水平满意人数 对服务水平不满意人数
对业务水平满意人数
对业务水平不满意人数
合计
(2)依据小概率值α=0.05的独立性检验,能否认为业务水平与服务水平有关?
反思感悟 独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式χ2=计算χ2的值.
(3)查表比较χ2与临界值的大小关系,作出统计判断.
跟踪训练2 考察小麦种子灭菌与否跟发生黑穗病的关系,经试验观察,得到数据如表:
黑穗病 种子灭菌情况 合计
种子灭菌 种子未灭菌
有黑穗病 26 184 210
无黑穗病 50 200 250
合计 76 384 460
试分析依据小概率值α=0.05的独立性检验,能否据此推断种子灭菌与小麦发生黑穗病有关?
三、数形结合思想在独立性检验中的应用
1.数形结合思想就是在解决与几何图形有关的问题时,将图形信息转换成代数信息,利用数量特征,将其转化为代数问题;在进行回归分析时,常利用散点图、残差图等说明线性相关情况或模型的拟合效果.在独立性检验中,我们常用等高堆积条形图直观地反映数据的情况,从而可以粗略地判断两个分类变量是否有关系.
2.主要培养数学抽象和数学运算的素养.
例3 某机构为了了解患色盲是否与性别有关,随机抽取了1 000名成年人进行调查,在调查的480名男性中有38名患色盲,520名女性中有6名患色盲,分别利用图形和独立性检验(α=0.001)的方法来判断患色盲与性别是否有关.
反思感悟 解独立性检验的应用问题的关注点
(1)两个明确:①明确两类主体;②明确研究的两个问题.
(2)两个准确:①准确画出2×2列联表;②准确理解χ2.
跟踪训练3 某电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.如图所示的是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图.将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.
(1)根据已知条件完成下面的2×2列联表,依据小概率值α=0.05的独立性检验,能否据此认为“体育迷”与性别有关?
性别 “体育迷”情况 合计
非体育迷 体育迷
男
女 10 55
合计
(2)将上述调查所得到的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X.若每次抽取的结果是相互独立的,求X的分布列,均值E(X)和方差D(X).
附:χ2=,其中n=a+b+c+d.
α 0.05 0.01
xα 3.841 6.635
四、转化与化归思想在非线性回归分析中的应用
1.转化与化归思想主要体现在非线性回归分析中.在实际问题中,并非所有的变量关系均满足线性关系,故要选择适当的函数模型去拟合样本数据,再通过代数变换,把非线性问题线性化.
2.主要培养数学建模和数学运算的素养.
例4 某公司为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.
(1)根据散点图判断y=a+bx与y=c+哪一个模型更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的经验回归方程(只要求给出判断,不必说明理由);
(2)根据(1)的判断结果及表中数据,建立y关于x的经验回归方程(回归系数的结果精确到0.01);
(3)若该图书每册的定价为9.22元,则至少应该印刷多少册才能使销售利润不低于80 000元?(假设能够全部售出.结果精确到1)
附:对于一组数据(ω1,υ1),(ω2,υ2),…,(ωn,υn),其经验回归直线=+ω的斜率和截距的最小二乘估计公式分别为
反思感悟 非线性化的回归分析问题,画出已知数据的散点图,选择跟散点图拟合得最好的函数模型进行变量代换,作出变换后样本点的散点图,用线性回归模型拟合.
跟踪训练4 近年我国外贸企业一手抓质量,一手抓生产,产销形势喜人.自2022年6月以来,我国外贸进出口连续实现正增长,出口国际市场占世界的份额不断攀升,外贸发展韧性强劲.某个远洋运输公司出口营业额增长数据表如下:
月份 2022年6月 2022年7月 2022年8月 2022年9月
月份代码x 1 2 3 4
新增出口营业额y亿元 2.4 2.8 3.6 5.1
月份 2022年10月 2022年11月 2022年12月 2023年1月
月份代码x 5 6 7 8
新增出口营业额y亿元 7.1 9.1 11.7 14.2
某位同学分别用两种模型:①=x2+,②=x+进行拟合,得到相应的经验回归方程并进行残差分析,残差图如下(注:残差等于yi-i):
这位同学在进行拟合时,对数据作了初步处理,得到一些统计量的值:
(1)根据残差图,比较模型①,②的拟合效果,应该选择哪个模型?并简要说明理由;
(2)根据(1)的判断结果及表中数据,建立y关于x的经验回归方程,并预测该远洋运输公司2023年3月新增出口营业额.(精确到0.01)
章末复习课
例1 解 (1)
从而该地区这种野生动物数量的估计值为
60×200=12 000.
(2)样本(xi,yi)(i=1,2,…,20)的样本相关系数为
r==≈0.94.
(3)采用比例分配的分层随机抽样,根据植物覆盖面积的大小对地块分层,再对200个地块进行分层随机抽样.
理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关关系.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层随机抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
跟踪训练1 解 (1)根据散点图可知,散点均匀分布在一条直线附近,且随着x的增大,y增大,故y与x成线性相关,且为正相关.
(2)依题意得,=×(1+2+3+4+5+6+7)=4,
=×1 074≈153.43,
==≈7.89,
=-≈153.43-7.89×4=121.87,
所以y关于x的经验回归方程为
=7.89x+121.87.
(3)由残差图可以看出,残差对应点分布在水平带状区域内,且宽度较窄,说明拟合效果较好,经验回归方程的预测精度较高.
例2 解 (1)由题意可得对业务水平满意的有300×=260(人),对服务水平满意的有300×=200(人),
2×2列联表如下.
业务水平 服务水平 合计
对服务水平满意人数 对服务水平不满意人数
对业务水平满意人数 180 80 260
对业务水平不满意人数 20 20 40
合计 200 100 300
(2)零假设为H0:业务水平与服务水平无关.
计算得χ2
==
≈5.769>3.841=x0.05,
依据小概率值α=0.05的独立性检验,我们推断H0不成立,
即认为业务水平与服务水平有关.
跟踪训练2 解 零假设为H0:种子灭菌与小麦发生黑穗病无关.
由列联表的数据可得
χ2=
≈4.804>3.841
=x0.05,
根据小概率值α=0.05的独立性检验,我们推断H0不成立,可以认为种子灭菌与小麦发生黑穗病有关系.
例3 解 根据题目所给的数据作出如下的列联表:
性别 色盲 合计
患色盲 未患色盲
男 38 442 480
女 6 514 520
合计 44 956 1 000
根据列联表作出相应的等高堆积条形图,如图所示.
图中两个深色条的高分别表示男性和女性中患色盲的频率,从图中可以看出,男性中患色盲的频率明显高于女性中患色盲的频率,因此我们可认为患色盲与性别有关.
零假设为H0:患色盲与性别无关.
根据列联表中所给的数据,得
χ2=
≈27.139>10.828=x0.001,
根据小概率值α=0.001的独立性检验,推断H0不成立,即认为患色盲与性别有关,此推断犯错误的概率不超过0.001.
跟踪训练3 解 (1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:
性别 “体育迷”情况 合计
非体育迷 体育迷
男 30 15 45
女 45 10 55
合计 75 25 100
零假设为H0:“体育迷”与性别无关.
将2×2列联表中的数据代入公式计算,得
χ2==
≈3.030<3.841=x0.05,
根据小概率值α=0.05的独立性检验,没有充分证据推断H0不成立,即认为“体育迷”与性别无关.
(2)由频率分布直方图,知抽到“体育迷”的频率为0.25,将频率视为概率,即从观众中抽取一名“体育迷”的概率为.由题意知X~B,从而X的分布列为
X 0 1 2 3
P
E(X)=3×=,
D(X)=3××=.
例4 解 (1)由散点图判断,y=c+更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的经验回归方程.
(2)令u=,
先建立y关于u的经验回归方程
=+u,
由于=≈8.96,
所以=-·
≈3.63-8.96×0.269≈1.22,
所以y关于u的经验回归方程为
=1.22+8.96u,
所以y关于x的非线性经验回归方程为=1.22+.
(3)假设印刷x千册,依题意得9.22x-x≥80,
解得x≥11.12,所以至少印刷11 120册才能使销售利润不低于80 000元.
跟踪训练4 解 (1)选择模型①.
理由如下:根据残差图可以看出,模型①的估计值和真实值相对比较接近,模型②的残差相对较大一些,所以模型①的拟合效果相对较好.
(2)由(1),可知y关于x的经验回归方程为=x2+,令t=x2,则=t+.
由所给数据可得
=×(1+4+9+16+25+36+49+64)=25.5.
=×(2.4+2.8+3.6+5.1+7.1+9.1+11.7+14.2)=7.
所以=≈0.19.
=-≈7-0.19×25.5≈2.16.
所以y关于x的经验回归方程为=0.19x2+2.16.
预测该远洋运输公司2023年3月新增出口营业额为=0.19×102+2.16=21.16(亿元).