章末复习提升
eq \o(\s\up7(),\s\do5( ))
INCLUDEPICTURE "A60.TIF"
eq \o(\s\up7(),\s\do5( ))
要点一 线性回归分析
线性回归分析是对具有线性相关关系的两个变量进行统计分析的一种常用方法.其基本步骤为通过散点图或样本相关系数确定两个变量具有线性相关关系,再利用最小二乘法求得经验回归方程,最后应用于实际或对响应变量进行预测.主要培养数学建模和数据分析的素养.
训练1 数据显示,中国在线直播用户规模及在线直播购物规模近几年都保持高速增长态势,某线下家电商场为提升人气和提高营业额也开通了在线直播,下表统计了该商场开通在线直播的第x天的线下顾客人数y(单位:百人)的数据:
x 1 2 3 4 5
y 10 12 15 18 20
(1)根据第1至第5天的数据分析,计算变量y与x的样本相关系数r,并用r判断变量y与x线性相关程度的强弱(当|r|≥0.75时,认为y与x线性相关程度很强,精确到小数点后三位);
(2)根据第1至第5天的数据分析,可用经验回归模型拟合y与x的关系,试求出该经验回归方程,并估计该商场开通在线直播的第10天的线下顾客人数.(参考公式:样本相关系数r=,参考数据:≈13.038,经验回归方程: =x+,其中== eq \f(\i\su(i=1,n,x)iyi-n\o(x,\s\up6(-))\o(y,\s\up6(-)),\i\su(i=1,n,x)-n\o(x,\s\up6(-))2) ,=- )
解:(1)依题意可得==3,
==15,
iyi=1×10+2×12+3×15+4×18+5×20=251,
=
= ,
=
=2,
所以r=≈0.997,
因为r>0.75,
所以变量y与x线性相关程度很强.
(2)因为=12+22+32+42+52=55,
所以= eq \f(\i\su(i=1,5,x)iyi-5\o(x,\s\up6(-))\o(y,\s\up6(-)),\i\su(i=1,5,x)-5\o(x,\s\up6(-))2) ==2.6,
所以=-=15-2.6×3=7.2,
所以=2.6x+7.2,所以当x=10时,=2.6×10+7.2=33.2(百人),
故预估该商场开通在线直播的第10天的线下顾客有33.2百人.
要点二 非线性回归模型的应用
转化与化归思想主要体现在非线性回归分析中.在实际问题中,并非所有的变量关系均满足线性关系,故要选择适当的函数模型去拟合样本数据,再通过代数变换,把非线性问题线性化.主要培养数学建模和数学运算的素养.
训练2 某企业为响应国家号召,汇聚科研力量,加强科技创新,准备加大研发资金投入,为了解年研发资金投入额x(单位:亿元)对年盈利额y(单位:亿元)的影响,通过对“十二五”和“十三五”规划发展10年期间年研发资金投入额xi和年盈利额yi(i=1,2,…,10)的数据进行分析,建立了两个函数模型:y=α+βx2,y=eλx+t,其中α,β,λ,t均为常数,e为自然对数的底数,令ui=x,vi=ln yi(i=1,2,…,10),经计算得如下数据:
=26 =215 =680 =5.36
(xi-)2=100 (ui-)2=22 500 (ui-)·(yi-)=260 (yi-)2=4
(vi-)2=4 (xi-)·(vi-)=18
(1)请从样本相关系数的角度,分析哪一个模型拟合度更好?
(2)根据(1)的选择及表中数据,建立y关于x的非线性经验回归方程.(系数精确到0.01)
附:样本相关系数r=,
经验回归方程=x+中:
=,=-.
解:(1)设模型y=α+βx2的样本相关系数为r1,模型y=eλx+t的样本相关系数为r2,对于模型y=α+βx2,令u=x2,即y=α+βu,
所以r1==≈0.87,
对于模型y=eλx+t,两边取对数,
可得ln y=ln eλx+t=λx+t,
令v=ln y,即v=λx+t,
所以r2===0.9,
因为r1(2)因为===0.18,=-=5.36-0.18×26=0.68,
所以y关于x的非线性经验回归方程为=e0.18x+0.68.
要点三 独立性检验
独立性检验研究的主要问题是讨论两个分类变量之间关联性问题.为此需先列出2×2列联表,从表格中可以直观地得到两个分类变量是否有关系.另外等高堆积条形图能更直观地反映两个分类变量之间的情况.独立性检验的思想是可以先假设二者无关系,求随机变量χ2的值,若χ2大于临界值,则拒绝假设,否则,接受假设.通过计算χ2的值,进而分析相关性结论的可信程度,提升数学运算、数据分析的素养.
训练3 为了检测某种抗病毒疫苗的免疫效果,需要进行动物与人体试验.研究人员将疫苗注射到200只小白鼠体内,一段时间后测量小白鼠的某项指标值,按[0,20),[20,40),[40,60),[60,80),[80,100]分组,绘制频率分布直方图如图所示,实验发现小白鼠体内产生抗体的共有160只,其中该项指标值不小于60的有110只,假设小白鼠注射疫苗后是否产生抗体相互独立.
INCLUDEPICTURE "25-BS7.TIF"
(1)填写下面的2×2列联表;
单位:只
抗体 指标值 合计
小于60 不小于60
有抗体
没有抗体
合计
(2)根据(1)中列联表及小概率值α=0.05的独立性检验,判断能否认为注射疫苗后小白鼠是否产生抗体与指标值有关.
参考公式:χ2=(其中n=a+b+c+d为样本容量)
α 0.1 0.05 0.01
xα 2.706 3.841 6.635
解:(1)由题中频率分布直方图,补充列联表如下:
单位:只
抗体 指标值 合计
小于60 不小于60
有抗体 50 110 160
没有抗体 20 20 40
合计 70 130 200
(2)零假设为H0:注射疫苗后小白鼠是否产生抗体与指标值无关.
根据列联表中数据,得χ2=≈4.945>3.841=x0.05,根据小概率值α=0.05的独立性检验,我们推断H0不成立.
因此,可以认为注射疫苗后小白鼠是否产生抗体与指标值有关,此推断犯错误的概率不超过0.05.
要点四 数形结合思想在成对数据统计分析中的应用
数形结合思想就是在解决与几何图形有关的问题时,将图形信息转换成代数信息,利用数量特征,将其转化为代数问题;在进行回归分析时,常利用散点图、残差图等说明线性相关情况或模型的拟合效果.在独立性检验中,我们常用等高堆积条形图直观地反映数据的情况,从而可以粗略地判断两个分类变量是否有关系.主要培养数学抽象和数学运算的素养.
训练4 某校高三年级为了提高学校的升学率,制订了两套学习方案,甲班采用方案一,乙班采用方案二,两个班均有50人,学期期末对两班进行测试,测试成绩的分组区间为[90,100),[100,110),[110,120),[120,130),[130,140),[140,150],由此得到两个班测试成绩的频率分布直方图如图:
INCLUDEPICTURE "25-BS8.TIF"
(1)完成下面2×2列联表,画出等高堆积条形图.依据小概率值α=0.05的独立性检验,判断能否认为这两个班在这次测试中成绩的差异与学习方案有关;
单位:人
班级 成绩 合计
不小于130分 小于130分
甲班
乙班
合计
(2)现从甲班中任意抽取3人,记η表示抽到测试成绩在[110,130)的人数,求η的分布列和均值E(η).
附:χ2=,其中n=a+b+c+d.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
解:(1)甲班成绩不小于130分的人数为(0.020+0.010)×10×50=15,
甲班成绩小于130分的人数为50-15=35,
乙班成绩不小于130分的人数为(0.007+0.003)×10×50=5,
乙班成绩小于130分的人数为50-5=45,
完成列联表为
单位:人
班级 成绩 合计
不小于130分 小于130分
甲班 15 35 50
乙班 5 45 50
合计 20 80 100
等高堆积条形图如图:
INCLUDEPICTURE "25-BS9.TIF"
零假设为H0:两个班在这次测试中成绩的差异与学习方案无关,经计算χ2==6.25>3.841=x0.05,
根据小概率值α=0.05的独立性检验,我们推断H0不成立,
即认为这两个班在这次测试中成绩的差异与学习方案有关,此推断犯错误概率不大于0.05.
(2)甲班成绩在[110,130)的有(0.2+0.3)×50=25(人),η的所有可能取值为0,1,2,3,
则P(η=0)= eq \f(CC,C) =,
P(η=1)= eq \f(CC,C) =,P(η=2)= eq \f(CC,C) =,
P(η=3)= eq \f(CC,C) =,
所以η的分布列为
η 0 1 2 3
P
E(η)=0×+1×+2×+3×=.