回归分析的基本思想及其初步应用
导思 1.相关关系是一种确定性关系吗?2.求回归直线方程的方法步骤是怎样的?
1.回归分析
(1)概念:回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)步骤:画散点图→求回归直线方程→用回归直线方程进行预报.
回归直线方程得到的预报值是精确值吗?
提示:回归直线方程得到的预报值不是预报变量的精确值.事实上,它是预报变量的可能取值的平均值.
2.线性回归模型
(1)在线性回归方程=+x中,==,=-,其中=xi,=yi,
(,)称为变量样本点的中心,回归直线过样本点的中心.
(2)线性回归模型y=bx+a+e,其中e称为随机误差,自变量x称为解释变量,因变量y称为预报变量.
(1)预报值y与真实值y之间误差大了好还是小了好?
提示:越小越好.
(2)随机误差产生的原因是什么?
提示:主要有:所用的拟合函数不恰当;忽略了某些因素的影响;存在观测误差等.
3.刻画回归效果的方式
残差 把随机误差的估计值i称为相应于点(xi,yi)的残差
残差图 作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图
残差图法 残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高
残差平方和 残差平方和为(yi-i)2,残差平方和越小,模型拟合效果越好
相关指数R2 R2=1-,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归的效果越好
(1)残差是怎样形成的?
提示:残差是回归分析得到的估计值与实际值的偏差.
(2)如果自变量与因变量之间没有回归关系,R2等于多少?
提示:如果自变量与因变量之间没有回归关系,R2等于0.
1.辨析记忆(对的打“√”,错的打“×”)
(1)圆的面积和圆的直径之间是相关关系.( × )
(2)回归方程=x+必经过点(,).( √ )
(3)设回归方程为=-5x+3,若变量x增加1个单位,则y平均增加5个单位.( × )
提示:(1)圆的面积和圆的直径之间是确定关系,而不是相关关系.
(2)回归方程=x+必经过点(,),故正确.
(3)若变量x增加1个单位,则y平均减少5个单位,故错误.
2.(教材二次开发:例题改编)在如图所示的四个散点图中,适合用线性回归模型拟合其中两个变量的是( )
A.①② B.①③ C.②③ D.③④
【解析】选B.结合散点图可知①③中的散点大体分布在一条直线的左右两侧.
3.已知回归方程=2x+1,而试验得到一组数据是(2,4.9),(3,7.1),(4,9.1),则残差平方和是( )
A.0.01 B.0.02 C.0.03 D.0.04
【解析】选C.因为残差i=yi-i,所以残差的平方和为(4.9-5)2+(7.1-7)2+(9.1-9)2=0.03.
类型一 求线性回归方程 (数据分析、数学运算)
【典例】某研究机构对高三学生的记忆力x和判断力y进行统计分析,得如表数据:
x 6 8 10 12
y 2 3 5 6
(1)请画出表中数据的散点图(要求:点要描粗);
(2)请根据表中提供的数据,用最小二乘法求出y关于x的线性回归方程=x+;
(3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.
【思路导引】(1)依据表中数据描点,注意不要连线.
(2)利用公式求解.
(3)将x=9代入线性回归方程.
【解析】(1)如图:
(2)==9,==4,
iyi=6×2+8×3+10×5+12×6=158,
=62+82+102+122=344,
===0.7,
=- =4-0.7×9=-2.3,
故线性回归方程为=0.7x-2.3.
(3)由(2)中线性回归方程知,当x=9时,=0.7×9-2.3=4,
预测记忆力为9的同学的判断力为4.
建立回归模型的基本步骤
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.
(2)画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).
(3)由经验确定回归方程的类型(如观察到数据呈线性关系,则选用线性回归方程=x+).
(4)按一定规则(如最小二乘法)估计回归方程中的参数.
(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否合适等.
某调查者从调查中获知某公司近年来科研费用支出x(万元)与公司所获得的利润y(万元)的统计资料如表:
序号 科研费用支出xi 利润yi xiyi x
1 5 31 155 25
2 11 40 440 121
3 4 30 120 16
4 5 34 170 25
5 3 25 75 9
6 2 20 40 4
总计 30 180 1 000 200
则利润y对科研费用支出x的线性回归方程为________.
【解析】设线性回归方程为=x+.
由题表中数据,得==2,所以=-=30-2×5=20,所以线性回归方程为=2x+20.
答案:=2x+20
类型二 线性回归分析(数据分析、数学运算)
【典例】为研究质量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同质量的6个物体进行测量,数据如表所示:
x 5 10 15 20 25 30
y 7.25 8.12 8.95 9.90 10.9 11.8
(1)作出散点图,并求线性回归方程.
(2)求出R2.
(3)进行残差分析.
【思路导引】(1)依据数据画出散点图,再判断是否存在线性相关性.(2)可代入公式直接求解.(3)可依据残差的意义进行分析.
【解析】(1)散点图如图所示.
因为=×(5+10+15+20+25+30)=17.5,
=×(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,
=2 275,iyi=1 076.2.
计算得≈0.183,≈6.285,
所以所求线性回归方程为=6.285+0.183x.
(2)列表如下:
yi-i 0.05 0.005 -0.08 -0.045 0.04 0.025
yi- -2.24 -1.37 -0.54 0.41 1.41 2.31
所以(yi-i)2≈0.013 18,
(yi-)2=14.678 4.
所以R2≈1-≈0.999 1,所以回归模型的拟合效果较好.
(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与质量成线性关系.
残差分析的思路
(1)要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.
(2)通过残差1,2,…,n来判断模型拟合的效果,判断原始数据中是否存在可疑数据,这种分析工作称为残差分析,可以借助残差图来进行观察.
假设关于某设备的使用年限x(单位:年)和支出的维修费用y(单位:万元),有如表的统计资料:
使用年限x/年 2 3 4 5 6
维修费用y/万元 2.2 3.8 5.5 6.5 7.0
若由资料知y对x呈线性相关关系,
(1)求线性回归方程=x+.
(2)估计使用年限为10年时,维修费用是多少?
(3)计算残差平方和.
(4)求R2并说明模型的拟合效果.
【解析】 (1)由已知条件整理如表:
于是有===1.23,
=-=5-1.23×4=0.08,
线性回归直线方程是=1.23x+0.08.
(2)当x=10时,=1.23×10+0.08=12.38,
即估计使用年限为10年时,维修费用是12.38万元.
(3) 1=2.46+0.08=2.54,2=3.77,3=5,4=6.23,5=7.46,残差平方和: (yi-i)2=0.651.
(4)R2=1-=1-≈0.958 7,模型的拟合效果较好,使用年限解释了95.87%的维修费用支出.
类型三 非线性回归分析(数据分析、数学运算)
【典例】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
表中wi=,=i.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程.
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为:=,=-.
【思路导引】根据散点图,选择恰当的回归模型,转化为线性回归,求线性回归方程,最后得到所求回归方程.
【解析】(1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程.
由于===68,
=-=563-68×6.8=100.6,
所以y关于w的线性回归方程为=100.6+68w,因此y关于x的回归方程为=100.6+68.
(3)①由(2)知,当x=49时,年销售量y的预报值=100.6+68=576.6,
年利润z的预报值=0.2-x=0.2×576.6-49=66.32.
②根据(2)的结果知,年利润z的预报值
=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
解决非线性回归问题的方法及步骤
1.确定变量:确定解释变量为x,预报变量为y.
2.画散点图:通过观察散点图并与学过的函数(幂、指数、对数函数、二次函数)作比较,选取拟合效果好的函数模型.
3.变量置换:通过变量置换把非线性回归问题转化为线性回归问题.
4.分析拟合效果:通过计算相关指数等来判断拟合效果.
5.写出非线性回归方程.
1.在某种新型材料的研制中,试验人员获得了下列一组试验数据,现准备用下列四个函数中的一个近似地表示这些数据的规律,其中最接近的一个是( )
x 1.95 3.00 3.94 5.10 6.12
y 0.97 1.59 1.98 2.35 2.61
A. y=2x B. y=log2x
C. y=(x2-1) D.y=2.61cos x
【解析】选B.作散点图,从图中观察可知,应为对数函数模型.
2.电容器充电后,电压达到100 V,然后开始放电.由经验知道,此后电压U随时间t变化的规律用公式U=Aebt(b<0)表示.现测得时间t(s)时的电压U(V)如下所示:
t 0 1 2 3 4 5 6 7 8 9 10
U 100 75 55 40 30 20 15 10 10 5 5
试求电压U对时间t的回归方程.
【解析】对U=Aebt两边取自然对数得ln U=ln A+bt,
令y=ln U,a=ln A,即y=a+bt,
t 0 1 2 3 4 5
y 4.6 4.3 4.0 3.7 3.4 3.0
t 6 7 8 9 10
y 2.7 2.3 2.3 1.6 1.6
即ln U=-0.3t+4.6,所以=e-0.3t+4.6.
1.已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),则回归直线的方程是( )
A.=1.23x+4 B.=1.23x+5
C.=1.23x+0.08 D.=0.08x+1.23
【解析】选C.设回归直线的方程为=x+,依题意可知,=1.23,又样本点的中心(4,5)在直线上,即5=1.23×4+,
得=0.08,所以回归直线的方程为=1.23x+0.08.
2.在两个变量y与x的回归模型中,分别选择了4个不同的模型.通过计算得R2的值如下,其中拟合效果最好的模型是( )
A.模型1的R2为0.98 B.模型2的R2为0.80
C.模型3的R2为0.50 D.模型4的R2为0.25
【解析】选A.相关指数R2能够刻画用回归模型拟合数据的效果,相关指数R2的值越接近于1,说明回归模型拟合数据的效果越好.
3.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本.某白酒酿造企业市场部对该企业9月份的产品销量x(单位:千箱)与单位成本y(单位:元)的资料进行线性回归分析,结果如下:=,=71,=79,=1 481.
=≈-1.818 2,
≈71-(-1.818 2)×≈77.36,
则销量每增加1 000箱,单位成本下降________元.
【解析】由已知得,=-1.818 2x+77.36,
则销量每增加1千箱,单位成本下降1.818 2元.
答案:1.818 2
4.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性进行试验,并用回归分析方法分别求得相关指数R2与残差平方和m如表:
甲 乙 丙 丁
R2 0.82 0.78 0.69 0.85
m 106 115 124 103
则__________同学的试验结果体现A,B两变量有更强的线性相关性.
【解析】由题表知,丁同学的相关指数R2最大且残差平方和m最小,故丁同学的试验结果体现A,B两变量有更强的线性相关性.
答案:丁
5.某种商品价格与该商品日需求量之间的几组对照数据如下表:
x 10 15 20 25 30
y 11 10 8 6 5
(1)求y关于x的线性回归直线方程.
(2)当价格x=40元/kg时,日需求量y的预测值为多少?
【解析】(1)因为=(10+15+20+25+30)=20,
=(11+10+8+6+5)=8,
(xi-)2=(-10)2+(-5)2+02+52+102=250,
(xi-)(yi-)
=(-10)×3+(-5)×2+0×0+5×(-2)+10×(-3)
=-80,所以===-0.32,
=-=8+0.32×20=14.4,
所以所求线性回归直线方程为=-0.32x+14.4.
(2)由(1)知当x=40时=-0.32×40+14.4=1.6.
所以当价格x=40元/kg时,日需求量y的预测值为1.6 kg.
PAGE
14独立性检验的基本思想及其初步应用
导思 独立性检验的方法步骤是怎样的?
1.分类变量和列联表
(1)分类变量
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表
①定义:列出的两个分类变量的频数表称为列联表.
②2×2列联表:
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
y1 y2 总计
x1 a b a+b
x2 c d c+d
总计 a+c b+d a+b+c+d
如何用列联表判定两个分类变量是否有关?
提示:利用列联表中计算的|ad-bc|值越小,越独立,两个分类变量关系越弱;|ad-bc|值越大,越不独立,两个分类变量关系越强.
2.等高条形图
(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.
(2)如果直接观察等高条形图发现和相差很大,就判断两个分类变量之间有关系.
3.独立性检验
定义 利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验
公式 K2=,其中n=a+b+c+d
独立性检验与反证法有何异同?
提示:两者都是先假设结论不成立,然后根据是否能够推出“矛盾”来断定结论是否成立.但二者“矛盾”的含义不同,反证法中的“矛盾”是指一种不符合逻辑事情的发生;而独立性检验中的“矛盾”是指一种不符合逻辑的小概率事件的发生,即在结论不成立的假设下,推出有利于结论成立的小概率事件发生.
1.辨析记忆(对的打“√”,错的打“×”)
(1)分类变量中的变量与函数中的变量是同一概念.( × )
(2)独立性检验的方法就是反证法.( × )
(3)独立性检验中可通过统计表从数据上说明两分类变量的相关性的大小.( √ )
提示:(1)变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量,有时可以把分类变量的不同取值用数字表示,但这时的数字除了分类以外没有其他含义,而函数中的变量分为自变量与因变量,都是数的集合,有它们各自的意义.
(2)独立性检验的思想类似于反证法,但不能说它就是反证法.
(3)独立性检验是对两个分类变量有关系的可信度的判断,其结论是两个分类变量有关系,这种推断犯错误的概率不超过α,可以通过统计表从数据上进行运算,再进行判断.
2.班级与成绩2×2列联表:
优秀 不优秀 总计
甲班 10 35 45
乙班 7 38 p
总计 m n q
表示数据m,n,p,q的值应分别为( )
A.70,73,45,188 B.17,73,45,90
C.73,17,45,90 D.17,73,45,45
【解析】选B.依据2×2列联表的列法以及各行各列的实际意义,可得m=17,n=73,p=45,q=90.
3.在研究打鼾与患心脏病之间的关系中,通过收集数据、整理分析数据得到“打鼾与患心脏病有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的.下列说法中正确的是( )
A.100个心脏病患者中至少有99人打鼾
B.1个人患心脏病,则这个人有99%的概率打鼾
C.100个心脏病患者中一定有打鼾的人
D.100个心脏病患者中可能一个打鼾的人都没有
【解析】选D.这是独立性检验,在犯错误的概率不超过0.01的前提下认为“打鼾与患心脏病有关”.这只是一个概率,即打鼾与患心脏病有关的可能性为99%.根据概率的意义可知答案应选D.
类型一 分析两变量间的关系(数据分析)
用2×2列联表分析两变量间的关系
【典例】在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用与判断二者是否有关系.
【思路导引】作2×2列联表时,关键是对涉及的变量分清类别.注意应该是4行4列,计算时要准确无误.
【解析】2×2列联表如下:
将表中数据代入公式得==0.671 875.
==0.45.显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关系.
用等高条形图分析两变量间的关系
【典例】为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:
组别 阳性数 阴性数 总计
铅中毒病人 29 7 36
对照组 9 28 37
总计 38 35 73
试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?
【思路导引】依据题设要求以及所求,可直接画出等高图,然后再分析即可.
【解析】等高条形图如图所示:
其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.
1.利用2×2列联表分析两变量间的关系时,首先要根据题中数据获得2×2列联表,然后根据频率特征,即将与的值相比,直观地反映出两个分类变量间是否相互影响,但方法较粗劣.
2.利用等高条形图判断两个分类变量是否相关的步骤
(1)统计:收集数据,统计结果.
(2)列表:列出2×2列联表,计算频率、粗略估计.
(3)绘图:绘制等高条形图,直观分析.
3.利用列联表直接计算和,如果两者相差很大,就判断两个分类变量之间有关系.
4.在等高条形图中展示列联表数据的频率特征,比较图中两个深色条的高可以发现两者频率不一样而得出结论,这种直观判断的不足之处在于不能给出推断“两个分类变量有关系”犯错误的概率.
1.观察下列各图,其中两个分类变量x,y之间关系最强的是( )
【解析】选D.在四幅图中,D图中的两个深色条的高相差最明显,说明两个分类变量之间关系最强.
2.某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.
【解析】作列联表如下:
性格内向 性格外向 总计
考前心情紧张 332 213 545
考前心情不紧张 94 381 475
总计 426 594 1020
所以ad-bc=332×381-213×94=106 470.
所以ad-bc比较大,说明考前紧张与性格类型有关.
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前心情紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前心情紧张与性格类型有关.
类型二 独立性检验(数据分析)
【典例】“中国式过马路”存在很大的交通安全隐患.某调查机构为了解路人对“中国式过马路”的态度是否与性别有关,从马路旁随机抽取30名路人进行了问卷调查,得到了如下列联表:
男性 女性 总计
反感 10
不反感 8
总计 30
已知从这30人中随机抽取1人,抽到反感“中国式过马路”的路人的概率是.将上面的列联表补充完整,并据此分析能否在犯错误的概率不超过0.05的前提下认为对“中国式过马路”的态度与性别有关.
【思路导引】(1)依据2×2列联表的定义填表;
(2)计算K2,查找犯错误的概率不超过0.05的临界值,与此临界值比较大小.
【解析】补充完整的列联表如下:
男性 女性 总计
反感 10 6 16
不反感 6 8 14
总计 16 14 30
因为K2的观测值k=≈1.158<3.841,
所以不能在犯错误的概率不超过0.05的前提下认为对“中国式过马路”的态度与性别有关.
独立性检验的步骤
(1)确定分类变量,获取样本频数,得到列联表.
(2)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.
(3)利用公式K2=计算随机变量K2的观测值k.
(4)作出判断.
如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y的关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.
新冠肺炎疫情期间,讲究卫生,垃圾分类已经深入人心,某校通过网络组织了高三年级学生参与“垃圾分类,从我做起”的知识问卷作答,随机抽出男、女各20名同学的问卷进行打分,作出如图所示的茎叶图,成绩大于70分的为“合格”.
男 女 总计
合格
不合格
总计
(1)由以上数据绘制成2×2列联表,能否在犯错误的概率不超过0.05的前提下认为“性别”与“问卷结果”有关?
(2)从上述样本中,成绩在60分以下(不含60分)的男女学生问卷中任意选2个,求这2个学生性别不同的概率.
【解析】(1)根据茎叶图可得
男 女 总计
合格 10 16 26
不合格 10 4 14
总计 20 20 40
由K2的观测值k=≈3.956>3.841
知可以在犯错误的概率不超过0.05的前提下认为“性别”与“问卷结果”有关.
(2)从题干茎叶图可知,成绩在60分以下(不含60分)的男、女学生人数分别是4人和2人,分别用A,B,C,D和E,F表示,
基本事件为:AB,AC,AD,AE,AF,BC,BD,BE,BF,CD,CE,CF,DE,DF,EF,共有15个,
其中性别不同的基本事件有AE,AF,BE,BF,CE,CF,DE,DF,共8个,所求概率为.
【补偿训练】
某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,经过调查得到如下列联表:
根据列联表的独立性检验,能否在犯错误的概率不超过0.005的前提下认为员工工作态度与支持企业改革之间有关系?
【解析】由列联表中的数据,得K2的观测值为
k=≈10.759>7.879,
因此,在犯错误的概率不超过0.005的前提下,认为员工工作态度与支持企业改革之间有关系.
1.为调查中学生近视情况,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( )
A.平均数 B.方差
C.独立性检验 D.概率
【解析】选C.因为平均数描述的是整体水平,方差描述的是数据偏离平均水平的程度,独立性检验是检验两个分类变量之间的相关关系,概率是描述某一事件发生的可能性.所以检验中学生眼睛近视是否与性别有关时应用独立性检验.
2.某科研机构为了研究中年人秃发与心脏病是否有关,随机调查了一些中年人的情况,具体数据如表:
心脏病 无心脏病
秃发 20 300
不秃发 5 450
根据表中数据得到K2的观测值
k=≈15.968,因为k>10.828,则断定秃发与心脏病有关系,那么这种判断出错的可能性为( )
A.0.1 B.0.05 C.0.025 D.0.001
【解析】选D.P(k>10.828)=0.001.
3.下面是一个2×2列联表:
y1 y2 总计
x1 a 21 73
x2 8 25 33
总计 b 46
则表中a,b处的值分别为________,________.
【解析】因为a+21=73,所以a=52.b=a+8=52+8=60.
答案:52 60
4.在三维柱状图中,主对角线上两个柱形高度的乘积与副对角线上的两个柱形高度的乘积相差越大,H1(即两个分类变量有关系)成立的可能性就________.
【解析】主对角线上两个柱形高度的乘积与副对角线上的两个柱形高度的乘积相差越大,H1成立的可能性就越大.
答案:越大
5.为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:
喜欢数学课程 不喜欢数学课程 总计
男 37 85 122
女 35 143 178
总计 72 228 300
由表中的数据,你认为在犯错误的概率不超过多少的前提下可以认为高中生的性别与是否喜欢数学课程之间有关系?为什么?
【解析】K2=≈4.514>3.841,在假设“性别与是否喜欢数学课程之间没有关系”的前提下,K2应该很小,并且P(K2>3.841)≈0.05,而我们所得到的K2的观测值4.514超过3.841,这就意味着“性别与是否喜欢数学课程之间有关系”这一结论是错误的可能性约为0.05,即在犯错误的概率不超过0.05的前提下可以认为“性别与是否喜欢数学课程之间有关系”.
PAGE
10统计案例
题组训练一 线性回归分析
【典例1】从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得i=80,i=20,iyi=184,=720.
(1)求家庭的月储蓄y关于月收入x的线性回归方程=x+;
(2)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.
【解析】(1)由题意知n=10,=i=×80=8,
=i=×20=2,所以===0.3,
=-=2-0.3×8=-0.4,
故所求线性回归方程为=0.3x-0.4.
(2)将x=7代入回归方程,可以预测家庭的月储蓄约为=0.3×7-0.4=1.7(千元).
解决回归分析问题的一般步骤
(1)画散点图.根据已知数据画出散点图.
(2)判断变量的相关性并求回归方程.通过观察散点图,直观感知两个变量是否具有相关关系;在此基础上,利用最小二乘法求回归系数,然后写出回归方程.
(3)回归分析.画残差图或计算R2,进行残差分析.
(4)实际应用.依据求得的回归方程解决实际问题.
题组训练二 残差分析
【典例2】已知某种商品的价格x(元)与需求量y(件)之间的关系有如下一组数据:
x(元) 14 16 18 20 22
y(件) 12 10 7 5 3
求y对x的回归直线方程,并说明回归模型拟合效果的好坏.
【解析】=×(14+16+18+20+22)=18,
=×(12+10+7+5+3)=7.4,
=142+162+182+202+222=1 660,
iyi=14×12+16×10+18×7+20×5+22×3=620,
所以= eq \f(\i\su(i=1,5,x)iyi-5\x\to(x) \x\to(y),\i\su(i=1,5,x)-5\x\to(x)2) ==-1.15.
=-=7.4+1.15×18=28.1,
所以所求回归直线方程为=-1.15x+28.1.
列出残差表:
yi-i 0 0.3 -0.4 -0.1 0.2
yi- 4.6 2.6 -0.4 -2.4 -4.4
所以(yi-i)2=0.3,(yi-)2=53.2,
R2=1-≈0.994,故回归模型的拟合效果很好.
刻画回归效果的三个方式
(1)残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.
(2)残差平方和法:残差平方和(yi-i)2越小,模型的拟合效果越好.
(3)相关指数法:R2=1-越接近1,表明回归的效果越好.
题组训练三 独立性检验
【典例3】为了了解青少年的肥胖是否与常喝碳酸饮料有关,现对30名青少年进行调查,得到如下列联表:
项目 常喝 不常喝 总计
肥胖 2
不肥胖 18
总计 30
已知从这30名青少年中随机抽取1名,抽到肥胖青少年的概率为.
(1)请将上面的列联表补充完整;
(2)能否在犯错误的概率不超过0.005的前提下认为青少年的肥胖与常喝碳酸饮料有关?
【解析】(1)设常喝碳酸饮料且肥胖的青少年有x名,
则=,
解得x=6.
列联表如下:
项目 常喝 不常喝 总计
肥胖 6 2 8
不肥胖 4 18 22
总计 10 20 30
(2)由第一问中列联表中的数据可求得随机变量K2的观测值k=≈8.523>7.879,
因此在犯错误的概率不超过0.005的前提下认为青少年的肥胖与常喝碳酸饮料有关.
独立性检验的两个关键
(1)弄清问题中的两个分类变量及其取值分别是什么,其次掌握2×2列联表的结构特征.
(2)利用2×2列联表计算K2的观测值,再结合临界值表来分析相关性的大小.
PAGE
4