3.2 回归分析
学习目标 重点、难点
1.进一步掌握回归直线方程的求解方法;2.体会回归分析的基本思想,能判断不同模型的拟合程度. 重点:利用所给数据求线性回归直线方程.难点:函数模型的选取和确立以及函数拟合.
1.线性回归方程
=+x称为数据的回归直线,此直线方程即为线性回归方程,其中称为回归截距,称为回归系数,称为回归值,其中:
预习交流1
线性回归直线方程=+x与一次函数y=a+kx有何区别?
提示:一次函数y=a+kx是y与x的确定 ( http: / / www.21cnjy.com )关系,给x一个值,y有唯一确定的值与之对应,而线性回归直线方程是y与x的相关关系的近似反映,两个数据x,y组成的点(x,y)可能适合线性回归直线方程,也可能不适合.
2.相关系数
对于x,y随机取到的n对数据(xi,yi)(i=1,2,…,n)样本,相关系数r的计算公式为:r==,r具有如下性质:
(1)|r|≤1;(2)|r|越接近于1,x,y的线性程度越高;(3)|r|越接近于0,x,y的线性相关程度越弱.
预习交流2
如何利用r的临界值判断两个变量的线性相关关系?
提示:(1)提出统计假设H0:变量x,y不具有线性相关关系;
(2)如果以95%的把握作出推断,那么可以 ( http: / / www.21cnjy.com )根据1-0.95=0.05与n-2在相关性检验的临界值表中查出一个r的临界值r0.05(其中1-0.95=0.05称为检验水平);
(3)计算样本相关系数r;
(4)作出统计推断:若|r|>r0.05, ( http: / / www.21cnjy.com )则否定H0,表明有95%的把握认为x与y之间具有线性相关关系;若|r|≤r0.05,则没有理由拒绝原来的假设H0,即就目前数据而言,没有充分理由认为y与x之间有线性相关关系.
在预习中,还有哪些问题需要你在听课时加以关注?请在下列表格中做个备忘吧!
我的学困点 我的学疑点
1.线性回归方程的求法
某医院用光电比色计检验尿汞时,得尿汞含量(毫克/升)与消光系数如下表:
汞含量x 2 4 6 8 10
消光系数y 64 138 205 285 360
(1)作散点图;
(2)如果y与x之间具有线性相关关系,求回归直线方程.
思路分析:求回归直线方程必 ( http: / / www.21cnjy.com )须先对两个变量进行相关性判断,若两个变量存在较大的相关性,则可利用公式求回归直线方程的系数;若两个变量不具备相关关系,则求回归直线方程将变得毫无意义.
解:(1)散点图如图.
(2)由散点图可知,y与x呈相关关系,设回归直线方程为:=x+.
经计算,得=6,=210.4,x=220,xiyi=7 790.
∴==36.95,
=210.4-36.95×6=-11.3.
∴回归直线方程为=36.95x-11.3.
某地植被面积x(公顷)与当地气温下降的度数y(℃)之间有如下的对应数据:
x(公顷) 20 40 50 60 80
y(℃) 3 4 4 4 5
(1)请用最小二乘法求出y关于x的线性回归方程=x+;
(2)根据(1)中所求线性回归方程,如果植被面积为200公顷,则下降的气温大约是多少℃?
解:(1)==50,
==4.
iyi=20×3+40×4+50×4+60×4+80×5=1 060,
=202+402+502+602+802=14 500.
所以==0.03,=4-0.03×50=2.5.
故y关于x的线性回归方程=0.03x+2.5.
(2)由(1)得:当x=200时,=0.03×200+2.5=8.5.
所以植被面积为200公顷时,下降的气温大约是8.5 ℃.
先作出散点图可直观地判断两个变量的相关关系,线性回归直线方程一定过样本中心(,).
2.相关系数及相关性检验
现随机抽取了我校10名学生在入学考试中的数学成绩(x)与入学后的第一次考试中的数学成绩(y),数据如下表:
学生号 1 2 3 4 5 6 7 8 9 10
x 120 108 117 104 103 110 104 105 99 108
y 84 64 84 68 69 68 69 46 57 71
试问:这10名学生的两次数学考试成绩是否具有显著性线性相关关系?
思路分析:先利用相关系数计算公式r=计算出r,当|r|越接近于1时,两个变量越具有很强的线性关系.
解:由题意得:=×(120+108+…+99+108)=107.8,
=×(84+64+…+57+71)=68,
=1202+1082+…+992+1082=116 584,
=842+642+…+572+712=47 384,
iyi=120×84+108×64+…+108×71=73 796,
∴r=
≈0.750 6.
∵0.750 6接近于1,∴两次数学考试成绩有显著性线性相关关系.
炼钢是一个氧化降碳的过程,钢水含碳量的 ( http: / / www.21cnjy.com )多少直接影响冶炼时间的长短,必须掌握钢水含碳量和冶炼时间的关系,如果已测得炉料熔化完毕时,钢水的含碳量x与冶炼时间y(从炉料熔化完毕到出钢的时间)的一列数据,如下表所示:
x(0.01%) 104 180 190 177 147 134 150 191 204 121
y/min 100 200 210 185 155 135 170 205 235 125
根据数据分析以下几个问题:
(1)y与x是否具有线性相关关系?
(2)如果y与x具有线性相关关系,求线性回归方程.
(3)预测当钢水含碳量为160个0.01%时,应冶炼多少分钟?
解:(1)列出下表,并用科学计算器进行计算:
i 1 2 3 4 5 6 7 8 9 10
xi 104 180 190 177 147 134 150 191 204 121
yi 100 200 210 185 155 135 170 205 235 125
xiyi 10 400 36 000 39 900 32 745 22 785 18 090 25 500 39 155 47 940 15 125
=159.8,=172,xi2=265 448,yi2=312 350,xiyi=287 640
于是r=≈0.990 6.
∵0.990 6非常接近于1,
∴y与x具有显著的线性相关关系.
(2)设所求的线性回归方程为=x+,其中,的值使Q=(yi-xi-)2的值最小.
=≈1.267,
=-≈-30.47,
即所求的线性回归方程为
=1.267x-30.47.
(3)当x=160时,=1.267×160-30.47≈172,即大约冶炼172 min.
如果两个变量不具备线性相关关系或者线性相关关系不显著,即使求出线性回归方程也无意义,用于估计和测量的结果也是不可信的.
1.已知x,y的数据如表:
x 0 1 2 3
y 1 3 5-a 7+a
则y与x的回归直线方程=x+必过定点__________.
答案:
解析:=×(0+1+2+3)=.
=×(1+3+5-a+7+a)=4,
而=x+过(,).
2.已知x,y的取值如下表所示:
x 0 1 3 4
y 2.2 4.3 4.8 6.7
从散点图分析,y与x线性相关,且=0.95x+,则=__________.
答案:2.6
解析:=×(0+1+3+4)=2,
=×(2.2+4.3+4.8+6.7)=4.5.
4.5=0.95×2+,
∴=2.6.
3.某产品的广告费用x与销售额y的统计数据如下表
广告费用x(万元) 4 2 3 5
销售额y(万元) 49 26 39 54
根据上表可得回归方程=x+中的为9.4,据此模型预报广告费用为6万元时销售额为__________.
答案:65.5万元
解析:=3.5,=4.2,
∵4.2=9.4×3.5+,∴=9.1.
∴=9.4x+9.1.
当x=6时,=65.5(万元).
4.如下表中给出五组数据(x,y),从中选出四组使其线性相关最大,且保留第一组(-5,-3),那么,应去掉第__________组.
i 1 2 3 4 5
xi -5 -4 -3 -2 4
yi -3 -2 4 -1 6
答案:三
解析:应去掉第三组;画散点图可以发现.
5.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了4次试验.收集的数据如下:
零件个数x(个) 1 2 3 4
加工时间y(小时) 2 3 5 8
(1)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+;
(2)现需生产20件此零件,预测需用多长时间?
解:(1)==2.5,==4.5,
===2,
=-=4.5-2×2.5=-0.5,
所以=2x-0.5.
(2)因为=2×20-0.5=39.5(小时),
所以生产20件此零件,预测需用39.5小时.
用精练的语言把你当堂掌握的核心知识的精华部分和基本技能的要领部分写下来,并进行识记.
知识精华 技能要领