404495-55880第八章 成对数据的统计分析
第八章 成对数据的统计分析
849630188595 8.2一元线性回归模型及其应用
8.2一元线性回归模型及其应用
-156845302895知识点1-----一元线性回归模型
知识点1-----一元线性回归模型
false我们称该式为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.如果e=0,那么Y与x之间的关系就可用一元线性函数模型来描述.
-155575109220知识点2-----一元线性回归模型参数的最小二乘估计
知识点2-----一元线性回归模型参数的最小二乘估计
1.线性回归方程与最小二乘法
回归直线方程过样本点的中心(x,y),是回归直线方程最常用的一个特征
我们将false称为Y关于x的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线。这种求经验回归方程的方法叫做最小二乘法,求得的false,叫做b,a的最小二乘估计(lastsqures estimate),
其中false
2.残差的概念
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差,残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
3.残差与残差分析
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的false称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分差.
4.刻画回归效果的方式
⑴残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.
(2)残差平方和法
残差平方和false,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.
(3)利用R2刻画回归效果
决定系数R是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.false,R2越大,即拟合效果越好,R2越小,模型拟合效果越差
36576020320注意
残差图是以残差为纵坐标,以其他有关量为横坐标的散点图.根据一元线性回归模型中对随机误差的假定,残差应是均值为0、方差为σ?的随机变量的观测值,其残差图中的点应大致均匀地分布在某一水平带状区域内,没有任何明显的趋势.
注意
残差图是以残差为纵坐标,以其他有关量为横坐标的散点图.根据一元线性回归模型中对随机误差的假定,残差应是均值为0、方差为σ?的随机变量的观测值,其残差图中的点应大致均匀地分布在某一水平带状区域内,没有任何明显的趋势.
198120-209550经典例题
经典例题
例题1.给出下列说法:
①回归直线 y=bx+a 恒过样本点的中心 (x,y) ,且至少过一个样本点;②两个变量相关性越强,则相关系数 |r| 就越接近1;③将一组数据的每个数据都加一个相同的常数后,方差不变;④在回归直线方程 y=2?0.5x 中,当解释变量 x 增加一个单位时,预报变量 y 平均减少0.5个单位.
其中说法正确的是(??? )
A.?①②④?????????????????????????????????B.?②③④?????????????????????????????????C.?①③④?????????????????????????????????D.?②④
【答案】 B
【解析】对于①中,回归直线 y=bx+a 恒过样本点的中心 (x,y) ,但不一定过一个样本点,所以不正确;
对于②中,根据相关系数的意义,可得两个变量相关性越强,则相关系数 |r| 就越接近1,所以是正确的;
对于③中,根据方差的计算公式,可得将一组数据的每个数据都加一个相同的常数后,方差是不变的,所以是正确的;
对于④中,根据回归系数的含义,可得在回归直线方程 y=2?0.5x 中,当解释变量 x 增加一个单位时,预报变量 y 平均减少0.5个单位,所以是正确的.
故答案为:B.
例题2.调查了某地若干户家庭的年收入 x (单位:万元)和年饮食支出 y (单位:万元),调查显示年收入 x 与年饮食支出 y 具有线性相关关系,并由调查数据得到 y 对 x 的回归直线方程: i=1nxiyi?nxy=184?10×8×2=24 .由回归直线方程可知,家庭年收入每增加1万元,则预计年饮食支出平均增加(??? )
A.?0.067万元?????????????????????????B.?0.254 万元?????????????????????????C.?0.321万元?????????????????????????D.?0.575万元
【答案】 B
【解析】由题意,调查数据得到 y 对 x 的回归直线方程 i=1nxiyi?nxy=184?10×8×2=24 ,
可得当 x 增加 1 万元时,
年饮食支出 y 增加 [0.254(x+1)+0.321]?(0.254×+0.321)=0.254 万元.
故答案为: B.
例题3.在对人体的脂肪含量和年龄之间的关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据 (xi,yi)(i=1,2,?,20,25参考公式:相关系数 r=i=1n(xi?x)(yi?y)i=1n(xi?x)2i=1n(yi?y)2=i=1nxiyi?nxyi=1nxi2?nx2i=1nyi2?ny2 ;
对于一组具有线性相关关系的数据 (xi,yi)(i=1,2,...,n) ,其回归直线 y=bx+a 的斜率和截距的最小二乘估计分别为: b=i=1n(xi?x)(yi?y)i=1n(xi?x)2,a=y?bx .
(1)请用相关系数说明该组数据中 y 与 x 之间的关系可用线性回归模型进行拟合,并求 y 关于 x 的线性回归方程 y=a+bx ( a,b 的计算结果保留两位小数);
(2)科学健身能降低人体脂肪含量,下表是甲,乙两款健身器材的使用年限(整年)统计表:
使用年限
台数
款式
5年
6年
7年
8年
合计
甲款
5
20
15
10
50
乙款
15
20
10
5
50
某健身机构准备购进其中--款健身器材,以使用年限的频率估计概率,请根据以上数据估计,该机构选择购买哪一款健身器材,才能使用更长久?
【答案】 (1)解: x2=2304,y2=729 , i=120xiyi?20xy=1300 ,
i=120xi2?20x2=2200 , i=1nyi2?20y2=900 ,
r=i=120xiyi?20xyi=120xi2?20x2i=1nyi2?20y2≈0.92 ,
因为 y 与 x 的相关系数接近 1 ,
所以 y 与 x 之间具有较强的线性相关关系,可用线性回归模型进行拟合;
由题可得, b=i=120(xi?x)(yi?y)i=120(xi?x)2=i=120xiyi?20xyi=120xi2?20x2=1322≈0.591 ,
a=y?bx=27?0.591×48≈?1.37 ,
所以 y=0.59x?1.37
(2)解:以频率估计概率,设甲款健身器使用年限为 X (单位:年)
X
5
6
7
8
p
0.1
0.4
0.3
0.2
E(X)=5×0.1+6×0.4+7×0.3+8×0.2=6.6 ,
设乙款健身器使用年限为 Y (单位:年)
Y
5
6
7
8
p
0.3
0.4
0.2
0.1
E(Y)=5×0.3+6×0.4+7×0.2+8×0.1=6.1 ,
因为 E(X)>E(Y) ,
所以该机构购买甲款健身器材更划算
【解析】(1)根据参考公式,求得相关系数r,并判断与1的接近程度;求出?a,b? ,即可得线性回归方程;
(2)分别计算甲、乙两款健身器材的平均使用年限,即可得解.
例题4.某电器企业统计了近 10 年的年利润额 y (千万元)与投入的年广告费用 x (十万元)的相关数据,散点图如图,对数据作出如下处理:令 ui=lnxi , vi=lnyi ,得到相关数据如表所示:
i=110uivi
i=110ui
i=110vi
i=110ui2
30.5
15
15
46.5
参考数据: 10e≈3.6788 , 3.67883≈49.787 .
参考公式:回归方程 y=a+bt 中斜率和截距的最小二乘估计公式分别为 b=i=1n(ti?t)(yi?y)i=1n(ti?t)2 , a=y?bt .
(1)从① y=bx+a ;② y=m?xk(m>0,k>0) ;③ y=cx2+dx+e 三个函数中选择一个作为年广告费用 x 和年利润额 y 的回归类型,判断哪个类型符合,不必说明理由;
(2)根据(1)中选择的回归类型,求出 y 与 x 的回归方程;
(3)预计要使年利润额突破 1 亿,下一年应至少投入多少广告费用?(结果保留到万元)
【答案】 (1)解:由散点图知,年广告费用 x 和年利润额 y 的回归类型并不是直线型的,而是曲线型的,且 y 与 x 呈正相关.
所以选择回归类型 y=m?xk 更好
(2)解:对 y=m?xk 两边取自然对数,得 lny=lnm+klnx ,
∵v=lny , u=lnx ,则 v=lnm+ku ,
由表中数据得, k=i=110uivi?10uvi=110ui2?10u2=30.5?10×1.5×1.546.5?10×1.5×1.5=13 ,
所以 lnm=v?ku=1.5?13×1.5=1 ,所以 m=e ,
所以年广告费用 x 和年利润额 y 的回归方程为 y=e?x13
(3)解:由(2),知 y=e?x13 ,令 y=e?x13>10 ,得 x13>10e ,得 x13>3.6788 ,
所以 x>3.67883≈49.787 , 所以 x≈49.8 (十万元).
故下一年应至少投入498万元广告费用
【解析】(1) 由散点图知,年广告费用?x?和年利润额?y?的回归类型并不是直线型的,而是曲线型的 ;
(2) 对?y=m?xk?两边取自然对数,得?lny=lnm+klnx?, 由表中数据得 lnm=v?ku=1.5?13×1.5=1? ,进而得出 年广告费用?x?和年利润额?y?的回归方程 ;
(3) 由(2),知?y=e?x13?,令?y=e?x13>10?,得?x13>10e?,得?x13>3.6788?,?即可得出结果。
例题5.一年一度的剁手狂欢节——“双十一”,使千万女性朋友们非常纠结.2020年双十一,淘宝点燃火炬瓜分2.5个亿,淘宝?京东?天猫等各大电商平台从10月20号就开始预订,进行了强大的销售攻势.天猫某知名服装经营店,在10月21号到10月27号一周内,每天销售预定服装的件数 x (百件)与获得的纯利润 y (单位:百元)之间的一组数据关系如下表:
x
3
4
5
6
7
8
9
y
66
69
73
81
89
90
91
参考公式与数据: y=bx+a , b=i=1n(xi?x)(yi?y)i=1n(xi?x)2 , a=y?bx . i=17xiyi=3487 .
(1)若 y 与 x 具有线性相关关系,判断 y 与 x 是正相关还是负相关;
(2)试求 y 与 x 的线性回归方程;
(3)该服装经营店打算11月2号结束双十一预定活动,预计在结束活动之前,每天销售服装的件数 x (百件)与获得的纯利润 y (单位:百元)之间的关系仍然服从(1)中的线性关系,若结束当天能销售服装14百件,估计这一天获得的纯利润与前一周的平均利润相差多少百元?(有关计算精确到小数点后两位)
【答案】 (1)由题目中的数据表格可以看出, y 随着 x 的增大而增大,
∴判断出 y 与 x 是正相关;
(2)解:由题设知, i=17xi2=280 ,
x=3+4+5+6+7+8+97=6 ,
y=66+69+73+81+89+90+917=5597 ,
∴ b=3487?7×6×5597280?7×36=13328=4.75 ,
则 a=5597?6×4.75≈51.36 ,
∴线性回归直线方程为 y=4.75x+51.36 ;
(3)解:由(1)知,当 x=14 时, y=4.75×14+51.36=117.86 (百元),
∴11月2号这天估计可获得的纯利润大约为117.86百元;
由(1)知,前一周的平均利润为 y=5597≈79.86 (百元),
故结束当天获得的纯利润比前一周的平均利润多38.00百元.
【解析】(1)直接由题中数据表格得结论;
(2)求出 b^,a^? 的值,可得y关于x的线性回归方程;
(3)取x=14求得 y^? ,可得11月2号这天可获得的纯利润,结合(1)知前一周的平均利润,则答案可求.
?
63500151130随堂练习
随堂练习
练习1.下列说法:
①若线性回归方程为 y=3x?5 ,则当变量x增加一个单位时,y一定增加3个单位;②将一组数据中的每个数据都加上同一个常数后,方差不会改变;③线性回归直线方程 y=bx+a 必过点 (x,y) ;④抽签法属于简单随机抽样,而随机数表法属于系统抽样,
其中错误的说法是(??? )
A.?①③??????????????????????????????????B.?②③④??????????????????????????????????C.?①②④??????????????????????????????????D.?①④
练习2.已知一组数据确定的回归直线方程为 y=?x+2 且 y=4 ,通过残差分析,发现两个数据 (?1,7,2.9) , (?2,3,5.1) 误差较大,去除这两个数据后,重新求得回归直线的斜率为-1.5,则当 x=?4 时, y= (??? )
A.?6???????????????????????????????????????????B.?7???????????????????????????????????????????C.?8???????????????????????????????????????????D.?13
练习3.已知变量 x , y 之间具有良好的线性相关关系,若通过10组数据 (xi,yi)(i=1,2,...,10) 得到的回归方程为 y=bx+5 ,且 i=110xi=20 , i=110yi=8 ,则 b=(?? )
A.?2.1?????????????????????????????????????????B.?2?????????????????????????????????????????C.?-2.1?????????????????????????????????????????D.?-2
练习4.如图是我国2014年至2020年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1﹣7分别对应年份2014﹣2020.
附注:
参考数据: i=17yi=9.32 , i=17tiyi=40.17 , i=17(yi?y)2=0.55 , 7≈2.646 .
参考公式:相关系数 r=i=1n(ti?t)(yi?y)i=1n(ti?t)2i=1n(yi?y)2 ,
回归方程 y=a+bt 中斜率和截距的最小二乘估计公式分别为: b=i=1n(ti?t)(yi?y)i=1n(ti?t)2 , a=y?bt .
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以证明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2022年我国生活垃圾无害化处理量.
练习5.为了了解某校高中生的身体质量情况,某调查机构进行了一次高一学生体重和身高的抽样调查,从中抽取了8名学生(编号为 1?8 )的身高 x(cm) 和体重 y(kg) 数据.如下表,某调查机构分析发现学生的身高和体重之间有较强的线性相关关系,在编号为6的体检数据丢失之前,调查员甲已进行相关的数据分析并计算出该组数据的线性回归方程为 y=a+0.5x ,且根据回归方程预估一名身高为 180cm 的学生体重为 71kg ,计算得到的其他数据如下: x=170,i=18xiyi=89920 .
学生的编号 i
1
2
3
4
5
6
7
8
身高 x(cm)
164
176
165
163
170
172
168
182
体重 y(kg)
60
72
77
54
?
?
72
55
附:回归直线方程 y=a+bx 的斜率和截距的最小二乘法估计分别为: b=i=1nxiyi?nxyi=1nxi2?nx2 , a=y?bx .
(1)求 a 的值及表格中8名学生体重的平均值 y ;
(2)在数据处理时,调查员乙发现编号为8的学生体重数据有误,应为 63kg ,身高数据无误.请你根据调查员乙更正的数据重新计算线性回归方程,并据此预估一名身高为 180cm 的学生的体重.
练习6.某芯片公司为制定下一年的研发投入计划,需了解年研发资金投入量 x (单位:亿元)对年销售额 y (单位:亿元)的影响.该公司对历史数据进行对比分析,建立了两个函数模型:① y=α+βx2 ,② y=eλx+t ,其中 α,β,λ,t 均为常数, e 为自然对数的底数.
现该公司收集了近12年的年研发资金投入量 xi 和年销售额 yi 的数据, i=1,2,?,12 ,并对这些数据作了初步处理,得到了右侧的散点图及一些统计量的值.令 ui=xi2, vi=lnyi (i=1,2,?,12) ,经计算得如下数据:
x
y
i=112(xi?x)2
i=112(yi?y)2
u
v
20
66
n2+b=b24
200
460
4.20
i=112(ui?u)2
i=112(ui?u)(yi?y)
i=112(vi?v)2
i=112(xi?x)(vi?v)
3125000
21500
0.308
14
(1)设 {ui} 和 {yi} 的相关系数为 r1 , {xi} 和 {vi} 的相关系数为 r2 ,请从相关系数的角度,选择一个拟合程度更好的模型;
(2)(i)根据(1)的选择及表中数据,建立 y 关于 x 的回归方程(系数精确到0.01);
(ii)若下一年销售额 y 需达到90亿元,预测下一年的研发资金投入量 x 是多少亿元??
附:①相关系数 C ,回归直线 y=a+bx 中斜率和截距的最小二乘估计公式分别为: b=i=1n(xi?x)(yi?y)i=1n(xi?x)2 , a=y?bx ;
② 参考数据: 308=4×77 , 90≈9.4868 , e4.4998≈90 .
6604079375参考答案
参考答案
练习1【答案】 D
【解析】对于①,回归方程中,变量x增加1个单位时,y平均增加3个单位,不是一定增加,所以①错误;
对于②,将一组数据中的每个数据都加上或减去同一个常数后,均值改变,方差不变,所以②正确;
对于③,线性回归方程必经过样本中心点,所以③正确;
对于④,抽签法和随机数表法属于简单随机抽样,所以④错误.
故答案为:D
练习2【答案】 B
【解析】由题意 x=2?y=2?4=?2 ,
设原来有 n 个数据,则去除两个数据后还有 n?2 个数据,这 n?2 个数据的中心点记为 (x',y') ,
则 x'=?2n?(?1.7?2.3)n?2=?2 , y'=4n?(2.9+5.1)n?2=4 ,
设新回归方程为 y=?1.5x+m ,则 4=?1.5×(?2)+m , m=1 ,即 y=?1.5x+1 ,
x=?4 时, y=?1.5×(?4)+1=7 .
故答案为:B.
练习3【答案】 C
【解析】因为 i=110xi=20?x=110×i=110xi=2, i=110yi=8?y=110×i=110yi=0.8 ,所以根本点的中心为 (2,0.8) ,把样本点的中心代入回归直线方程,得 0.8=2b+5?b=?2.1 ,
故答案为:C.
练习4【答案】 (1)解:由折线图看出,y与t之间存在较强的正相关关系,理由如下:
因为 i=17yi=9.32 , i=17tiyi=40.17 , i=17(yi?y)2=0.55 , t=1+2+3+4+5+6+77=4 ,
所以 r=i=17(ti?t)(yi?y)i=17(ti?t)2i=17(yi?y)2=i=17tiyi?7tyi=17(ti?t)2i=17(yi?y)2 ≈40.17?4×9.3227?0.55≈2.892.9106≈0.993 ,
∵ 0.993>0.75 ,
故y与t之间存在较强的正相关关系
(2)解:由(1),结合题中数据可得, b=i=17(ti?t)(yi?y)i=17(ti?t)2=i=17tiyi?7tyi=17ti2?7t2 ≈2.8928≈0.103 ,
a=y?bt≈1.331?0.103×4≈0.92 ,
∴y关于t的回归方程 y=0.10t+0.92 ,
2022年对应的t值为9,
故 y=0.10×9+0.92=1.82 ,
预测2022年我国生活垃圾无害化处理量为1.82亿吨
【解析】(1)由已知数据求得r值,由r值接近1可得y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
(2)根据题意求出a^与b^的值由此得到线性回归方程,令x=9求得y值得答案.
练习5 【答案】 (1)解:调查员由线性回归方程 y=a+0.5x 预估一名身高为 180cm 的学生体重为 71kg ,由此可计算 a=71?180×0.5=?19 ,
故 y=bx+a=0.5×170?19=66 .
(2)解:由(1)知更正前的数据 x=170,y=66 .由 b=0.5=i=18xiyi?8xyi=18xi2?8x2 ,得
i=18xi2?8x2=2×(i=18xiyi?8xy)=2×(89920?8×170×66)=320 ,
更正后的数据 x'=x=170,y'=y×8+(63?55)8=67 ,
i=18xi'yi'=i=18xiyi+x8×8=i=18xiyi+182×8 ,
8x'?y'=8x?y'=8x?(y+1)=8x?y+8×170 ,
b=i=18xi'yi'?8x'y'i=18xi'2?8x'2=(i=18xiyi+182×8)?(8xy+8×170)i=18xi2?8x2
=(i=18xiyi?8xy)i=18xi2?8x2+182×8?8×170i=18xi2?8x2=0.5+96320=0.5+0.3=0.8 ,
故 a=y'?bx'=67?0.8×170=?69 .
更正后该组数据的线性回归方程为 y=0.8x?69
当身高为 180cm 时,体重为 0.8×180?69=75kg ,
故一名身高为 180cm 的学生的体重预估为 75kg
【解析】(1)将预估一名身高为 180cm 的学生体重为 71kg ,代入线性回归方程中可求得 a ,再将 x 代入线性回归方程中可求得 y ;(2)更正数据后再计算线性回归方程,代入 x=180 可得到估计值.
练习6【答案】 (1)解: r1=i=112(ui?u)(yi?y)i=112(ui?u)2i=112(yi?y)2 =215003125000×200=2150025000=4350=0.86 ,
r2=i=112(xi?x)(vi?v)i=112(xi?x)2i=112(vi?v)2 =14770×0.308=1477×0.2=1011≈0.91 ,
则 |r1|<|r2| ,因此从相关系数的角度,模型 y=eλx+t 的拟合程度更好
(2)解:(i)先建立 v 关于 x 的线性回归方程.
由 y=eλx+t ,得 lny=t+λx ,即 v=t+λx .
由于 λ=i=112(xi?x)(vi?v)i=112(xi?x)2=14770≈0.018 ,
t=v?λx=4.20?0.018×20=3.84,
所以 v 关于 x 的线性回归方程为 v=0.02x+3.84 ,
所以 lny=0.02x+3.84 ,则 y=e0.02x+3.84.
(ii)下一年销售额 y 需达到90亿元,即 y=90 ,
代入 y=e0.02x+3.84 得, 90=e0.02x+3.84 ,
又 e4.4998≈90 ,所以 4.4998≈0.02x+3.84 ,
所以 x≈4.4998?3.840.02=32.99 ,
所以预测下一年的研发资金投入量约是 32.99 亿元
【解析】(1)由相关系数求出两个系数,比较大小可得;(2)(i)先建立 v 关于 x 的线性回归方程,从而得出 y 关于 x 的回归方程;(ii)把 y=90 代入(i)中的回归方程可得x值.