一元线性回归案例
例1. 大豆收成与施肥量
假设大豆收成由如下模型决定:
Y=β1+β2 X +u
Y=收成(field), X=施肥量(fertilizer). 农业研究者的兴趣在于其他因素不变的情况下,施肥量如何影响大豆收成.这个影响由β2给出.
误差项包括了土地质量降雨量等因素.
△Y=β2 △ X
例2. 一个简单的工资方程
假设一个人的工资水平与他的可测教育水平及其他非观测因素的关系:
W=β1+β2 E +u
W=工资水平(wage),单位美元/小时
E=受教育年数(educ).
β2度量了在其他因素不变的情况下,多接受一年的教育导致小时工资的变化量. 其他非观测因素包括劳动经验、天生能力、任现职时间、工作道德以及其他因素.
例3. 静态菲利普斯曲线
时间序列数据
令inf(t)表示年通货膨胀率,unem(t)表示事业率, 下列菲利普斯曲线假定了一个不变的自然失业率和固定的通货膨胀率预期.
Inf(t)=β1+β2 unem(t)+u
依据1948-1996年美国经济数据, OLS回归方程为
Inf(t)=1.42+0.468 unem(t)
(1.72) (0.289)
n=49 R^2=0.053
时间序列数据是按照时间先后顺序排列, 横截面数据是无序的.
时间序列数据和横截面数据都是随机变量,但它们随机性表现是不同的.横截面数据表现在样本抽取的随机,时间序列数据表现在事件发生的不确定性.
一元线性回归成功的关键因素在于:
E(u|X)=E(u)
这一方程成立时,称u均值独立(men independent)于X。
u , X 完全独立时,蕴涵均值独立.
例4. 考试分数与出勤率
假如期末考试的分数(score)取决于出勤率(attend)和影响考试成绩的其他无法观测因素(如学生能力等):
score= β1+β2 attend+u
许多不加分析的回归发现:
这一回归中β2 〈0,即分数与出勤率负相关.
这一模型在什么情况下满足均值独立条件?
除非学生学习能力、学习攻击、年龄及其他因素与出勤率无关,但这几乎不可能.
例5. 学校的数学成绩与学校午餐项目
以math10表示高中十年级学生在一次标准化数学考试中通过的百分比.lnchprg表示有资格接受午餐计划的学生的百分比.
若其他条件不变,若学生太贫穷不能保证正常饮食,可以有资格接受学校午餐项目的资助,他的成绩应有所提高.
例5. 学校的数学成绩与学校午餐项目
1992-1993学年美国密歇根州408所高中的数据的OLS回归方程:
math10= β1+β2 lnchprg+u
Math10=32.14-0.319 lnchprg
N=408 R^2=0.171
误差项u包含既影响学生成绩又与午餐项目资格高度相关的因素,比如在校学生的贫穷率.学校质量和资源等变量也被包含在u内.
例2. 一个简单的工资方程
美国研究者以1976年的526名美国工人为样本,OLS回归方程为:
W=-0.90 +0.54 E
这里W单位为美元/小时,E单位为年.
E平均工资计算为5.90美元/小时.
根据消费者价格指数,这一数值相当于2003年的19.06美元.
例2. 一个简单的工资方程
对同样的数据,但是把log(w)作为因变量,得到的回归方程为:
logW=0.584+0.083 E
N=526 R^2= 0.186
将所得系数乘以100%,即成为百分数概念.
每多受一年教育,工资W将有8.3%的提高.
注:可以思考,这一回归中是不是有“文凭效应”的干扰?
一元线性回归中R^2与单位无关.
在社会科学中,R^2过低是很正常的.研究对象为横截面数据时更是如此.
一个很低的R^2值,并不意味着OLS回归方程没有用.
所得回归系数很可能是其他条件不变情况下两者关系的良好估计,回归是否正确并不直接依赖于R^2的大小.
例6. 投票结果与竞选支出
美国研究者对1988年美国众议院173次两党选举和竞选支出做了回归.每次竞选为候选人A,B. 以V(voteA)作为候选人A所得票数百分比,S(shareA)为A在总竞选支出中所占百分比.干扰项u包括候选人的素质,A和B支出的美元数量等).
例6. 投票结果与竞选支出
所得回归方程为:
V=26.81+0.464S
即A的支出在总会费中增加1%,A即可多得0.464%的总票数.
本方程中
R^2=0.856
例7. 住房投资与价格
美国1947-1988年住房投资和住房价格指数的年度观测.以invpc表示真实人均住房投资(单位千美元).price表示住房价格指数(将1982年取为1).一个常弹性系数的简单回归方程,可以看作是一个住房存量的供给方程.
Log(invpc)=-0.550+1.24log(price)
(0.043) (0.382)
N=42 R^2=0.208
显著性检验不明显,事实上这一关系也是错误的,未来我们将加上时间序列分析中特有的趋势分析说名这个问题.
例8. 集装箱吞吐量与外贸额
2001-2006年中国集装箱吞吐量增长与外贸额增长的弹性分析.以Y表示集装箱吞吐量(百万标准箱),X表示外贸额(百亿美元).
OLS回归方程为
Y=3.7667+0.509X
(2.06) (31.78) t0.1(5)=2.776
n=6 R^2=0.996
例8. 集装箱吞吐量与外贸额
2007年 对外贸易总额217.37
Y(2007)=114.43 实际数据114.74
2008年 对外贸易总额256.16
Y(2008)=134.18 0.9区间为(128.81,139.54)
实际数据 129
2009年 对外贸易总额220.727
Y(2008)=116.14 0.9区间为(111.92,120.36)
实际数据 121
例8. 集装箱吞吐量与外贸额
2001-2007年中国集装箱吞吐量增长与外贸额增长的弹性分析.以Y表示集装箱吞吐量增长率(%),X表示外贸额增长率(%).
OLS回归方程为
Y=18.449+0.3155X
(2.3982) (1.078) t0.1(5)=2.015
n=7 R^2=0.1887
例9. CEO薪水与股本回报率
对首席执行官(CEO)构成的总体,令S表示年薪(salary),单位千美元.以R表示某CEO所在公司在过去三年中的平均股本回报率(roe).(股本回报率定义为净收入占普通股价值的百分比.)
S= β1+β2 R+u
例9. CEO薪水与股本回报率
1990年以209位CEO为样本,数据来源为《商业周刊》(Business Week,5/6/91).样本中CEO平均年薪1281.12千美元,最低223千美元,最高14822千美元. 1988-1990年平均股本回报率17.18%,最低和最高分别为
0.5%和56.3%.
OLS回归线为
S=963.191+18.501R
例9. CEO薪水与股本回报率
OLS回归线为
S=963.191+18.501R
N=209, R^2=0.0132
企业股本回报率只能解释薪水变异中的1.3%.
例10. CEO薪水与公司销售额
将log(salary)与log(sales)公司年销售额联系.
OLS回归线为
Log(salary)=4.822+0.257log(sales)
N=209, R^2=0.211
这就是薪水对销售额的弹性估计值,公司销售额每增加1%,CEO薪水增加0.257%.
谢谢!