高二数学文科选修1-2第一章1.1回归分析的基本思想及其初步应用(学生版+解析版)

文档属性

名称 高二数学文科选修1-2第一章1.1回归分析的基本思想及其初步应用(学生版+解析版)
格式 rar
文件大小 1.6MB
资源类型 试卷
版本资源 人教新课标A版
科目 数学
更新时间 2019-02-28 08:57:02

文档简介








中小学教育资源及组卷应用平台



1.1 回归分析的基本思想及其初步应用(含解析)

考 点 考纲要求 要求 题型
求线性回归方程方法 会用散点图分析两个变量是否存在相关关系. III 填空题,解答题
会用残差分析判断线性回归模型的拟合效果. .了解随机误差、残差、残差分析的概念. I 选择题
.掌握建立回归模型的步骤. 通过对典型案例的探究,了解回归分析的基本思想方法和初步应用. II 重点:(1)(2)求线性回归直线方程.难点:回归模型的选择,掌握建立回归模型的步骤.



1.回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,回归分析的基本步骤是画出两个变量的散点图,求回归方程,并用回归方程进行预报.
2.线性回归模型
(1)在线性回归方程=+x中,=eq \f(\o()?xi-\x\to(x)??yi-\x\to(y)?,\o() ?xi-\x\to(x)?2)=eq \f(\o()xiyi-n\a\vs4\al(\x\to(x)) \a\vs4\al(\x\to(y)),\o()x\o\al(2,i)-n\x\to(x)2),=-.其中=xi,=yi,(,)称为样本点的中心.
(2)线性回归模型y=bx+a+e,其中e称为随机误差,自变量x称为解释变量,因变量y称为预报变量.
3.刻画回归效果的方式
残差 把随机误差的估计值i称为相应于点(xi,yi)的残差
残差图 作图时纵坐标为残差,横坐标可以选为样本编号,或xi数据,或yi数据等,这样作出的图形称为残差图
残差 图法 残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高
残差 平方和 残差平方和为(yi-i)2,残差平方和越小,模型拟合效果越好
相关 指数R2 R2=1-eq \f(\o() ?yi-\o(y,\s\up6(^))i?2,\o() ?yi-\x\to(y)?2),R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归的效果越好
[双基自测]
1.在下列各组量中:①正方体的体积与棱长;②一块农田的水稻产量与施肥量;③人的身高与年龄;④家庭的支出与收入;⑤某户家庭的用电量与电价.其中量与量之间的关系是相关关系的是(  )
A.①②        B.③④
C.③④ D.②③④
答案:D
2.线性回归方程=x+必过点________.
答案:(,)
3.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适;②用相关指数R2来刻画回归的效果,R2值越大,说明模型的拟合效果越好;③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.其中正确命题的序号是________.
答案:①②③


考向一 求线性回归方程方法
[例1] 某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如表:
年份 2007 2008 2009 2010 2011 2012 2013
年份代号t 1 2 3 4 5 6 7
人均纯收入y 2.9 3.3 3.6 4.4 4.8 5.2 5.9
(1)求y关于t的线性回归方程;
(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘估计公式分别为:
=,=- .
[解析] (1)由所给数据计算得
=(1+2+3+4+5+6+7)=4,
=(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,
(ti-)2=9+4+1+0+1+4+9=28,
(ti-)(yi-)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,
===0.5,
=- =4.3-0.5×4=2.3,
所求回归方程为=0.5t+2.3.
(2)由(1)知,=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.
将2015年的年份代号t=9代入(1)中的回归方程,得=0.5×9+2.3=6.8,
故预测该地区2015年农村居民家庭人均纯收入为6.8千元.

求线性回归方程方法
(1)一般步骤

(2)求解策略
①重视数据分析和计算,正确运用公式计算,是求线性回归方程的关键.
②回归直线必过样本点中心(,).
③注意一些运算技巧,如求和时的“凑整法”,平均值的“估计调整法”等.

1.在我国某地的一个县城,近期发现了好几个癌症村,政府部门十分震惊,马上组成调查组调查病因,经调查发现致癌的罪魁祸首是水源中的金属砷,它们来自附近的几家化工厂,化工厂排出的废水中含有金属砷,废水污染了水源,人食用了这种水就会致癌.下面就是调查组对几个癌症村水源中的砷超标的倍数和患癌症的人数统计的数据:
砷超标的倍数x 3 4 5.5 4.2 5.8 6 3.5
患癌症人数y 15 20 28 24 35 44 34
(1)画出表中数据的散点图;
(2)求y对x的回归方程.
解析:(1)散点图如图所示:

(2)观察散点图,可知x,y成线性相关关系.
计算得=,=.
根据求公式代入数据计算得≈6.065,=-6.065×≈0.846.
所以患癌症人数y对水源中砷超标的倍数x的回归直线方程为=6.065x+0.846.
考向二 线性回归分析
[例2] 为研究重量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:
x 5 10 15 20 25 30
y 7.25 8.12 8.95 9.90 10.9 11.8
(1)作出散点图,并求线性回归方程;
(2)求出R2;
(3)进行残差分析.
[解析] (1)散点图如图所示.

=×(5+10+15+20+25+30)=17.5,
=×(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,
x=2 275,xiyi=1 076.2.
计算得≈0.183,≈6.285.
所以所求线性回归方程为=6.285+0.183x.
(2)列表如下:
yi-i 0.05 0.005 -0.08 -0.045 0.04 0.025
yi- -2.24 -1.37 -0.54 0.41 1.41 2.31
所以(yi-i)2≈0.013 18,(yi-)2≈14.678 4.
所以R2≈1-≈0.999 1,
所以回归模型的拟合效果较好.
(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与拉力呈线性关系.

本题求解的关键是什么?“R2、残差表(图)”在回归分析中有什么作用?
(1)解题关键:利用公式正确计算,,R2是求解本题的关键.
(2)拟合效果分析:(1)R2是用来刻画回归效果的,由R2=1-eq \f(\o() ?yi-\o(y,\s\up6(^))i?2,\o() ?yi-\x\to(y)?2)可知,R2越大,残差平方和越小,回归模型的拟合效果越好.(2)残差图(表)也可刻画拟合效果,残差图均匀水平带状区域分布,带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.

2.已知某种商品的价格x(元)与需求量y(件)之间的关系有一组数据:
x 14 16 18 20 22
y 12 10 7 5 3
(1)若y与x线性相关,求y关于x的回归直线方程;
(2)在(1)的条件下,若R2≈0.994,说明其含义.
解析:(1)=(14+16+18+20+22)=18,
=(12+10+7+5+3)=7.4,
x=142+162+182+202+222=1 660,
xiyi=14×12+16×10+18×7+20×5+22×3=620,
所以=eq \f(\o()xiyi-5\a\vs4\al(\x\to(x)) \a\vs4\al(\x\to(y)),\o()x\o\al(2,i)-5\x\to(x)2)==-1.15,
=7.4+1.15×18=28.1,
所以所求回归直线方程是=-1.15x+28.1.
(2) R2≈0.994时,说明需求量的差异有99.4%的可能性由商品的价格影响的.所以回归模型的拟合效果很好.
3.假设关于某设备的使用年限x(年)和所支出的维修费用y(万元)有关的统计资料如表所示.
使用年限x 2 3 4 5 6
维修费用y 2.2 3.8 5.5 6.5 7.0
若由资料知y对x呈线性相关关系.
(1)求线性回归方程=x+;
(2)若相关指数R2=0.958 7,说明其含义;
(3)估计使用年限为10年时,维修费用是多少?
解析:(1)由已知数据制成表.
i 1 2 3 4 5 合计
xi 2 3 4 5 6 20
yi 2.2 3.8 5.5 6.5 7.0 25
由此可得=4,=5,
=eq \f(\o() ?xi-\x\to(x)??yi-\x\to(y)?,\o() ?xi-\x\to(x)?2)=1.23,=- =0.08.
∴回归直线方程为=1.23x+0.08.
(2)R2=0.958 7,说明该设备的维修费用有95.87%由使用年限引起的.
(3)回归直线方程为=1.23x+0.08,当x=10(年)时,=1.23×10+0.08=12.38(万元),
即估计使用10年时维修费用是12.38万元.

考向三 非线性回归分析
[例3] 在一次抽样调查中测得样本的5个样本点,数值如表:
x 0.25 0.5 1 2 4
y 16 12 5 2 1
试建立y与x之间的回归方程.
[解析] 作出变量y与x之间的散点图如图所示.

由图可知变量y与x近似地呈反比例函数关系.
设y=,令t=,则y=kt.由y与x的数据表可得y与t的数据表:
t 4 2 1 0.5 0.25
y 16 12 5 2 1
作出y与t的散点图如图所示.

由图可知y与t呈近似的线性相关关系.
又=1.55,=7.2,tiyi=94.25,t=21.312 5,
=eq \f(\o()tiyi-5\a\vs4\al(\x\to(t)) \a\vs4\al(\x\to(y)),\o()t\o\al(2,i)-5\x\to(t)2)
=≈4.134 4,
=- =7.2-4.134 4×1.55≈0.8,
∴=4.134 4t+0.8.
所以y与x的回归方程是=+0.8.

求非线性回归方程的步骤
(1)确定变量,作出散点图.
(2)根据散点图,选择恰当的拟合函数.
(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.
(4)分析拟合效果:通过计算相关指数或画残差图来判断拟合效果.
(5)根据相应的变换,写出非线性回归方程.

3.两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是(  )

A.y=a·xb      B.y=a+bln x
C.y=a·ebx
解析:由散点图知,此曲线类似对数函数型曲线,因此可用函数y=a+bln x模型进行拟合.
答案:B


1.已知x和y之间的一组数据(  )
x 0 1 2 3
y 1 3 5 7
则y与x的线性回归方程=x+必过点(  )
A.(2,2)       B.(,0)
C.(1,2) D.(,4)
解析:∵=(0+1+2+3)=,=(1+3+5+7)=4,
∴回归方程=x+必过点(,4).
答案:D
2.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:
①y与x负相关且=2.347x-6.423;
②y与x负相关且=-3.476x-5.648;
③y与x正相关且=5.437x+8.493;
④y与x正相关且=-4.326x-4.578.
其中一定不正确的结论的序号是(  )
A.①② B.②③
C.③④ D.①④
解析:①中y与x负相关而斜率为正,不正确;④中y与x正相关而斜率为负,不正确.
答案:D
3.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R2分别如表:
甲 乙 丙 丁
R2 0.98 0.78 0.50 0.85
建立的回归模型拟合效果最好的同学是(  )
A.甲 B.乙
C.丙 D.丁
解析:相关指数R2越大,表示回归模型的效果越好.
答案:A
4.在回归分析中,相关指数R2的值越大,说明残差平方和(  )
A.越大 B.越小
C.可能大也可能小 D.以上均错
解析:∵R2=1-eq \f(\o() ?yi-\o(y,\s\up6(^))i?2,\o() ?yi-\x\to(y)?2),∴当R2越大时,(yi-i)2越小,即残差平方和越小.
答案:B
5.甲、乙、丙、丁4位同学各自对A,B两变量做回归分析,分别得到散点图与残差平方和(yi-i)2如表:
甲 乙 丙 丁
散点图
残差 平方和 115 106 124 103
哪位同学的试验结果体现拟合A,B两变量关系的模型拟合精度高?(  )
A.甲 B.乙
C.丙 D.丁
解析:由图表知,丁同学拟合的残差平方和为103最小.即R2最大,所以丁的拟合效果好,精度高.
答案:D
3.已知变量x与y正相关,且由观测数据算得样本平均数=3,=3.5,则由该观测数据算得的线性回归方程可能是(  )
A.=0.4x+2.3 B.=2x-2.4
C.=-2x+9.5 D.=-0.3x+4.4
解析:由于x与y正相关,易知C、D均不正确.又回归直线过样本点(3,3.5)代入验证A正确,B错.
答案:A
4.某产品的广告费用x与销售额y的统计数据如表:
广告费用x(万元) 4 2 3 5
销售额y(万元) 49 26 39 54
根据上表可得回归方程=x+中的为9.4,据此模型预报广告费用为6万元时销售额为(  )
A.63.6万元 B.65.5万元
C.67.7万元 D.72.0万元
解析:样本点的中心是(3.5,42),则=- =42-9.4×3.5=9.1,所以回归直线方程是=9.4x+9.1,把x=6代入得=65.5.
答案:B
5.已知x与y之间的几组数据如表:
x 1 2 3 4 5 6
y 0 2 1 3 3 4
假设根据上表数据所得线性回归直线方程为=x+,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y′=b′x+a′,则以下结论正确的是(  )
A.>b′,>a′ B.>b′,C.a′ D.解析:由数据(1,0)和(2,2)可得直线方程y=2x-2,
∴b′=2,a′=-2,
利用表格数据得=,=,
∴=eq \f(\o()xiyi-6\a\vs4\al(\x\to(x)) \a\vs4\al(\x\to(y)),\o()x\o\al(2,i)-6\x\to(x)2)==.
则=- =-×=-,
所以a′.
或作出散点图,观察回归直线的斜率与截距得出结论.
答案:C
6.如图所示的是四个残差图,其中回归模型的拟合效果最好的是(  )

解析:残差图中,只有A、B是水平带状区域分布,且B中残差点散点分布集中在更狭窄的范围内所以B项中回归模型的拟合效果最好.
答案:B
7.某商品的销售量y(件)与销售价格x(元/件)存在线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=-10x+200,则下列结论正确的是(  )
A.y与x具有正的线性相关关系
B.若r表示变量y与x之间的线性相关系数,则r=-10 
C.当销售价格为10元时,销售量为100件
D.当销售价格为10元时,销售量为100件左右
解析:由=-10x+200,知=-10<0,因此A、B不正确.当x=10时,=-10×10+200=100.
∴销售量为100件左右.
答案:D
8.如果散点图中的所有的点都在一条斜率不为0的直线上,则残差为________,相关指数R2=________.
解析:由题意知,yi=i
∴相应的残差i=yi-i=0.
相关指数R2=1-eq \f(\o() ?yi-\o(y,\s\up6(^))i?2,\o() ?yi-\x\to(y)?2)=1.
答案:0 1

9.在2014年8月15日那天,某物价部门对本市的5家商场的某商品的一天销售量价格进行调查,5家商场的售价x元和销售量y件之间的一组数据如表所示:
价格x 9 9.5 m 10.5 11
销售量y 11 n 8 6 5
由散点图可知,销售量y与价格x之间有较强的线性相关关系,其线性回归直线方程是:=-3.2x+40,且m+n=20,则其中的n=________.
解析:==8+.
==6+
代入方程=-3.2x+40,得30+n=-128-3.2m+200,
则n+3.2m=42,①
又m+n=20,②
联立①②得m=n=10.
答案:10
10.已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线方程是________.
解析:由斜率的估计值为1.23,且回归直线一定经过样本点的中心(4,5),可得-5=1.23(x-4),即=1.23x+0.08.
答案:=1.23x+0.08
11.在研究身高和体重的关系时,求得相关指数R2≈________,可以叙述为“身高解释了64%的体重变化,而随机误差贡献了剩余的36%”,所以身高对体重的效应比随机误差的效应大得多.
解析:结合相关指数的计算公式R2=1-eq \f(\o()?yi-\o(y,\s\up6(^))i?2,\o()?yi-\x\to(y)?2)可知,当R2=0.64时,身高解释了64%的体重变化.
答案:0.64
12.今年一轮又一轮的寒潮席卷全国.某商场为了了解某品牌羽绒服的月销售量y(件)与月平均气温x(℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,数据如下表:
月平均气温x(℃) 17 13 8 2
月销售量y(件) 24 33 40 55
由表中数据算出线性回归方程=x+中的≈-2.气象部门预测下个月的平均气温约为6 ℃,据此估计,该商场下个月该品牌羽绒服的销售量的件数约为________.
解析:由表格得(,)为(10,38),又(,)在回归直线=x+上,且≈-2,
∴38=-2×10+,=58,所以=-2x+58,当x=6时,=-2×6+58=46.
答案:46
13.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如表数据:

单价x(元) 8 8.2 8.4 8.6 8.8 9
销量y(件) 90 84 83 80 75 68
(1)求回归直线方程=x+,其中=-20,=-;
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)
解析:(1)由于=(8+8.2+8.4+8.6+8.8+9)=8.5,
=(90+84+83+80+75+68)=80,又=-20,
所以=-=80+20×8.5=250,从而回归直线方程为=-20x+250.
(2)设工厂获得的利润为L元,依题意得
L=x(-20x+250)-4(-20x+250)
=-20x2+330x-1 000
=-20(x-8.25)2+361.25.
当且仅当x=8.25时,L取得最大值.
故当单价定为8.25元时,工厂可获得最大利润.
14.某省2015年的阅卷现场有一位质检老师随机抽取5名学生的总成绩和数学成绩(单位:分)如表所示:
学生 A B C D E
总成绩(x) 482 383 421 364 362
数学成绩(y) 78 65 71 64 61
(1)作出散点图;
(2)由数表资料,经计算,得x=819 794,xi=2 012,yi=339,xiyi=137 760.求数学成绩y对总成绩x的回归直线方程;
(3)如果一个学生的总成绩为500分,试预测这个学生的数学成绩.
解析:(1)散点图如图所示:

(2)由xi=2 012,yi=339.
得=,=
根据散点图,知y与x具有线性相关关系.
则回归系数=eq \f(\o()xiyi-5\a\vs4\al(\x\to(x)) \a\vs4\al(\x\to(y)),\o()x\o\al(2,i)-5\x\to(x)2)=0.132 452,
=- =14.501 315.
∴回归方程为=0.132 452x+14.501 315.
(3)当x=500时,≈81.即当一个学生的总成绩为500分时,他的数学成绩约为81分.

15.2013年,首都北京经历了59年来雾霾天气最多的一个月.经气象局统计,北京市从1月1日至1月30日这30天里有26天出现雾霾天气,《环境空气质量指数(AQI)技术规定(试行)》将空气质量指数分为六级;其中,中度污染(四级),指数为151~200;重度污染(五级),指数为201~300;严重污染(六级),指数大于300.下面表1是该观测点记录的4天里,AQI指数M与当天的空气水平可见度y(千米)的情况,表2是某气象观测点记录的北京1月1日到1月30日AQI指数频数统计结果.
表1 AQI指数M与当天的空气水平可见度y(千米)情况
AQI指数 900 700 300 100
空气可见度/千米 0.5 3.5 6.5 9.5
表2 北京1月1日到1月30日AQI指数频数统计
AQI指数 [0,200] (200,400] (400,600] (600,800] (800,1 000]
频数 3 6 12 6 3
(1)设变量x=,根据表1的数据,求出y关于x的线性回归方程.
(2)根据表2估计这30天AQI指数的平均值.
解析:(1)由x=结合图表,可得x1=9,
x2=7,x3=3,x4=1,
所以=(9+7+3+1)=5,
=(0.5+3.5+6.5+9.5)=5,
所以xiyi=9×0.5+7×3.5+3×6.5+1×9.5=58,
x=92+72+32+12=140,
所以==-,
=5-5(-)=,
所以y关于x的线性回归方程是=-x+
(2)由表2知AQI指数的频率分别为=0.1,=0.2,=0.4,=0.2,=0.1,
故这30天AQI指数的平均值为:100×0.1+300×0.2+500×0.4+700×0.2+900×0.1=500.






















21世纪教育网 www.21cnjy.com 精品试卷·第 2 页 (共 2 页)



HYPERLINK "http://21世纪教育网(www.21cnjy.com)
" 21世纪教育网(www.21cnjy.com)