3.2 回归分析
学 习 目 标
核 心 素 养
1.会作出两个有关联变量的散点图,并利用散点图认识变量间的相关关系.
2.了解线性回归模型,能根据给出的线性回归方程系数公式建立线性回归方程.(重点、难点)
3.了解回归分析的基本思想、方法及简单应用.
1.通过学习线性回归分析,提升数据分析、数学建模素养.
2.通过对相关关系的学习,提升数学运算、数学抽象素养.
1.线性回归模型
(1)线性回归模型的概念:将y=a+bx+ε称为线性回归模型,其中a+bx是确定性函数,ε称为随机误差.
(2)线性回归方程:直线=+x称为线性回归方程,其中称为回归截距,称为回归系数,称为回归值,其中
其中=xi,=yi.
2.相关关系
(1)相关系数是精确刻画线性相关关系的量.
(2)相关系数r=
=.
(3)相关系数r具有的性质:
①|r|≤1;
②|r|越接近于1,x,y的线性相关程度越强;
③|r|越接近于0,x,y的线性相关程度越弱.
(4)相关性检验的步骤:
①提出统计假设H0:变量x,y不具有线性相关关系;
②如果以95%的把握作出推断,那么可以根据1-0.95=0.05与n-2在附录2中查出一个r的临界值r0.05(其中1-0.95=0.05称为检验水平);
③计算样本相关系数r;
④作出统计推断:若|r|>r0.05,则否定H0,表明有95%的把握认为x与y之间具有线性相关关系;若|r|≤r0.05,则没有理由拒绝原来的假设H0,即就目前数据而言,没有充分理由认为y与x之间有线性相关关系.
思考1:在回归直线方程=+x中,当一次项系数为正数时,说明两个变量有何相关关系?在散点图上如何反映?
[提示] 说明两个变量正相关,在散点图上自左向右看这些点呈上升趋势.
思考2:有什么办法判断两个变量是否具有线性相关关系?
[提示] 作出散点图,看这些点是否在某一直线的附近,或通过计算线性相关系数.
1.若回归直线方程中的回归系数=0,则相关系数为( )
A.r=1 B.r=-1
C.r=0 D.无法确定
C [因为==0时,有(xi-)(yi-)=0,故相关关系r==0.]
2.下列结论正确的是( )
①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
A.①② B.①②③
C.①②④ D.①②③④
C [函数关系和相关关系的区别是前者是确定性关系,后者是非确定性关系,故①②正确;回归分析是对具有相关关系的两个变量进行统计分析的一种方法,故③错误,④正确.]
3.某考察团对10个城市的职工人均工资x(千元)与居民人均消费y(千元)进行调查统计,得出y与x具有线性相关关系,且线性回归方程为=0.6x+1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为( )
A.66% B.67%
C.79% D.84%
D [∵y与x具有线性相关关系,且满足回归方程=0.6x+1.2,该城市居民人均工资为=5,∴可以估计该城市的职工人均消费水平=0.6×5+1.2=4.2,∴可以估计该城市人均消费额占人均工资收入的百分比为=84%.]
4.已知回归直线方程为=2-2.5x,则x=25时,的估计值为________.
-60.5 [因为=2-2.5x,又x=25,所以=2-2.5×25=-60.5.即的估计值为-60.5.]
回归分析的有关概念
【例1】 (1)有下列说法:
①线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的数学方法;
②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;
③通过回归方程=x+,可以估计和观测变量的取值和变化趋势;
④因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.
其中正确的命题是__________(填序号).
(2)如果某地的财政收入x与支出y满足线性回归方程=x++e(单位:亿元),其中=0.8,=2,|e|≤0.5,如果今年该地区财政收入10亿元,则今年支出预计不会超过________亿.
(1)①②③ (2)10.5 [(1)①反映的正是最小二乘法思想,故正确.②反映的是画散点图的作用,也正确.③解释的是回归方程=x+的作用,故也正确.④在求回归方程之前必须进行相关性检验,以体现两变量的关系,故不正确.
(2)由题意可得:=0.8x+2+e,当x=10时,=0.8×10+2+e=10+e,又|e|≤0.5,∴9.5≤≤10.5.
故今年支出预计不会超过10.5亿.]
1.在分析两个变量的相关关系时,可根据样本数据散点图确定两个变量之间是否存在相关关系,然后利用最小二乘法求出回归直线方程.
2.由线性回归方程给出的是一个预报值而非精确值.
3.随机误差的主要来源
(1)线性回归模型与真实情况引起的误差;
(2)省略了一些因素的影响产生的误差;
(3)观测与计算产生的误差.
1.下列有关线性回归的说法,不正确的是________(填序号).
①自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系;
②在平面直角坐标系中用描点的方法得到表示具有相关关系的两个量的一组数据的图形叫做散点图;
③线性回归方程最能代表观测值x,y之间的关系;
④任何一组观测值都能得到具有代表意义的回归直线方程.
④ [只有具有线性相关的两个观测值才能得到具有代表意义的回归直线方程.]
求线性回归方程
【例2】 某班5名学生的数学和物理成绩如下表:
学生
学科成绩
A
B
C
D
E
数学成绩(x)
88
76
73
66
63
物理成绩(y)
78
65
71
64
61
(1)画出散点图;
(2)求物理成绩y对数学成绩x的回归直线方程;
(3)一名学生的数学成绩是96,试预测他的物理成绩.
[思路探究] 先画散点图,分析物理与数学成绩是否有线性相关关系,若相关,再利用线性回归模型求解.
[解] (1)散点图如图所示.
(2)由散点图可知y与x之间具有线性相关关系.
因为=×(88+76+73+66+63)=73.2,
=×(78+65+71+64+61)=67.8,
xiyi=88×78+76×65+73×71+66×64+63×61=25 054,
x=882+762+732+662+632=27 174.
所以==≈0.625,
=-≈67.8-0.625×73.2=22.05.
所以y对x的回归直线方程是=0.625x+22.05.
(3)当x=96时,=0.625×96+22.05≈82,即可以预测他的物理成绩是82.
1.求线性回归方程的基本步骤
2.需特别注意的是,只有在散点图大致呈直线时,求出的线性回归方程才有实际意义,否则求出的回归方程毫无意义.
2.某商场经营一批进价是30元/台的小商品,在市场调查中发现,此商品的销售单价x(x取整数)元与日销售量y台之间有如下关系:
x
35
40
45
50
y
56
41
28
11
(1)y与x是否具有线性相关关系?如果具有线性相关关系,求出回归直线方程.(方程的回归系数保留一位有效数字)
(2)设经营此商品的日销售利润为P元,根据(1)写出P关于x的函数关系式,并预测当销售单价x为多少元时,才能获得最大日销售利润.
[解] (1)散点图如图所示,从图中可以看出这些点大致分布在一条直线附近,因此两个变量线性相关.
设回归直线为=x+,由题知=42.5,=34,
则求得==≈-3,
=-=34-(-3)×42.5=161.5,
∴=-3x+161.5.
(2)依题意有P=(-3x+161.5)(x-30)=-3x2+251.5x-4 845=-32+-4 845.
∴当x=≈42时,P有最大值,约为426,
即预测销售单价为42元时,能获得最大日销售利润.
线性回归分析
[探究问题]
1.作散点图的目的是什么?
[提示] 直观分析数据是否存在线性相关关系.
2.下表显示出变量y随变量x变化的一组数据,由此判断表示y与x之间的关系最可能的是________.(填序号)
x
4
5
6
7
8
9
10
y
14
18
19
20
23
25
28
①线性函数模型;②二次函数模型;③指数函数模型;④对数函数模型.
[提示] 画出散点图(图略),可以得到这些样本点在一条直线附近,故最可能是线性函数模型.故填①.
【例3】 10名同学在高一和高二的数学成绩如下表:
x
74
71
72
68
76
73
67
70
65
74
y
76
75
71
70
76
79
65
77
62
72
其中x为高一数学成绩,y为高二数学成绩.
(1)y与x是否具有相关关系?
(2)如果y与x具有线性相关关系,求回归直线方程.
[思路探究] 可先计算线性相关系数r的值,然后与r0.05比较,进而对x与y的相关性做出判断.
[解] (1)由已知表格中的数据,求得=71,=72.3,
r=≈0.78.
由检验水平0.05及n-2=8,在课本附录2中查得r0.05=0.632,因为0.78>0.632,
所以y与x之间具有很强的线性相关关系.
(2)y与x具有线性相关关系,设回归直线方程为
=+x,则有=≈1.22,
=-=72.3-1.22×71=-14.32.
所以y关于x的回归直线方程为=1.22x-14.32.
1.线性回归分析必须进行相关性检验;若忽略,则所求回归方程没有实际意义.
2.|r|越接近于1,两变量相关性越强,|r|越接近于0,两变量相关性越弱.
3.关于两个变量x和y的7组数据如下表所示:
x
21
23
25
27
29
32
35
y
7
11
21
24
66
115
325
试判断x与y之间是否有线性相关关系.
[解] =×(21+23+25+27+29+32+35)≈27.4,
=×(7+11+21+24+66+115+325)≈81.3,
x=212+232+252+272+292+322+352=5 414,
xiyi=21×7+23×11+25×21+27×24+29×66+32×115+35×325=18 542,
y=72+112+212+242+662+1152+3252=124 393,
∴r=
=
≈0.837 5.
∵0.837 5>0.755,
∴x与y之间具有线性相关关系.
1.本节课的重点是线性回归方程的求法,及线性回归分析,相关关系;难点是恰当选择模型,求解回归方程.
2.注意,回归直线方程一定过样本中心点(,).
1.判断(正确的打“√”,错误的打“×”)
(1)求回归直线方程前必须进行相关性检验.( )
(2)两个变量的相关系数越大,它们的相关程度越强.( )
(3)若相关系数r=0,则两变量x,y之间没有关系.( )
[答案] (1)√ (2)× (3)√
2.某产品的广告费用x与销售额y的统计数据如下表:
广告费用x(万元)
4
2
3
5
销售额y(万元)
49
26
39
54
根据上表可得回归方程=x+中的为9.4,据此模型预报广告费用为6万元时销售额为( )
A.63.6万元 B.65.5万元
C.67.7万元 D.72.0万元
B [样本点的中心是(3.5,42),则=-=42-9.4×3.5=9.1,所以回归直线方程是=9.4x+9.1,把x=6代入得=65.5.]
3.设某大学生的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系.根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中正确的是________(填序号).
(1)y与x具有正的线性相关关系;
(2)回归直线过样本点的中心(,);
(3)若该大学某女生身高增加1 cm,则其体重约增加0.85 kg;
(4)若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg.
(1)(2)(3) [回归方程中x的系数为0.85>0,因此y与x具有正的线性相关关系,(1)正确;
由回归方程系数的意义可知回归直线过样本点的中心(,),B正确;
∵回归方程=0.85x-85.71,∴该大学某女生身高增加1 cm,则其体重约增加0.85 kg,(3)正确;(4)不正确.]
4.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元)
8
8.2
8.4
8.6
8.8
9
销量y(件)
90
84
83
80
75
68
(1)求回归直线方程=x+,其中=-20,=-;
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)
[解] (1)=(8+8.2+8.4+8.6+8.8+9)=8.5,
=(90+84+83+80+75+68)=80.
∵=-20,=-,
∴=80+20×8.5=250,
∴回归直线方程为=-20x+250.
(2)设工厂获得的利润为L元,则L=x(-20x+250)-4(-20x+250)=-202+361.25,
∴该产品的单价应定为元时,工厂获得的利润最大.
课件53张PPT。第3章 统计案例3.2 回归分析23456相关系数 7越强 越弱 89101112131415161718回归分析的有关概念 1920212223求线性回归方程 24252627282930313233线性回归分析 34353637383940414243444546474849505152点击右图进入…Thank you for watching !课时分层作业(十五) 回归分析
(建议用时:60分钟)
[基础达标练]
一、选择题
1.关于回归分析,下列说法错误的是( )
A.回归分析是研究两个具有相关关系的变量的方法
B.线性相关系数可以是正的或负的
C.回归模型中一定存在随机误差
D.散点图明确反映变量间的关系
D [用散点图反映两个变量间的关系时,存在误差,故D错误.]
2.在回归分析中,相关系数r的绝对值越接近1,说明线性相关程度( )
A.越强 B.越弱
C.可能强也可能弱 D.以上均错
A [∵r=,∴|r|越接近1时,线性相关程度越强,故选A.]
3.由一组样本数据(x1,y1),(x2,y2),…,(xn,yn)得到回归直线方程=x+,那么下列说法中不正确的是( )
A.直线=x+必经过点(,)
B.直线=x+至少经过点(x1,y1)(x2,y2),…,(xn,bn)中的一个点
C.直线=x+的斜率为
D.直线=x+的纵截距为-
B [回归直线可以不经过任何一个点,所以B错误.选B.]
4.已知人的年龄x与人体脂肪含量的百分数y的回归方程为=0.577x-0.448,如果某人36岁,那么这个人的脂肪含量( )
A.一定是20.3%
B.在20.3%附近的可能性比较大
C.无任何参考数据
D.以上解释都无道理
B [将x=36代入回归方程得=0.577×36-0.448≈20.3.由回归分析的意义知,这个人的脂肪含量在20.3%附近的可能性较大,故选B.]
5.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
收入x(万元)
8.2
8.6
10.0
11.3
11.9
支出y(万元)
6.2
7.5
8.0
8.5
9.8
根据上表可得回归直线方程=x+,其中=0.76,=-.据此估计,该社区一户年收入为15万元家庭的年支出为( )
A.11.4万元 B.11.8万元
C.12.0万元 D.12.2万元
B [由题意得
==10,
==8,
所以=8-0.76×10=0.4,
所以=0.76x+0.4,
把x=15代入得到=11.8.]
二、填空题
6.如图所示,对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断________.
①变量x与y正相关,u与v正相关;
②变量x与y正相关,u与v负相关;
③变量x与y负相关,u与v正相关;
④变量x与y负相关,u与v负相关.
③ [由图(1)知,x与y是负相关,由图(2)知,u与v是正相关,故③正确.]
7.一轮又一轮的寒潮席卷全国.某商场为了了解某品牌羽绒服的月销售量y(件)与月平均气温x(℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,数据如下表:
月平均气温x/℃
17
13
8
2
月销售量y/件
24
33
40
55
由表中数据算出线性回归方程=x+中的≈-2.气象部门预测下个月的平均气温约为6 ℃,据此估计,该商场下个月羽绒服的销售量的件数约为________.
46 [∵样本点的中心为(10,38),
∴38=-2×10+.
∴=58,即=-2x+58.
∴当x=6时,y=46.]
8.在2019年1月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x元和销售量y件之间的一组数据如下表所示:
价格x(元)
9
9.5
m
10.5
11
销售量y(件)
11
n
8
6
5
由散点图可知,销售量y与价格x之间有较强的线性相关关系,其线性回归方程是=-3.2x+40,且m+n=20,则其中的n=________.
10 [==8+,
==6+,
回归直线一定经过样本点中心(,),
即6+=-3.2+40,即3.2m+n=42.
又因为m+n=20,即解得
故n=10.]
三、解答题
9.对于数据组:
x
1
2
3
4
y
1.9
4.1
6.1
7.9
(1)作散点图,你能直观上得到什么结论;
(2)求线性回归方程.
[解] (1)作图略.x,y具有很好的线性相关性.
(2)设=+x,
因为=2.5,=5,xiyi=60,
x=30,
故==2,
=-=5-2×2.5=0,
故所求的回归直线方程为=2x.
10.下表为某地近几年机动车辆数与交通事故的统计资料,求出y关于x的线性回归方程.
机动车辆数x/千台
95
110
112
120
129
135
150
180
交通事故数y/千件
6.2
7.5
7.7
8.5
8.7
9.8
10.2
13
[解] xi=1 031,yi=71.6,x=137 835,xiyi=9 611.7,=128.875,=8.95,将它们代入
计算得≈0.077 4.=-1.025,
所以,所求线性回归方程为=0.077 4x-1.025.
[能力提升练]
1.经统计,用于数学学习的时间(单位:小时)与成绩(单位:分)近似于线性相关关系.对某小组学生每周用于数学的学习时间x与数学成绩y进行数据收集如表:
x
15
16
18
19
22
y
102
98
115
115
120
由表中样本数据求得回归方程为y=bx+a,则点(a,b)与直线x+18y=100的位置关系是( )
A.a+18b<100
B.a+18b>100
C.a+18b=100
D.a+18b与100的大小无法确定
B [=(15+16+18+19+22)=18,
=(102+98+115+115+120)=110,
所以样本数据的中心点为(18,110),
所以110=18b+a,
即点(a,b)满足a+18b=110>100.]
2.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:
父亲身高x(cm)
174
176
176
176
178
儿子身高y(cm)
175
175
176
177
177
则y对x的线性回归方程为( )
A.y=x-1 B.y=x+1
C.y=88+x D.y=176
C [因为==176,=
=176,而回归方程经过样本中心点,所以排除A,B,又身高的整体变化趋势随x的增大而增大,排除D,所以选C.]
3.已知对一组观测值(xi,yi)(i=1,2,…,n)作出散点图后,确定具有线性相关关系,若对于=+x,求得=0.51,=61.75,=38.14,则线性回归方程为________.
y=0.51x+6.65 [∵=-=38.14-0.51×61.75
=6.647 5≈6.65.∴=0.51x+6.65.]
4.若线性回归方程中的回归系数=0,则相关系数r=________.
0 [=,
r=.
由计算公式知,若b=0,则r=0.]
5.为分析肥胖程度对总胆固醇与空腹血糖的影响,在肥胖人群中随机捕取8人,他们的体质指数BMI值、总胆固醇TC指标值(单位:mmol/L)、空腹血糖GLU指标值(单位:mmoL/L)如下表所示:
人员编号
1
2
3
4
5
6
7
8
BMI值x
25
27
30
32
33
35
40
42
TC指标值y
5.3
5.4
5.5
5.6
5.7
6.5
6.9
7.1
GLU指标值z
6.7
7.2
7.3
8.0
8.1
8.6
9.0
9.1
(1)用变量y与x,z与x的相关系数,分别说明TC指标值与BMI值、GLU指标值与BMI值的相关程度;
(2)求y关于x的线性回归方程,已知TC指标值超过5.2为总胆固醇偏高,据此模型分析当BMI值达到多大时,需要注意监控总胆固醇偏高的情况出现.(上述数据均要精确到0.01)
参考公式:相关系数r=
回归直线的方程是=x+,其中=,=-.
参考数据:=33,=6,=8,(xi-)2=244,(yi-)2=3.62,(zi-)2=5.4,(xi-)(yi-)=28.3,(xi-)(zi-)=35.4,≈15.6,≈1.9,≈2.3.
[解] (1)变量y与z的相关系数是r=≈0.95,变量z与x的相关系数是r=≈0.99,可以看出TC指标值与BMI值、GLU指标值与BMI值都是高度正相关.
(2)根据所给出的数据,可以计算出=≈0.12,=6-0.12×33=2.04.
所以y关于x的线性回归方程是=0.12x+2.04.
由0.12x+2.04≥5.2,可得x≥26.33,
据此模型分析,BMI值达到26.33时,需要注意监控总胆固醇偏高的情况出现.