(共37张PPT)
第12章 统计学初步
第12章 统计学初步
相关关系
样本
观测数据
高度正相关的
中度正相关
高度负相关的
√
√
√
×
本部分内容讲解结束
按ESC键退出全屏播放
A
预习案,自生学习
研读·思考·尝试
探究案·讲练叵动
解惑·探究·突破12.4.1 相关性
12.4.2 回归直线
1.理解两个变量的相关关系的概念. 2.会作散点图,并利用散点图判断两个变量之间是否具有相关关系.
3.会求回归直线方程.
1.相关关系
变量x、y之间存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有随机性的,这时我们称x和y有相关关系.
2.散点图
具有相关关系的两个数据xi和yi成对出现,这时称数据对(xi,yi),i=1,2,…,n,为样本或观测数据,在坐标系中用点表示样本得到的图称为观测数据的散点图.
3.正相关、负相关
(1)随x的增加,y有明显的增加趋势,且数据(x1,y1),(x2,y2),…,(xn,yn)十分明显地集中在一条上升的直线附近,称x和y是高度正相关的,集中的程度不十分明显时,称x和y是中度正相关.
(2)当数据(x1,y1),(x2,y2),…,(xn,yn)十分明显地集中在一条下降的直线附近,称x和y是高度负相关的,集中程度不十分明显时,称x和y中度负相关.
4.回归直线
(1)如果有n个点(x1,y1),(x2,y2),…,(xn,yn),可以用下面的表达式来刻画这些点与直线y=bx+a的接近程度:
(y1-a-bx1)2+(y2-a-bx2)2+…+(yn-a-bxn)2,使得上式达到最小值的直线y=bx+a就是我们所要求的直线,即回归直线.
(2)b=eq
\f(sxy,s),a=-b,sxy=-,其中和分别表示{xi}和{yi}的样本均值,s表示{xi}的方差.
1.判断正误.(对的打“√”,错的打“×”)
(1)回归直线必经过点(,).( )
(2)对于方程y=bx+a,x增加一个单位时,y平均增加b个单位.( )
(3)样本数据中x=0时,可能有y=a.( )
(4)样本数据中x=0时,一定有y=a.( )
答案:(1)√ (2)√ (3)√ (4)×
2.两个变量成负相关关系时,散点图的特征是( )
A.点从左下角到右上角区域散布
B.点散布在某带形区域内
C.点散布在某圆形区域内
D.点从左上角到右下角区域散布
答案:D
3.判断下列图形中具有相关关系的两个变量是( )
解析:选C.A、B为函数关系,D无相关关系.
相关关系的判断[学生用书P40]
以下是在某地搜集到的不同楼盘新房屋的销售价格y(单位:万元)和房屋面积x(单位:m2)的数据:
房屋面积x(m2)
115
110
80
135
105
销售价格y(万元)
24.8
21.6
19.4
29.2
22
(1)画出数据对应的散点图;
(2)判断新房屋的销售价格和房屋面积之间是否具有相关关系?如果有相关关系,是正相关还是负相关?
【解】 (1)数据对应的散点图如图所示.
(2)通过以上数据对应的散点图可以判断,新房屋的销售价格和房屋的面积之间具有相关关系,且是正相关.
两个随机变量x和y相关关系的确定方法
(1)散点图法:通过散点图,观察它们的分布是否存在一定规律,直观地判断;
(2)表格、关系式法:结合表格或关系式进行判断;
(3)经验法:借助积累的经验进行分析判断.
1.下面是随机抽取的9名15岁男生的身高、体重表:
编号
1
2
3
4
5
6
7
8
9
身高/cm
165
157
155
175
168
157
178
160
163
体重/kg
52
44
45
55
54
47
62
50
53
判断所给的两个变量是否存在相关关系.
解:法一:根据经验可知,人的身高和体重之间存在相关关系.
法二:观察表格数据可知,人的体重随着身高的增加而增加,因此人的身高和体重之间存在相关关系.
求回归直线的方程[学生用书P41]
随着我国经济的快速发展,城乡居民的生活水平不断提高,为研究某市家庭平均收入与月平均生活支出的关系,该市统计部门随机调查10个家庭,得数据如下表:
家庭编号i
1
2
3
4
5
6
7
8
9
10
xi(收入)/千元
0.8
1.1
1.3
1.5
1.5
1.8
2.0
2.2
2.4
2.8
yi(支出)/千元
0.7
1.0
1.2
1.0
1.3
1.5
1.3
1.7
2.0
2.5
(1)判断家庭平均收入与月平均生活支出是否相关;
(2)若二者线性相关,求回归直线方程.
【解】 (1)作出散点图:
观察发现各个数据对应的点都在一条直线附近,所以二者有线性相关关系.
(2)=(0.8+1.1+1.3+1.5+1.5+1.8+2.0+2.2+2.4+2.8)=1.74,=(0.7+1.0+1.2+1.0+1.3+1.5+1.3+1.7+2.0+2.5)=1.42,b=eq
\f(sxy,s)≈0.813
6,
a=1.42-1.74×0.813
6≈0.004
3,
所以回归方程为y=0.813
6x+0.004
3.
求回归直线的方程的步骤
(1)计算平均数,.
(2)计算sxy.
(3)计算s.
(4)将结果代入公式b=eq
\f(sxy,s).
(5)用a=-b,求a.
(6)写出回归直线的方程.
2.某产品的广告费用x与销售额y的统计数据如下表:
广告费用x(万元)
4
2
3
5
销售额y(万元)
49
26
39
54
根据上表可得回归方程y=bx+a中的b为9.4,据此模型预报广告费用为6万元时销售额为( )
A.63.6万元
B.65.5万元
C.67.7万元
D.72.0万元
解析:选B.因为==,
==42.
又y=bx+a必过(,),
所以42=×9.4+a,所以a=9.1.
所以线性回归方程为=9.4x+9.1.
所以当x=6时,=9.4×6+9.1=65.5(万元).
利用回归方程估计整体[学生用书P41]
随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:
年份
2012
2013
2014
2015
2016
时间代号t
1
2
3
4
5
储蓄存款y(千亿元)
5
6
7
8
10
(1)求y关于t的回归方程y=bt+a.
(2)用所求回归方程预测该地区2017年(t=6)的人民币储蓄存款.
【解】 (1)列表如下:
i
1
2
3
4
5
ti
1
2
3
4
5
yi
5
6
7
8
10
n=5,=3,
=7.2,b=1.2,a=3.6,
故所求回归方程为y=1.2t+3.6.
(2)将t=6代入回归方程可预测该地区2017年的人民币储蓄存款为y=1.2×6+3.6=10.8(千亿元).
回归分析的三个步骤
(1)判断两个变量是否线性相关:可利用经验,也可以画散点图.
(2)求回归直线方程,注意运算的准确性.
(3)根据回归直线进行预测:估计值不是实际值,两者会有一定的误差.
3.某个体服装店经营某种服装在某周内所获纯利y(元)与该周每天销售这种服装的件数x(件)之间有一组数据如表:
每天销售服装件数x(件)
3
4
5
6
7
8
9
该周内所获纯利y(元)
66
69
73
81
89
90
91
(1)求,;
(2)若纯利y与每天销售这种服装的件数x之间是线性相关的,求回归方程;
(3)若该店每周至少要获纯利200元,请你预测该店每天至少要销售这种服装多少件?
解:(1)==6,
=≈79.86.
(2)因为b≈4.75,a=79.86-4.75×6=51.36,
所以纯利与每天销售件数x之间的回归方程为y=51.36+4.75x.
(3)当y=200时,200=4.75x+51.36,所以x≈31.29.
因此若该店每周至少要获纯利200元,
则该店每天至少要销售这种服装32件.
1.两个变量x和y相关关系的确定方法
(1)散点图法:通过散点图,观察它们的分布是否存在一定规律,直观地判断;
(2)表格、关系式法:结合表格或关系式进行判断;
(3)经验法:借助积累的经验进行分析判断.
2.回归分析是寻找相关关系中非确定性关系的某种确定性.
(1)利用散点图判定两个变量是否具有相关关系,注意不要受个别点的位置的影响.
(2)求回归直线方程,关键在于正确地求出系数a,b,由于a,b的计算量大,计算时要仔细,避免计算失误.
1.我们常说“吸烟有害健康”,吸烟与健康之间的关系是( )
A.正相关
B.负相关
C.无相关
D.不确定
解析:选B.烟吸得越多,则健康程度越差.
2.某考察团对全国10个城市进行职工人均工资水平x(千元)与居民人均消费水平y(千元)统计调查,y与x具有相关关系,回归方程为y=0.66x+1.562,若某城市居民人均消费水平为7.675(千元),估计该城市人均消费占人均工资收入的百分比约为( )
A.83%
B.72%
C.67%
D.66%
解析:选A.由y=0.66x+1.562知,
当y=7.675时,x=,
所以所求百分比为=≈83%.
3.工人月工资y(元)与劳动生产率x(千元)的回归方程为y=82+75x,当劳动生产率提高1
000元时,月工资平均提高________元.
解析:由b的意义可知.
答案:75
4.已知回归方程y=4.4x+383.19,则可估计x与y的增长速度之比约为________.
解析:回归直线y=bx+a中b的几何意义是回归直线的斜率,所以x与y的增长速度之比为1∶4.4=5∶22.
答案:5∶22
5.某地农业技术指导站的技术员,经过在7块并排大小相同的试验田上进行施化肥量对水稻产量影响的试验,得到如下表所示的一组数据:(单位:千克)
施化肥量x
15
20
25
30
35
40
45
水稻产量y
330
345
365
405
445
450
455
施化肥量x和水稻产量y是否具有相关关系?
解:作出散点图进行分析.散点图如下:
从散点图可以看出施化肥量x和水稻产量y的确存在一定相关关系,大体上随着施化肥量的增加,水稻的产量也在增加.
[A 基础达标]
1.下列变量之间的关系不具有相关关系的是( )
A.已知二次函数y=ax2+bx+c,其中a、b是已知常数,取b为自变量,因变量是这个函数对应方程ax2+bx+c=0的判别式Δ=b2-4ac
B.光照时间和果树每公顷产量
C.降雪量和交通事故发生率
D.每公顷用肥料量和粮食每公顷产量
解析:选A.自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫作相关关系,从而易知B、C、D表示的关系均为相关关系,故选A.
2.如图所示是具有相关关系的两个变量的一组数据的散点图,去掉哪个点后,两个变量的相关关系更明显( )
A.D
B.E
C.F
D.A
解析:选C.A、B、C、D、E五点分布在一条直线附近且贴近该直线,而F点离得远,故去掉点F.
3.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:
①y与x负相关且y=2.347x-6.423;
②y与x负相关且y=-3.476x+5.648;
③y与x正相关且y=5.437x+8.493;
④y与x正相关且y=-4.326x-4.578.
其中一定不正确的结论的序号是( )
A.①②
B.②③
C.③④
D.①④
解析:选D.①中y与x负相关而斜率为正,不正确;④中y与x正相关而斜率为负,不正确.
4.某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是( )
A.y=-10x+200
B.y=10x+200
C.y=-10x-200
D.y=10x-200
解析:选A.可判断B、D正相关,C不合实际意义.
5.已知x,y的几组对应数据如下表:
x
0
1
2
3
4
y
2
3
6
9
10
根据上表利用最小二乘法求得回归方程y=bx+a中的b=2.2,那么a=( )
A.2
B.1.6
C.1.2
D.-11.2
解析:选B.易得=2,=6,则a=-b=1.6.
6.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:y=0.254
x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.
解析:由题意知[0.254(x+1)+0.321]-(0.254
x+0.321)=0.254.
答案:0.254
7.某市物价部门曾对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商品的售价x元与销售量y件之间的一组数据如下表所示:
价格x
9
9.5
10
10.5
11
销售量y
11
10
8
6
5
由散点图可知,销售量y与价格x之间有较强的线性相关关系,其线性回归方程是:y=-3.2x+a,则a=________.
解析:易求==10,
==8,
所以y=-3.2x+a一定过(10,8),
所以8=-3.2×10+a,所以a=40.
答案:40
8.对某台机器购置后的运营年限x(x=1,2,3,…)与当年利润y的统计分析知具备线性相关关系,线性回归方程为y=10.47-1.3x,估计该台机器使用________年最合算.
解析:只要预计利润不为负数,使用该机器就算合算,即y≥0,所以10.47-1.3x≥0,解得x≤8.05,所以该台机器使用8年最合算.
答案:8
9.改革开放以来,我国高等教育事业有了突飞猛进的发展,有人记录了某村2012到2016年五年间每年考入大学的人数,为了方便计算,2012年编号为1,2013年编号为2,……,2016年编号为5,数据如下:
年份(x)
1
2
3
4
5
人数(y)
3
5
8
11
13
根据这5年的数据,利用最小二乘法求出y关于x的回归方程y=bx+a,并计算2019年的估计值.
解:由已知数据得=3,=8,
则b=2.6,a=8-2.6×3=0.2,
则回归直线的方程为y=2.6x+0.2,
则2019年的估计值为2.6×8+0.2=21.
10.某调查机构为了了解某地区的家庭收入水平与消费支出的相关情况,抽查了多个家庭,根据调查资料得到以下数据:每户平均年收入为88
000元,每户平均年消费支出为50
000元,支出对于收入的回归系数为0.6.
(1)求支出对于收入的回归方程;
(2)平均年收入每增加100元,平均年消费支出约增加多少元?
(3)若某家庭年消费支出为80
000元,试估计该家庭的年收入为多少元?
解:(1)设年收入为x元,年支出为y元,知=88
000元,=50
000元,b=0.6,
则a=-b=50
000-0.6×88
000=-2
800.
故支出对于收入的回归方程为y=0.6x-2
800.
(2)平均年收入每增加100元,平均年消费支出约增加60元.
(3)某家庭年消费支出为80
000元,
根据回归方程y=0.6x-2
800,可得80
000=0.6x-2
800,
解得x=138
000,
即估计该家庭的年收入为138
000元.
[B 能力提升]
11.工人工资y(元)与劳动生产率x(千元)的相关关系的回归直线方程为y=50+80x,下列判断正确的是( )
A.劳动生产率为1
000元时,工人工资为130元
B.劳动生产率提高1
000元时,工人工资平均提高80元
C.劳动生产率提高1
000元时,工人工资平均提高130元
D.当月工资为250元时,劳动生产率为2
000元
解析:选B.回归直线斜率为80,所以x每增加1,y平均增加80,即劳动生产率提高1
000元时,工人工资平均提高80元.
12.在一次试验中,测得(x,y)的四组数据分别为A(1,3),B(2,3.4),C(3,5.6),D(4,6),假设它们存在线性相关关系,则y与x之间的回归方程为________.
解析:==,
==.
b=eq
\f(sxy,s)=1.12.
a=-b
=-1.12×=1.7.
所以y=1.7+1.12x.
答案:y=1.12x+1.7
13.某企业的某种产品产量与单位成本统计数据如下:
月份
1
2
3
4
5
6
产量(千件)
2
3
4
3
4
5
单位成本(元/件)
73
72
71
73
69
68
(1)试确定回归直线方程;
(2)指出产量每增加1
000件时,单位成本下降多少?
(3)假定产量为6
000件时,单位成本是多少?
解:
(1)设x表示每月产量(单位:千件),y表示单位成本(单位:元/件),作散点图.由图知y与x间呈线性相关关系,
设线性回归方程为y=bx+a.
由公式可求得b≈-1.818,a=77.363,
所以回归直线方程为y=-1.818x+77.363.
(2)由回归方程知,每增加1
000件产量,单位成本下降1.818元.
(3)当x=6时,y=-1.818×6+77.363=66.455,
所以产量为6
000件时,单位成本是66.455元/件.
14.(选做题)下面是某市一周申请领结婚证的新郎和新娘的年龄,记为(y,x),其中新郎年龄为y,新娘年龄为x.
(37,30),(30,27),(65,56),(45,40),(32,30),(28,26),(45,31),(29,24),(26,23),(28,25),(42,29),(36,33),(33,29),(24,22),(32,33),(21,29),(37,46),(28,25),(33,34),(21,23),(24,23),(49,44),(28,29),(30,30),(24,25),(22,23),(68,60),(25,25),(32,27),(42,37),(24,24),(24,22),(28,27),(36,31),(23,24),(30,26).
以下考虑y关于x的回归问题:
(1)如果每个新郎和新娘都同岁,穿过这些点的回归直线的斜率和截距等于什么?
(2)如果每个新郎都比新娘大5岁,穿过这些点的回归直线的斜率和截距等于什么?
(3)如果每个新郎都比新娘大10%,穿过这些点的回归直线的斜率和截距等于什么?
(4)对上面的实际年龄求回归方程,你从新郎和新娘的年龄模型中可得出什么结论?
解:(1)当y=x时,易得b=1,a=0.
故回归直线的斜率为1,截距为0.
(2)当y=x+5时,易得b=1,a=5.
故回归直线的斜率为1,截距为5.
(3)当y=x(1+10%)时,
易得b=1.1,a=0.
故回归直线的斜率为1.1,截距为0.
(4)回归直线为y=1.1x-1.1.
从回归方程可以看出,新郎的年龄一般比新娘的年龄大,尤其是在大龄夫妇中.
PAGE
1(共27张PPT)
本部分内容讲解结束
按ESC键退出全屏播放
A