4.3.2 独立性检验
学
习
任
务
核
心
素
养
1.通过实例,理解2×2列联表的统计意义.(重点)2.通过实例,了解2×2列联表独立性检验及其应用.(难点)
1.通过2×2列联表统计意义的学习,体会数学抽象的素养.2.借助χ2计算公式进行独立性检验,培养数学运算和数据分析的素养.
一则“双黄连口服液可抑制新冠病毒”消息热传后,引起部分市民抢购.人民日报官微称,抑制不等于预防和治疗,勿自行服用.上海专家称是否有效还在研究中.
问题:如何判断其有效?如何收集数据?收集哪些数据?
[提示] 略.
知识点1 2×2列联表
(1)定义:如果随机事件A与B的样本数据整理成如下的表格形式.
A
总计
B
a
b
a+b
c
d
c+d
总计
a+c
b+d
a+b+c+d
因为这个表格中,核心数据是中间4个格子,所以这样的表格通常称为2×2列联表.
(2)χ2计算公式:χ2=,其中n=a+b+c+d.
拓展:列联表的统计意义
记n=a+b+c+d,则由上表可知:
(1)事件A发生的概率可估计为P(A)=;
(2)事件B发生的概率可估计为P(B)=;
(3)事件AB发生的概率可估计为P(AB)=.
其他事件的概率类似可求.
1.下面是2×2列联表.
y1
y2
总计
x1
a
21
73
x2
2
25
27
总计
b
46
100
则表中a=________,b=________.
52 54 [a=73-21=52,b=a+2=52+2=54.]
知识点2 独立性检验
任意给定一个α(称为显著性水平,通常取为0.05,0.01等),可以找到满足条件P(χ2≥k)=α的数k(称为显著性水平α对应的分位数),就称在犯错误的概率不超过α的前提下,可以认为A与B不独立(也称为A与B有关);或说有1-α的把握认为A与B有关.若χ2<k成立,就称不能得到前述结论.这一过程通常称为独立性检验.
提醒:(1)χ2<k的统计意义
A与B独立时,也称为A与B无关.当χ2<k成立时,一般不直接说A与B无关.也就是说,独立性检验通常得到的结果,或者是有1-α的把握认为A与B有关,或者没有1-α的把握认为A与B有关.
(2)常用的显著性水平α以及对应的分位数k对照表
α=P(χ2≥k)
0.1
0.05
0.01
0.005
0.001
k
2.706
3.841
6.635
7.879
10.828
2.下列选项中,哪一个χ2的值可以有95%以上的把握认为“A与B有关系”( )
A.χ2=2.700
B.χ2=2.710
C.χ2=3.765
D.χ2=5.014
D [∵5.014>3.841,故D正确.]
3.若由一个2×2列联表中的数据计算得χ2=4.013,那么在犯错误的概率不超过__________的前提下认为两个变量之间有关系.
5% [查阅χ2表知有95%的把握认为两个变量之间有关系,故在犯错误的概率不超过5%的前提下,认为两个变量之间有关系.]
类型1 由χ2进行独立性检验
【例1】 在500人身上试验某种血清预防感冒的作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示.问:能否在犯错误的概率不超过1%的前提下认为该种血清能起到预防感冒的作用.
未感冒
感冒
总计
使用血清
258
242
500
未使用血清
216
284
500
总计
474
526
1
000
[思路点拨] 独立性检验可以通过2×2列联表计算χ2的值,然后和临界值对照作出判断.
[解] 假设感冒与是否使用该种血清没有关系.
由列联表中的数据,求得
χ2=≈7.075.
χ2=7.075>6.635,P(χ2≥6.635)=0.01,
故我们在犯错误的概率不超过1%的前提下,即有99%的把握认为该种血清能起到预防感冒的作用.
独立性检验的具体做法
1.根据实际问题的需要确定允许推断“事件A与B有关系”犯错误的概率的上界α,然后查表确定临界值k.
2.利用公式χ2=计算随机变量χ2.
3.如果χ2≥k推断“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.
1.为了调查胃病是否与生活规律有关,在某地对540名40岁以上的人的调查结果如下:
患胃病
未患胃病
总计
生活不规律
60
260
320
生活有规律
20
200
220
总计
80
460
540
根据以上数据,能否有99%的把握判断40岁以上的人患胃病与生活规律有关?
[解] 由公式得χ2=≈9.638.
∵9.638>6.635,
∴有99%的把握说40岁以上的人患胃病与生活是否有规律有关,即生活不规律的人易患胃病.
类型2 独立性检验的综合应用
1.利用χ2进行独立性检验,估计值的准确度与样本容量有关吗?
[提示] 利用χ2进行独立性检验,可以对推断的正确性的概率作出估计,样本容量n越大,这个估计值越准确,如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.
2.在χ2运算后,得到χ2的值为29.78,在判断变量相关时,P(χ2≥6.635)=0.01和P(χ2≥7.879)=0.005,哪种说法是正确的?
[提示] 两种说法均正确.P(χ2≥6.635)=0.01的含义是在犯错误的概率不超过0.01的前提下认为两个变量相关;而P(χ2≥7.879)=0.005的含义是在犯错误的概率不超过0.005的前提下认为两个变量相关.
【例2】 为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查,得到了如下的2×2列联表:
喜爱打篮球
不喜爱打篮球
总计
男生
6
女生
10
总计
48
已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为.
(1)请将上面的2×2列联表补充完整(不用写计算过程);
(2)能否在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关?说明你的理由;
(3)现从女生中抽取2人进一步调查,设其中喜爱打篮球的女生人数为X,求X的分布列与均值.
[思路点拨] (1)由古典概型的概率求得2×2列联表.
(2)计算χ2,判断P(χ2>3.841)=0.05是否成立.
(3)结合超几何分布求解.
[解] (1)列联表补充如下:
喜爱打篮球
不喜爱打篮球
总计
男生
22
6
28
女生
10
10
20
总计
32
16
48
(2)由χ2=≈4.286.
因为4.286>3.841,所以,能在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关.
(3)喜爱打篮球的女生人数X的可能取值为0,1,2.
其概率分别为
P(X=0)==,
P(X=1)==,
P(X=2)==,
故X的分布列为
X
0
1
2
P
X的均值为E(X)=0++=1.
1.检验两个变量是否相互独立,主要依据是计算χ2的值,再利用该值与分位数k进行比较作出判断.
2.χ2计算公式较复杂,一是公式要清楚;二是代入数值时不能张冠李戴;三是计算时要细心.
3.统计的基本思维模式是归纳,它的特征之一是通过部分数据的性质来推测全部数据的性质.因此,统计推断是可能犯错误的,即从数据上体现的只是统计关系,而不是因果关系.
2.2020年寒假,因为“新冠”疫情全体学生只能在家进行网上学习,为了研究学生网上学习的情况,某学校随机抽取100名学生对线上教学进行调查,其中男生与女生的人数之比为9∶11,抽取的学生中有30名男生对线上教学满意,有10名女生对线上教学不满意.
(1)完成2×2列联表,并回答能否有90%的把握认为对线上教学是否满意与性别有关;
满意
不满意
总计
男生
女生
总计
100
(2)从被调查的对线上教学满意的学生中,利用分层抽样抽取5名学生,再在这5名学生中抽取2名学生,作线上学习的经验介绍,求恰好抽到1名男生与1名女生的概率.
[解] (1)
满意
不满意
总计
男生
30
15
45
女生
45
10
55
总计
75
25
100
χ2=≈3.030.
查表可得P(χ2≥2.706)=0.1,由于3.030>2.706,
故有90%的把握认为对线上教学是否满意与性别有关.
(2)由题可知,从被调查的对线上教学满意的学生中,利用分层抽样抽取5名学生,其中女生3名,男生2名.从这5名学生中抽取2名学生的情况有C种,其中抽取一名男生与一名女生的情况有CC种,故从这5名学生中恰好抽到1名男生与1名女生的概率为=.
1.随机调查某校110名学生是否喜欢跳舞,由公式χ2=(其中n=a+b+c+d)计算出χ2的值,并由此得出结论:有99%的把握认为学生是否喜欢跳舞与性别有关,则χ2可以为( )
P(χ2≥k)
0.10
0.05
0.025
0.010
k
2.706
3.841
5.024
6.635
A.3.565
B.4.204
C.5.233
D.6.842
D [因为有99%的把握认为学生是否喜欢跳舞与性别有关,所以χ2>6.635,故选D.]
2.利用独立性检验来考查两个变量A,B是否有关系,当随机变量χ2的值( )
A.越大,“A与B有关系”成立的可能性越大
B.越大,“A与B有关系”成立的可能性越小
C.越小,“A与B有关系”成立的可能性越大
D.与“A与B有关系”成立的可能性无关
A [用独立性检验来考查两个分类是否有关系时,算出的随机变量χ2的值越大,说明“A与B有关系”成立的可能性越大,由此可知A正确.故选A.]
3.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
男
女
总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
经计算得
χ2=≈7.8.
则正确结论是( )
A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
C.有99%以上的把握认为“爱好该项运动与性别有关”
D.有99%以上的把握认为“爱好该项运动与性别无关”
C [根据独立性检验的思想方法,正确选项为C.]
4.在一个2×2列联表中,由其数据计算得χ2=13.097,认为“两个变量有关系”犯错误的概率不超过________.
0.001 [如果χ2>10.828时,认为“两变量有关系”犯错误的概率不超过0.001.]
5.博鳌亚洲论坛2021年年会于4月18日至21日在海南博鳌镇举行.为了搞好对外宣传工作,会务组选聘了50名记者担任对外翻译工作,在下面“性别与会俄语”的2×2列联表中,a-b+d=________.
会俄语
不会俄语
总计
男
a
b
20
女
6
d
总计
18
50
28 [由题得解得所以a-b+d=28.]
回顾本节内容,自我完成以下问题:
1.2×2列联表的用途是什么?由样本得到的P(A),P(B),P(AB)来判断事件A与B的独立性是否合理?
[提示] (1)2×2列联表主要用于研究两个事件之间是相互独立的还是存在某种关联性,它适用于分析两个事件之间的关系.
(2)因为P(A),P(B),P(AB)都是根据样本数据得到的估计值,而估计是有误差的,因此直接用P(AB)=P(A)P(B)是否成立来判断A与B是否独立是不合理的.
2.解决独立性检验问题的基本步骤是什么?
[提示]
PAGE第2课时 相关系数与非线性回归
学
习
任
务
核
心
素
养
1.了解两个变量间的线性相关系数r,并能利用公式求相关系数r.(重点)2.能利用相关系数r判断两个变量线性相关程度的大小,从而判断回归直线方程拟合的效果.(重点)3.掌握非线性回归转化为线性回归的方法,会求非线性回归方程,并作出预测.(难点)
1.通过学习相关系数,培养数学运算的素养.2.借助非线性回归方程的学习,提升数据分析和数学建模的素养.
据隆众资讯数据统计,2017~2019年截止到10月底的数据显示,聚丙烯期货价格及现货价格二者相关系数为88.70%,其中2017年二者相关系数高达90.86%,2018年降至83.97%,2019年截止到10月底二者相关系数为65.23%.
问题:什么是相关系数,如何计算,它有什么作用?
[提示] 略.
知识点1 相关系数
(1)定义:统计学里一般用
r==
来衡量y与x的线性相关性强弱,这里的r称为线性相关系数(简称为相关系数).
(2)性质
①|r|≤1,且y与x正相关的充要条件是r>0,y与x负相关的充要条件是r<0;
②|r|越小,说明两个变量之间的线性相关性越弱,也就是得出的回归直线方程越没有价值,即方程越不能反映真实的情况;|r|越大,说明两个变量之间的线性相关性越强,也就是得出的回归直线方程越有价值;
③|r|=1的充要条件是成对数据构成的点都在回归直线上.
1.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r如下表:
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
则哪位同学的试验结果体现A,B两变量有更强的线性相关性( )
A.甲
B.乙
C.丙
D.丁
D [r的绝对值越接近1,相关性越强,故选D.]
知识点2 非线性回归方程
如果具有相关关系的两个变量x,y不是线性相关关系,那么称为非线性相关关系,所得到的方程称为非线性回归方程(也简称为回归方程).
如何猜测非线性回归方程的类型?
[提示] 可以通过作出散点图,结合已学的函数模型进行猜测.
拓展:常见的非线性回归方程的转换方式如下:
曲线方程
曲线(曲线的一部分)
变换公式
变换后的线性函数
y=axb
c=ln
a
v=ln
xu=ln
y
u=c+bv
y=aebx
c=ln
au=ln
y
u=c+bx
y=aeeq
\s\up12()
c=ln
av=u=ln
y
u=c+bv
y=a+bln
x
v=ln
x
y=a+bv
2.在一项调查中有两个变量x和y,下图是由这两个变量近8年来的取值数据得到的散点图,那么适宜作为y关于x的回归方程的函数类型是( )
A.y=a+bx
B.y=c+d
C.y=m+nx2
D.y=p+qcx(q>0)
B [散点图呈曲线,排除A选项,且增长速度变慢,排除选项C、D,故选B.]
类型1 相关系数的性质
【例1】 (1)相关变量x,y的散点图如图所示,现对这两个变量进行线性相关性分析.方案一:根据图中所有数据,得到回归直线方程=1x+1,相关系数为r1;方案二:剔除点(10,21),根据剩下数据得到回归直线方程:=2x+2,相关系数为r2,则( )
A.0<r1<r2<1
B.0<r2<r1<1
C.-1<r1<r2<0
D.-1<r2<r1<0
(2)设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线方程的回归系数为,回归截距是,那么必有( )
A.与r的符号相同
B.与r的符号相同
C.与r的符号相反
D.与r的符号相同
(1)D (2)A [(1)由散点图得负相关,所以r1,r2<0,因为剔除点(10,21)后,剩下的数据更具有线性相关性,|r|更接近1,所以-1<r2<r1<0.
(2)由公式可知与r的符号相同.]
线性相关强弱的判断方法
(1)散点图(越接近直线,相关性越强).
(2)相关系数(绝对值越大,相关性越强).
1.如图是具有相关关系的两个变量的一组数据的散点图和回归直线,若去掉一个点使得余下的5个点所对应的数据的相关系数最大,则应当去掉的点是( )
A.D B.E
C.F D.A
B [因为相关系数的绝对值越大,越接近1,则说明两个变量的相关性越强.因为点E到直线的距离最远,所以去掉点E,余下的5个点所对应的数据的相关系数最大.]
类型2 相关系数的计算及应用
【例2】 假设关于某种设备的使用年限x(单位:年)与所支出的维修费用y(单位:万元)有如下统计资料:
x
2
3
4
5
6
y
2.2
3.8
5.5
6.5
7.0
已知x=90,y≈140.8,xiyi=112.3,≈8.9,≈1.4.
(1)计算y与x之间的相关系数(精确到0.001),并求出回归直线方程;
(2)根据回归方程,预测假设使用年限为10年时,维修费用约是多少万元?
[解] (1)∵==4,
==5.
xiyi-5=112.3-5×4×5=12.3,
x-52=90-5×42=10,
y-52=140.8-125=15.8,
所以r===≈≈0.987.
又===1.23.
=-=5-1.23×4=0.08.
所以回归直线方程为=1.23x+0.08.
(2)当x=10时,=1.23×10+0.08=12.38(万元),
即假设使用10年时,维修费用约为12.38万元.
2.某厂的生产原料耗费x(单位:百万元)与销售额y(单位:百万元)之间有如下的对应关系:
x
2
4
6
8
y
30
40
50
70
(1)计算x与y之间的相关系数,并求其回归直线方程;
(2)若实际销售额不少于80百万元,则原料耗费应该不少于多少?
[解] (1)画出(x,y)的散点图如图所示,由图可知x,y有线性关系.
=5,=47.5,x=120,y=9
900,xiyi=1
080,
故相关系数r=
=≈0.982
7.
===6.5,
=-=47.5-6.5×5=15.
故回归直线方程为=6.5x+15.
(2)由回归直线方程知,
当≥80,即6.5x+15≥80时,
x≥10.
故原料耗费应不少于10百万元.
类型3 非线性回归方程
已知x和y之间的一组数据,则下列四个函数中,哪一个作为回归模型最好?
x
1
2
3
y
3
5.99
12.01
①y=3×2x-1;②y=log2x;③y=4x;④y=x2.
[提示] 作出散点图(图略),观察散点图中样本点的分布规律可判断样本点分布在曲线y=3×2x-1附近.①作为回归模型最好.
【例3】 某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每件产品的非原料成本y(元)与生产该产品的数量x(千件)有关,经统计得到如下数据:
x
1
2
3
4
5
6
7
8
y
112
61
44.5
35
30.5
28
25
24
根据以上数据,绘制了散点图.
观察散点图,两个变量不具有线性相关关系,现考虑用反比例函数模型y=a+和指数函数模型y=cedx分别对两个变量的关系进行拟合.已求得用指数函数模型拟合的回归方程为=96.54e-0.2x,ln
y与x的相关系数r1=-0.94.
参考数据:
uiyi
2
u
yi
y
e-2
183.4
0.34
0.115
1.53
360
22
385.5
61.4
0.135
(1)用反比例函数模型求y关于x的回归方程;
(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到0.01),并用其估计产量为10千件时每件产品的非原料成本;
(3)该企业采取订单生产模式(根据订单数量进行生产,即产品全部售出).根据市场调研数据,若该产品单价定为100元,则签订9千件订单的概率为0.8,签订10千件订单的概率为0.2;若单价定为90元,则签订10千件订单的概率为0.3,签订11千件订单的概率为0.7.已知每件产品的原料成本为10元,根据(2)的结果,企业要想获得更高利润,产品单价应选择100元还是90元,请说明理由.
参考公式:对于一组数据(u1,υ1),(u2,υ2),…,(un,υn),其回归直线υ=+u的斜率和截距的最小二乘估计分别为:=,=-,
相关系数r=
[思路点拨] (1)首先可令u=并将y=a+转化为y=a+bu,然后根据题目所给数据以及线性回归方程的相关公式计算出以及,即可得出结果;
(2)计算出反比例函数模型的相关系数r并通过对比即可得出结果;
(3)可分别计算出单价为100元和90元时产品的利润,通过对比即可得出结果.
[解] (1)令u=,则y=a+可转化为y=a+bu,因为==45,所以
====100,
则=-=45-100×0.34=11,
所以=11+100u,
所以y关于x的回归方程为=11+.
(2)y与的相关系数为:
r2=
=≈0.99.
因为|r1|<|r2|,所以用反比例函数模型拟合效果更好,
当x=10时,y=+11=21(元),
所以当产量为10千件时,每件产品的非原料成本为21元.
(3)①当产品单价为100元,设订单数为x千件,因为签订9千件订单的概率为0.8,签订10千件订单的概率为0.2,
所以E(x)=9×0.8+10×0.2=9.2,
所以企业利润为100×9.2-9.2×=626.8(千元).
②当产品单价为90元,设订单数为y千件,
因为签订10千件订单的概率为0.3,签订11千件订单的概率为0.7,
所以E(y)=10×0.3+11×0.7=10.7,
所以企业利润为
90×10.7-10.7×=638.3(千元).
故企业要想获得更高利润,产品单价应选择90元.
非线性回归问题有时并不给出经验公式,这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图像作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决.其一般步骤为:
3.二手车经销商小王对其所经营的A型号二手汽车的使用年数x与销售价格y(单位:万元/辆)进行整理,得到如下数据:
使用年数x
2
3
4
5
6
7
售价y
20
12
8
6.4
4.4
3
z=ln
y
3.00
2.48
2.08
1.86
1.48
1.10
下面是z关于x的折线图:
(1)由折线图可以看出,可以用线性回归模型拟合z与x的关系,请用相关系数加以说明;
(2)求y关于x的回归方程并预测某辆A型号二手车当使用年数为9年时售价约为多少?
(,小数点后保留两位有效数字)
(3)基于成本的考虑,该型号二手车的售价不得低于7
118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年?
参考数据:
xiyi=187.4,xizi=47.64,x=139,
≈4.18,=13.96,
=1.53,
ln
1.46≈0.38,ln
0.711
8≈-0.34.
参考公式:回归直线方程=x+中斜率和截距的最小二乘估计公式分别为:
==,=-.
r=,,为样本平均值.
[解] (1)由题意,计算
=×(2+3+4+5+6+7)=4.5,
=×(3+2.48+2.08+1.86+1.48+1.10)=2,
且xizi=47.64,
≈4.18,
=1.53,所以
r===-≈-0.99.
所以z与x的相关系数大约为-0.99,说明z与x的线性相关程度很高.
(2)利用最小二乘估计公式计算
==
=-≈-0.36,
所以=-=2+0.36×4.5=3.62,
所以z关于x的线性回归方程是=-0.36x+3.62,
又z=ln
y,所以y关于x的回归方程是=e-0.36x+3.62.
令x=9,解得y=e-0.36×9+3.62≈1.46,即预测某辆A型号二手车当使用年数为9年时售价约1.46万元.
(3)当y≥0.711
8时,
e-0.36x+3.62≥0.711
8=eln
0.711
8=e-0.34,
所以-0.36x+3.62≥-0.34,解得x≤11,因此预测在收购该型号二手车时车辆的使用年数不得超过11年.
1.两个变量之间的线性相关程度越低,其线性相关系数的数值( )
A.越接近于-1
B.越接近于0
C.越接近于1
D.越小
B [由相关系数的含义可得:两个变量之间的线性相关程度越低,其线性相关系数的数值越接近于0.故选B.]
2.如图所示,给出了样本容量均为7的A,B两组样本数据的散点图,已知A组样本数据的相关系数为r1,B组数据的相关系数为r2,则( )
A.r1=r2
B.r1<r2
C.r1>r2
D.无法判定
C [根据A,B两组样本数据的散点图知,A组样本数据几乎在一条直线上,且成正相关,∴相关系数为r1应最接近1,B组数据分散在一条直线附近,也成正相关,∴相关系数为r2,满足r2r2,故选C.]
3.对于线性相关系数r,叙述正确的是( )
A.r∈(-∞,+∞),且r越大,相关程度越大
B.r∈(-∞,+∞),且|r|越大,相关程度越大
C.r∈[-1,1],且r越大,相关程度越大
D.r∈[-1,1],且|r|越大,相关程度越大
D [相关系数r是来衡量两个变量之间的线性相关程度的,线性相关系数是一个绝对值小于等于1的量,并且它的绝对值越大就说明相关程度越大.故选D.]
4.若回归直线方程中的回归系数=0,则相关系数r=________.
0 [相关系数r=与=的分子相同,故r=0.]
5.在一次试验中,测得(x,y)的四组值分别为(1,2),(2,0),(4,-4),(-1,6),则y与x的相关系数为________.
-1 [法一:=1.5,=1,x=22,y=56,xiyi=-20,
相关系数r==-1.
法二:观察四个点,发现其在一条单调递减的直线上,故y与x的相关系数为-1.]
回顾本节内容,自我完成以下问题.
1.你对相关系数是怎样认识的?
[提示] (1)样本的相关系数r可以定量地反映出变量间的相关程度,明确给出有无必要建立两变量间的回归方程.
(2)|r|很小只是说明两个变量之间的线性相关程度弱,但不一定不相关.
2.散点图和相关系数都可以确定两变间是否具备相关关系,两者有何区别与联系?
[提示] (1)散点图从形的角度来判断;相关系数r则是从数的角度来判断.
(2)判断变量之间的线性相关关系,一般用散点图,但在作图中,由于存在误差,有时很难判断这些点是否分布在一条直线的附近,从而就很难判断两个变量之间是否具有线性相关关系,此时就必须利用样本相关系数来判断.
(3)样本相关系数r只能描述两个变量之间的变化方向及密切程度,不能揭示二者之间的本质联系.
(4)样本相关系数r可以定量地反映出变量间的相关程度,明确的给出有无必要建立两变量间的回归直线方程.
PAGE4.3 统计模型
4.3.1 一元线性回归模型
第1课时 相关关系与回归直线方程
学
习
任
务
核
心
素
养
1.了解变量间的相关关系.(易混点)2.会根据散点图判断数据是否具有相关关系.(重点)3.了解最小二乘法的思想,会求回归直线方程,掌握回归方程的性质.(重点、难点)
1.通过回归直线方程及相关关系的学习,体会数学建模与直观想象的素养.2.借助回归直线方程的求法,培养数学运算的素养.
你知道“名师出高徒”的意思吗?——高明的师傅很可能教出技艺高的徒弟,比喻学识丰富的人对于培养人才的重要.也就是说,高水平的老师往往能教出高水平的学生.
问题:那么老师的水平与学生的水平之间具有怎样的关系呢?这种关系是确定的吗?该关系与函数关系相同吗?
[提示] 老师的水平与学生的水平之间具有相关性,一般而言,高水平的老师教出高水平的学生的可能性更大;但两者之间虽然具有相关性,却不具备确定性,这种关系是不确定的.不相同.
知识点1 相关关系
如果两个变量之间确实有一定的关系,但没有达到可以互相决定的程度,它们之间的关系带有一定的随机性,像这样两个变量之间的关系,统计学上称为相关关系.
1.函数关系是相关关系吗?
[提示] 不是.函数关系中两个变量之间是一种确定关系.
1.下列两个变量中,具有相关关系的是( )
A.正方体的体积与棱长
B.匀速行驶的汽车的行驶路程与时间
C.人的身高与体重
D.人的身高与视力
C [A选项中,正方体的体积与棱长是函数关系,不是相关关系;
B选项中,匀速行驶的汽车的行驶路程与时间是函数关系,不是相关关系;
C选项中,人的身高会影响体重,但不是唯一因素,所以人的身高与体重是相关关系;
D选项中,人的身高与视力无任何关系.]
知识点2 线性相关
(1)散点图
一般地,如果收集到了变量x和变量y的n对数据(简称为成对数据),如下表所示.
序号i
1
2
3
…
n
变量x
x1
x2
x3
…
xn
变量y
y1
y2
y3
…
yn
则在平面直角坐标系xOy中描出点(xi,yi),i=1,2,3,…,n,就可以得到这n对数据的散点图.
(2)线性相关:如果由变量的成对数据、散点图或直观经验可知,变量x与变量y之间的关系可以近似地用一次函数来刻画,则称x与y线性相关.
(3)正相关和负相关
若x与y线性相关,如果一个变量增大,另一个变量大体上也增大,则称这两个变量正相关;如果一个变量增大,另一个变量大体上减少,则称这两个变量负相关.
2.下列两个变量具有正相关关系的是( )
A.正方形的面积与边长
B.吸烟与健康
C.数学成绩与物理成绩
D.汽车的重量与汽车每消耗1
L汽油所行驶的平均路程
C [正方形的面积与边长是函数关系,A错误;吸烟与健康具有负相关关系,B错误;汽车越重,每消耗1
L汽油所行驶的平均路程越短,所以汽车的重量与汽车每消耗1
L汽油所行驶的平均路程具有负相关关系,D错误;数学成绩越好,物理成绩也会越好,所以数学成绩与物理成绩具有正相关关系,C正确.]
知识点3 回归直线方程
一般地,已知变量x与y的n对成对数据(xi,yi),i=1,2,3,…,n.任意给定一个一次函数y=bx+a,对每一个已知的xi,由直线方程可以得到一个估计值i=bxi+a,如果一次函数=x+能使取得最小值,则=x+称为y关于x的回归直线方程(对应的直线称为回归直线).因为是使得平方和最小,所以其中涉及的方法称为最小二乘法.
其中,回归系数==,
=-..
=(x1+x2+…+xn)=xi;
=(y1+y2+…+yn)=yi.
提醒:回归直线方程=x+中x的系数是,表示直线的斜率,注意与《选择性必修第一册》中的一次函数的关系式或直线方程y=ax+b进行区分.
3.思考辨析(正确的打“√”,错误的打“×”)
(1)相关关系是两个变量之间的一种确定的关系.
( )
(2)回归直线方程一定过样本中心点.
( )
(3)选取一组数据的部分点得到的回归方程与由整组数据得到的回归方程一定相同.
( )
(4)根据回归直线方程得到的结论一定是可靠的.
( )
[答案] (1)× (2)√ (3)× (4)×
知识点4 回归直线方程:=x+的性质
(1)回归直线一定过点(,).
(2)回归系数的实际意义:
①是回归方程的斜率;
②当x增大一个单位时,增大个单位.
2.y与x正负相关的充要条件分别是什么?
[提示] 当>0时,y与x正相关,反之也成立,同理<0是y与x负相关的充要条件.
4.已知回归直线的斜率的估计值是1.23,且过定点(4,5),则线性回归方程是________.
=1.23x+0.08 [回归直线的斜率的估计值为1.23,
即=1.23,又回归直线过定点(4,5),
∴=5-1.23×4=0.08,
∴=1.23x+0.08.]
类型1 变量间相关关系的判断
【例1】 (1)下列关系中,属于相关关系的是________.(填序号)
①扇形的半径与面积之间的关系;
②农作物的产量与施肥量之间的关系;
③出租车费与行驶的里程;
④降雪量与交通事故的发生率之间的关系.
(2)某种产品的广告费支出x与销售额y之间有如下对应数据(单位:百万元).
x
2
4
5
6
8
y
30
40
60
50
70
①画出散点图;
②从散点图中判断销售金额与广告费支出成什么样的关系?
(1)②④ [在①中,扇形的半径与面积之间的关系是函数关系;在②中,农作物的产量与施肥量之间不具有严格的函数关系,但具有相关关系;③为确定的函数关系;在④中,降雪量与交通事故的发生率之间具有相关关系.]
(2)[解] ①以x对应的数据为横坐标,以y对应的数据为纵坐标,所作的散点图如图所示.
②从图中可以发现广告费支出与销售金额之间具有相关关系,并且当广告费支出由小变大时,销售金额也大多由小变大,图中的数据大致分布在某条直线的附近,即x与y成正相关关系.
两个变量是否相关的两种判断方法
1.根据实际经验:借助积累的经验进行分析判断.
2.利用散点图:通过散点图,观察它们的分布是否存在一定的规律,直观地进行判断.如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.
1.
在下列所示的四个图中,每个图的两个变量具有相关关系的图是( )
(1) (2) (3) (4)
A.(1)(2)
B.(1)(3)
C.(2)(4)
D.(2)(3)
D [图(1)的两个变量具有函数关系;图(2)(3)的两个变量具有相关关系;图(4)的两个变量之间既不是函数关系,也不是相关关系.]
类型2 求回归直线方程
【例2】 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对应数据.
x
3
4
5
6
y
2.5
3
4
4.5
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+;
(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤,试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?
(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)
[解] (1)由题设所给数据,可得散点图如图.
(2)由对照数据,计算得:
x=86,
==4.5,
==3.5,
已知xiyi=66.5,
所以,由最小二乘法确定的回归方程的系数为
===0.7,
=-=3.5-0.7×4.5=0.35.
因此,所求的线性回归方程为=0.7x+0.35.
(3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为90-(0.7×100+0.35)=19.65(吨标准煤).
求回归方程的一般步骤
(1)收集样本数据,设为(xi,yi)(i=1,2,…,n).
(2)作出散点图,确定x,y具有线性相关关系.
(3)计算,,x,xiyi.
(4)代入公式计算,,公式为
(5)写出回归方程=
x+.
2.某研究机构对某校学生的记忆力x和判断力y进行统计分析,得下表数据:
x
6
8
10
12
y
2
3
5
6
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的回归直线方程.
[解] (1)散点图如图所示.
(2)==9,
==4,
(xi-)(yi-)=(-3)×(-2)+(-1)×(-1)+1×1+3×2=14,
(xi-)2=(-3)2+(-1)2+1+32=20,
所以==0.7,所以=-=4-0.7×9=-2.3,
故回归直线方程为=0.7x-2.3.
类型3 回归直线方程的性质及应用
假设y与x具有相关关系,而且回归直线方程为=x+.
1.回归直线方程的单调性由哪个参数决定?
[提示] .
2.该方程必过哪个定点?
[提示] (,).
【例3】 (多选题)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中正确的是( )
A.y与x具有正的线性相关关系
B.回归直线过样本点中心(,)
C.若该大学某女生身高增加1
cm,则其体重约增加0.85
kg
D.若该大学某女生身高为170
cm,则可断定其体重必为58.79
kg
ABC [当x=170时,=0.85×170-85.71=58.79,
体重的估计值为58.79
kg,故D错误,ABC均正确.]
1.相关关系的正、负相关类同于函数的增、减性,与其斜率有关,必要时可画散点图以增强直观性.
2.由回归方程得出的函数值不一定是准确值,只是个估计值.
3.(1)根据如下样本数据得到的回归方程为=x+,则( )
x
3
4
5
6
7
8
y
4.0
2.5
-0.5
0.5
-2.0
-3.0
A.>0,>0
B.>0,<0
C.<0,>0
D.<0,<0
(2)某单位为了了解用电量y度与气温x
℃之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表.
气温(℃)
18
13
10
-1
用电量(度)
24
34
38
64
由表中数据得线性回归方程=x+中=-2,预测当气温为-4
℃时,用电量的度数约为________度.
(1)B (2)68 [(1)画出散点图,知>0,<0.
(2)=10,=40,回归方程过点(,),
∴40=-2×10+.
∴=60.∴=-2x+60.
令x=-4,
∴=(-2)×(-4)+60=68.]
1.以下四个散点图中,两个变量的关系适合用线性回归模型刻画的是( )
① ② ③ ④
A.①②
B.①③ C.②③
D.③④
B [①③中的点分布在一条直线附近,适合线性回归模型.]
2.由变量x与y相对应的一组数据(1,y1),(5,y2),(7,y3),(13,y4),(19,y5)得到的线性回归方程为=2x+45,则=( )
A.135
B.90
C.67
D.63
D [∵=(1+5+7+13+19)=9,=2+45,
∴=2×9+45=63,故选D.]
3.工人工资y(元)与劳动生产率x(千元)的相关关系的回归方程为=50+80x,下列判断正确的是( )
A.劳动生产率为1
000元时,工人工资为130元
B.劳动生产率提高1
000元时,工人工资平均提高80元
C.劳动生产率提高1
000元时,工人工资平均提高130元
D.当月工资为250元时,劳动生产率为2
000元
B [因为回归直线的斜率为80,所以x每增加1,y平均增加80,即劳动生产率提高1
000元时,工人工资平均提高80元.]
4.某地区近10年居民的年收入x与年支出y之间的关系大致符合=0.8x+0.1(单位:亿元),预计今年该地区居民收入为15亿元,则今年支出估计是________亿元.
12.1 [将x=15代入=0.8x+0.1,得=12.1.]
5.如图是一组数据(x,y)的散点图,经最小二乘法计算,y与x之间的线性回归方程为=x+1,则=________.
0.8 [==2,==2.6,将(2,2.6)的坐标代入=x+1,解得=0.8.]
回顾本节内容,自我完成以下问题:
1.相关关系与函数关系有何区别与联系?
[提示]
分类
函数关系
相关关系
特征
变量之间的关系具有确定性,当一个变量确定后,另一个变量就确定了
变量之间确实有一定的关系,但没有达到可以互相决定的程度,它们之间的关系带有一定的随机性
区别
是确定性关系,还是因果关系.例如,圆的半径由1增大到2,其面积必然由π增大到4π
是一种不确定性关系.例如,吸烟不一定患肺癌,但吸烟多的人患肺癌的风险会大幅度增加.相关关系不一定是因果关系,也可能是伴随关系
联系
函数关系是一种理想的关系模型,而相关关系是一种更为一般的情况.二者在一定条件下可以相互转化,对于具有线性相关关系的两个变量来说,当求得其回归直线方程后,可以用一种确定性的关系对这两个变量间的取值进行评估
2.回归直线方程与直线方程有何区别?
[提示] 回归直线方程中y的上方加记号“”是与实际值y相区别,因为回归直线方程中的“”的值是通过统计大量数据所得到的一个预测值,它具有随机性,因而对于每一个具体的实际值而言,的值只是比较接近,但存在一定的误差,即y=+e(其中e为随机变量),预测值与实际值y的接近程度由随机变量e的标准差决定.直线方程中y与x的关系是确定的,给x一个值,y有唯一确定的值与之对应
PAGE